This is an old revision of the document!


PDF 全文索引化

Zotero はPDF文書の全文索引化機能を有しています。PDF の全文索引化は現在、PDFに埋め込まれた文字列を単純な文字列のキャッシュ・ファイルへと変換するために外部プログラムを必要としています。初期設定では、Zoteroは、Xpdfプロジェクトのオープンソース、クロスプラットフォームPDF閲覧ソフトウェアである、pdftotextユーティリティを使用します。追加機能はもうひとつのXpdfユーティリティ、pdfinfoを通じて利用できます。

基本的なインストール法

専用の、プラットフォーム別のヴァージョンのpdftexとpdfinfoは、Zotero設定パネルを通じて、自動的にダウンロードおよびインストールすることができます。

これらの道具をインストールした後は、新しいPDFはライブラリーに追加されたときに自動的に索引化されます。すでに存在している添付ファイルについては、Zoteroの「設定」から索引化することができます。

PDFの全文索引化は画像のみを含むファイルに対しては機能しないことに留意してください。もっとも中には画像中心のPDFでありながら、検索可能な隠れた文字列層を含んでいるものもあります。(2007年3月28 日の時点ではJSTORPDFファイルに文字列層を含んでいます.))

高度なインストール法

Zotero は、修正されたpdftotextとpdfintoバイナリをWindows上で必要とします(コマンド入力画面が索引作成時に表示されるのを防ぐためです)。また、テキストファイルに書きこむ機能を含む特別なpdfinfo(ソースコード 利用可能)がすべてのプラットフォーム上で必要となります。

Xpdfのツール群を手動でインストールしたい(あるいはまだ特別性のバイナリが準備されていないプラットフォームの場合の)利用者は、ツール群をビルドして、バイナリをZoteroのデータ・ディレクトリの中に直接置くか、そこからバイナリへリンクを貼るかしてください。どちらにせよ、“pdftotext-{platform}“という形式に合ったプラットフォーム特有のファイルが、Zoteroのデータ・ディレクトリの中に作成されます。{platform} の箇所は、 “Win32”, “MacIntel”, “MacPPC”, “Linux-i686”などが入ります。 (現在のプラットフォームを確認するためには、Firefoxnのアドレスバーにjavascript:alert(navigator.platform)と入力しEnterキーを押してください。)Windows ヴァージョンは、”pdftotext-Win32.exe”というように.exe拡張子が必要です。インストールされたヴァージョン番号を含むテキストファイルが、pdftotext-{platform}.versionという形式で作られるでしょう。

ja/pdf_fulltext_indexing.1318805262.txt.gz · Last modified: 2011/10/16 18:47 by odon