This is an old revision of the document!


PDF 全文索引化

Zotero はPDF文書の全文索引化機能を有しています。PDF の全文索引化は現在、PDFに埋め込まれた文字列を単純な文字列のキャッシュ・ファイルへと変換するために外部プログラムを必要としています。初期設定では、Zoteroは、Xpdfプロジェクトのオープンソース、クロスプラットフォームPDF閲覧ソフトウェアである、pdftotextユーティリティを使用します。追加機能はもうひとつのXpdfユーティリティ、pdfinfoを通じて利用できます。

基本的なインストール法

専用の、プラットフォーム別のヴァージョンのpdftexとpdfinfoは、Zotero設定パネルを通じて、自動的にダウンロードおよびインストールすることができます。

これらの道具をインストールした後は、新しいPDFはライブラリーに追加されたときに自動的に索引化されます。すでに存在している添付ファイルについては、Zoteroの「設定」から索引化することができます。

PDFの全文索引化は画像のみを含むファイルに対しては機能しないことに留意してください。もっとも中には画像中心のPDFでありながら、検索可能な隠れた文字列層を含んでいるものもあります。(2007年3月28 日の時点ではJSTORPDFファイルに文字列層を含んでいます.))

高度なインストール法

Zotero requires modified binaries of pdftotext and pdfinfo on Windows (to prevent the command-prompt window from appearing at indexing time) and a custom build of pdfinfo on all platforms that supports writing to a text file (source code available).

Users wishing to install the Xpdf tools manually (or on platforms for which we haven't built customized binaries) can do so by building the tools and either placing the binaries directly in the Zotero data directory or linking to them from there. Either way, a platform-specific file must be created in the Zotero data directory, conforming to the format “pdftotext-{platform}”, where {platform} is “Win32”, “MacIntel”, “MacPPC”, “Linux-i686”, etc. (To determine your current platform, type javascript:alert(navigator.platform) in the Firefox URL bar and hit Enter.) The Windows version requires the .exe extension, i.e. “pdftotext-Win32.exe”. A text file containing the installed version number can also be created in the format pdftotext-{platform}.version.

ja/pdf_fulltext_indexing.1318804284.txt.gz · Last modified: 2011/10/16 18:31 by odon