2011年12月4日日曜日

Kindle自炊に関するメモ

pdfをスキャンする. scansnapがお勧めだが, なんでもよい.

適当にトリミングする. これは, Adobe Acrobatがあるといいかも.

OCRにかける. 例えばAcrobatで頑張らせる. 時間がかかる...

pdftkでTitleとAuthorを入れる. 次のような感じで, metadataテキストファイル(ex. meta.dump)を作る

InfoKey: Title
InfoValue: hugahuga
InfoKey: Author
InfoValue: hogehoge san


そのあと,

$ pdftk input.pdf update_info meta.dump output output.pdf


とすれば, input.pdfにTitleとAuthorの入ったoutput.pdfが出力される. ちなみに

$ pdftk input.pdf dump_data


とすれば, 標準出力で, メタデータが取り出せる. Kindle 2(dx international ver)では日本語のタイトルや著者は認識してくれないらしく、ハックしても豆腐になってしまうので、諦めた。研究のための資料とかは英語が基本なので、あまり困ることもない。

0 件のコメント:

コメントを投稿