2011年12月4日日曜日

Kindle自炊に関するメモ

pdfをスキャンする. scansnapがお勧めだが, なんでもよい.

適当にトリミングする. これは, Adobe Acrobatがあるといいかも.

OCRにかける. 例えばAcrobatで頑張らせる. 時間がかかる...

pdftkでTitleとAuthorを入れる. 次のような感じで, metadataテキストファイル(ex. meta.dump)を作る

InfoKey: Title
InfoValue: hugahuga
InfoKey: Author
InfoValue: hogehoge san


そのあと,

$ pdftk input.pdf update_info meta.dump output output.pdf


とすれば, input.pdfにTitleとAuthorの入ったoutput.pdfが出力される. ちなみに

$ pdftk input.pdf dump_data


とすれば, 標準出力で, メタデータが取り出せる. Kindle 2(dx international ver)では日本語のタイトルや著者は認識してくれないらしく、ハックしても豆腐になってしまうので、諦めた。研究のための資料とかは英語が基本なので、あまり困ることもない。

連番ファイル

bashにおいて、たくさんのファイルをとりあえず連番ファイルに一括リネームするには、ファイルを一つのフォルダに保存しておいて、

declare -i i=1
for file in *.jpg
do
mv $file `printf %02d $i`.jpg
i=i+1
done


とする。この時、連番ファイルは01,02,...10,11,...と作られる。三桁ファイルにするときは%02dを%03dとすればよい。