適当にトリミングする. これは, Adobe Acrobatがあるといいかも.
OCRにかける. 例えばAcrobatで頑張らせる. 時間がかかる...
pdftkでTitleとAuthorを入れる. 次のような感じで, metadataテキストファイル(ex. meta.dump)を作る
InfoKey: Title
InfoValue: hugahuga
InfoKey: Author
InfoValue: hogehoge san
そのあと,
$ pdftk input.pdf update_info meta.dump output output.pdf
とすれば, input.pdfにTitleとAuthorの入ったoutput.pdfが出力される. ちなみに
$ pdftk input.pdf dump_data
とすれば, 標準出力で, メタデータが取り出せる. Kindle 2(dx international ver)では日本語のタイトルや著者は認識してくれないらしく、ハックしても豆腐になってしまうので、諦めた。研究のための資料とかは英語が基本なので、あまり困ることもない。