« 本日の朝ご飯のおかずの写真 カナダ産鴨肉の鴨鍋の残りでおじや、煮干し出汁の味噌汁など | トップページ | 本日のお昼ご飯のおかずの写真 生食可能用カキでカキフライ、サラダなど »

2011年1月 6日 (木)

自炊 キヤノンのスキャナDR-2510Cを使って書籍を手切りしてOCR付きで自炊してみた

 キヤノンのスキャナDR-2510Cを使って書籍を手切りしてOCR付きで自炊してみた。

【1.機材】
 手持ちの機材で行った。新規購入なし。
① スキャナ
 キヤノンのドキュメントスキャナDR-2510C。3年くらい前に購入したもの。
 元々は、書類をスキャンする為に導入したモノ。自炊向きかは不明。
② 裁断方法
 いわゆる裁断機ではなく、やや大型のカッターナイフ(大型と言ってもポケットに入る事務用)。刃の幅が20mmのもの。これで手切り。
 手切りならば、ロータリーカッターの方が良さそうであるが、所有していない。近所のホームセンターに刃の直径45mmのモノはあったが、欲しかった刃の直径65 60mmモノがなく諦めた(文具コーナーより大工コーナーの方が大型を置いている場合が多い)。
 手切りの際は、金属製の定規をあてるのが一般的と思うが、薄いので乗り上げて指切り事故が怖いので、たまたま家にあったアルミ製の何かのレールを使うことにした。
110105

【2.自炊の書籍】
 1冊目は、最初の自炊なので薄い書籍を選んだ。サイズはB6程度、厚さ1cm程度、ページ数は130ページ程度。
110105_2
 時事問題のパズルなので、仮に1ページ抜けても小説と違って支障がない。
 また、OCR機能が有効に動作してくれれば、パソコン上で検索出きるメリットがある。

【3.キャプチャーソフト・CapturePerfect3.0の設定】
 ジョブに対して、読み取り解像度400dpiと600dpi。白黒。両面。紙のサイズは自動判定とする。
 OCRの設定(これもジョブ上に設定)は、日本語と英語両方を対象にする。
 ジョブ動作でスキャンさせる場合は、OCRの設定含めてジョブ上で設定しないと意図したスキャンが出来ないので注意。
 ヘルプでは、OCRを有効にすると自動で斜行補正が働くと記されているが、ジョブ上の斜行補正にレ点を入れている。

 また、CapturePerfect3.0は、PDFファイルとして保存するときにOCR情報を付加しないとPDFリーダー上で、テキスト検索が出来ない。必ずオプションからPDFファイルのところを開き、OCRを有効にする為レ点、対象を日本語と英語にしておく(OCRの設定と合わせる)必要がある。

 読み取り解像度400dpiは、印刷したときの品質とファイルサイズの関係が適当の判断から、従来から設定している。600dpiは画質優先。

【4.結果】
① カッターナイフによる手切り
 最初から斜め切りになると嫌なので端面から寸法を測り切断面とする当たりに線を引く。
110105_5
 ここにレールを置きカッターナイフを入れる。カッターは、往復運動させず、一方向のみ。余り力を入れず何度も繰り返す。
 概ね3分程度で切断が出来た。
110105_3

110105_4

 市販の切断機よりは汚い面と思われるが、それでもこの程度に切ることが出来る。修正の為に切り直しはしていない。

② スキャン
 見た目の裁断よりも重要なのは、スキャナを通したときに、引っかかったり、複数枚同時に給紙しないかである。10枚単位でスキャン、60枚程度まとめてスキャンを試みたが何れも問題なかった。
 一応、スキャン前に、札束を数えるような動作、お札を扇上に広げるようなことを違う方向に3回、4回行ってからスキャナに投入している。これは、紙と紙の間に空気を入れて張り付きを無くすのが目的である。
 400dpiと600dpiでどの程度ファイルサイズに差が出るか?PDF保存後であるが、1.3倍に増大。スキャン対象の原稿でこの結果は変わるだろう。

③ OCR
 原稿は、基本縦書きで、ところどころ横書きが混じり、かつ図解もある。文字の大きさもまちまちである。
 OCRを行うとPDFファイルのサイズは、当然増大する。今回、スキャンした書籍では、PDFにOCRなしで5.6M、OCR付加8.5Mとなった。
 概ね1.5倍。かなりの増大である。問題は、その価値があるか?である。OCRによる認識が適切に行われていれば、PDFファイル上で検索が有効になる。不適切であれば検索してもヒットしない。
 そこで、適当に10個程度の単語を選びPDFファイル上で検索してみた。単語は2文字から7文字、漢字のみ。かな漢字混在、入力した単語は何れもヒット出来た。
 また、400dpiと600dpiで認識率に差が出るか確認した。漢字2文字の単語について、400dpiでは30回、600dpi32回のヒットとなった。
 400dpiと600dpiで何処ので認識に差が付いたかを検証したところ、400dpiでは図解中の単語を検索出来部分があった。全ての図解中の単語を認識できない訳ではなく、他より文字の小さい箇所であった。
 十分な検証は出来ていないが、OCRの有効性は確認できた。検索出来る電子ファイルは、利用価値が高いことに変わりはない。


【5.結論】
 カッターナイフによる手切りでも、この程度の書籍ならば問題なく手持ちのキヤノンのスキャナでスキャン出来る。
 OCRは有効である。積極的にOCR付加としたい。

※これまで散々書類をスキャンしてきたが、OCRを付けなかった。これは明らかに失敗だった。後から付加する手段もあろうが、スキャン同時なら手間が少ない。

【7.更に手切りを試みる】
110106_7
 背表紙があるもの4冊。切り方は、上に書いた手法である。
 力のかけ方?によっては、やはり背表紙を斜めに切り落としてしまう。文字があるところを切り落としてしまうとどうしょうもないが、この程度の斜め切り落としくらいでは全く問題なくスキャン出来た。
 この写真の中で、一番下の表紙付き背表紙は、野村證券の平成21年度版(2009年版)の税金の本である。B5サイズ、260ページ程度ある。これを白黒、OCR付き、600dpiでスキャンするとファイルサイズは100Mになる。
 スキャンそのものには支障がなかったが、CapturePerfect3.0でPDFファイルとして保存する際に、かなりの時間がかかった。計ってはいないが10分以上かかったような気がする。
 また、週間ダイヤモンド1冊を丸々カラー、400dpi、OCRありでスキャンしてみた。A4サイズ、170ページ。300M以上になった。

【8.その他雑感】
 現在、キンドルなどの電子書籍を保有していない。読んだとしてもパソコン読みとなる。
 一番の悩みは、どの電子書籍を導入するか?より、どの本をスキャンするか?である。
① 原則全部
② 読まない本
③ 読む機会の多い本
④ スキャンに向いた本
⑤ 小説だけ、マンガだけ、専門書だけ?

 ①は、スッキリするだろう。しかし、時間の無駄とHDDの肥やしになりかねない。再読は1割の説もある。
 ②は読まないものは読まない気もする.....
 ③、読む機会の多い本は、本として形になっていた方が便利なような.....
 ④、比較的価格も安く解体しやすく写真なしの白黒、すると小説かマンガか。
 ⑤、小説とかマンガって割といいかも。OCRも付加する必要ないし。いや付加して主人公の口癖解析とか。専門書は案外いいかも。検索が可能になるし。でも専門書は絶版多いし、売ることも出来るし、買値が高いので勿体無い。
 まぁ、人それぞれ、何処まで割り切るかである。割り切るなら自炊せずに捨てろって考えもあるし。禅問答に近い話かも知れない。
 ネット上には、『自炊は過度的なもので意味がない』って意見を唱える人もいるけど、私にはそのロジックが理解が出来ない。

|

« 本日の朝ご飯のおかずの写真 カナダ産鴨肉の鴨鍋の残りでおじや、煮干し出汁の味噌汁など | トップページ | 本日のお昼ご飯のおかずの写真 生食可能用カキでカキフライ、サラダなど »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/502305/50507869

この記事へのトラックバック一覧です: 自炊 キヤノンのスキャナDR-2510Cを使って書籍を手切りしてOCR付きで自炊してみた:

« 本日の朝ご飯のおかずの写真 カナダ産鴨肉の鴨鍋の残りでおじや、煮干し出汁の味噌汁など | トップページ | 本日のお昼ご飯のおかずの写真 生食可能用カキでカキフライ、サラダなど »