戻る
ScanSnapで本を透明テキスト入りPDFに電子化†
本棚・倉庫がいっぱいで場所を開けたいが、捨てて無くなるのは嫌だな~
…という本をScanSnapでスキャンして、検索性も良くするために透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。
何故本をスキャンするのか?†
物事を始めるには必ず理由があり、それが無いまま進めてしまうと無駄になるのは当たり前です。*1
私の目的は情報の再利用と物理スペースの節約をするためです。
本は他のメディアと違い、内容の再利用する機会が多いメディアです。
躊躇(ちゅうちょ)無く捨てられる本は捨てても問題ないとは思いますが、捨てるのに少しでも躊躇した本は後から再利用する可能性があります。
捨てた後で「ああ、あの時捨てなければ…」というのはよくある事なので、そうならないためにもスキャンする事をおすすめします。
スキャンする本の基準・心構え†
私は以下の基準でスキャンする本を決めています。
種類 | 行動 |
2度と見ない 懐かしさ・捨てられない感が無い | 捨てる・売る |
PCがある場所以外で使う | そのまま使うので本棚に置くか、決まった場所に片付ける |
良く使う | そのまま使うので本棚に置くか、決まった場所に片付ける |
たまに見る | 再利用するためスキャンする(裁断した本は捨てる) |
見ていないが捨てるのが惜しい | 再利用する可能性があるためスキャンする(裁断した本は捨てる) スキャン後もたぶん見ないが、喪失感や後で後悔する事が無いのがメリット |
倉庫に保管したい | スキャンする(裁断した本は捨てる) 倉庫→捨てるのが惜しいと思っている証拠 でも倉庫に入れたが最後、その本は冬眠決定 …なので倉庫に入れるぐらいならスキャンする |
- 全ての書籍を電子化する必要は無い
よく使う本は、物理的にあったほうが複数冊開いて使えるため、電子化しない方が使い勝手が良かったりします
- 労力<使い勝手
労力が上回ると辛くなって止めてしまうためクオリティーに凝るのはほどほどに
特にOCRした結果、生成されたテキストの修正はしない事
紙の本自体が文字検索出来ないのと比べれば、多少誤認識されていたとて紙の本よりデータアクセス性は上なのです
スキャナ†
最新の上位機種は「ScanSnap iX500」です
添付ソフトとしてAdobeAcrobatXが標準で入っています
#amazon(B00A5YE7C8,left)
最新より1世代前の上位機種は「ScanSnap S1500」です
添付ソフトとして、AdobeAcrobatXが標準で入っています
※私はこの本体を持っていません
#amazon(B005UXGP8S,left)
最新より2世代前の上位機種は「ScanSnap S510」です
添付ソフトとしてAdobeAcrobat8が標準で入っています(現在AdobeAcrobat8はサポート切れとなっています)
#amazon(B000MTON5C,left)
裁断機†
本の背を裁断してくれる業者に頼んだ方が間違いないのですが、裁断の業者によってはカバーを切らない場合があったりするので、ロータリーカッターはあった方が良いです。
私が持っている裁断機は「ロータリーカッター・A4(DCM Japan 株式会社)」です
※2000円ほどでホーマックで買った商品ですが、現在DCM Japan 株式会社のWebページに商品紹介が載っていませんでした
ロータリーカッター・A4(DCM Japan 株式会社)
DCMホールディングス株式会社
Amazonでロータリーカッターを調べると似たような商品が出てきました。
3000円ほどで買える様です
#amazon(B002B7GRCU,left)
業者を使わず自分で分厚い本の本の背を一気に裁断するのに良く使われている裁断機が「パーソナル断裁機 Durodex 200DX」です
ただ、値段が3万近くするので私はこれを買う勇気が出ません><
#amazon(B00A378TNU,left)
参考Webページ
メリット†
透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。
こうする事により画像で保存するよりは以下のメリットがあります。
- 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
PDF形式の利点です。
TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。
- 文字検索が出来る
OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。
デメリット†
本をバラして裁断する必要がある事です。
本当に捨てたい本だけやるか、2冊買うしかありません。
実際にスキャンする†
1.本をバラして裁断する†
本の背を裁断してくれる業者に頼んだ方が間違いないのですが、裁断の業者によってはカバーは切らない場合もあるので、ここではロータリーカッターを使って自分で裁断を行う場合の説明をします。
真ん中にホチキスの針で止められているような雑誌の様な本は針を抜いて切るだけで終了なのですが、ほとんどの本は背のウラに硬いノリでべったりと貼っているものが多いと思います。
そういった本の場合は背の部分ごと裁断する事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。
- カバーを外し、カバーを切る
切る場所は、カバーの表側にに背文字の部分が残る様な形が理想です
- 表紙と本体を分ける
背にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすくなります。
本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。
- 表紙を分離する
背を境に切ります。
- 表紙と本文の背の部分を切る
背の部分を切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
コツは厚みが1~2ミリ以下の枚数ずつやる事です。
面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
綺麗に切れました、これを繰り返します。
2.用紙を投入する時のポイント†
- カバーと、表紙&本文は別でスキャン
別でスキャンして後でPDF編集ソフトで結合する様にしましょう
- くっついたページを確認&ホコリ除去
背や天の部分をクニクニした後で指でパラパラすれば、見た目や指の感触で背の部分が糊でくっ付いたページが分かり、なおかつ指でパラパラした事によってホコリが取り除けます
- スキャナの読み取り窓を拭く
スキャナの読み取り窓にホコリ&背の糊が付着する事があるので、定期的にスキャナの読み取り窓をふき取りましょう。
タイミングとしては1冊の表紙&本文をスキャンし終えた直後や、カバーをスキャンする前が良いと思います
ブロアー等で吹き飛ばすのは機械の奥底にホコリが入って駄目なので、面倒くさがらずにやわらかい布や、OA機器用の濡れティッシュ+乾いた布で拭きます
読み取り窓は2か所ありますので、両方とも拭きましょう。
- ムリに押し込んで入れない
ムリに押し込むと最初の数ページが複数枚巻き込む事が多いです。
3.スキャンする際の色とdpi(解像度)について†
種類 | 設定 | 説明 |
色 | カラー | 白黒は容量の面では有利ですが AdobeReaderで見た時に縮小表示が汚く表示されるので、 カラーでやっておいた方が無難です |
dpi(解像度) | カラーで300~400dpi | |
※dpi(解像度)ってナニ?
dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。
たとえば300dpiは、1インチの幅に300ドットあるという意味です。
コピー機等でよく使われている解像度は600dpiですが、カラーの場合は600dpiだとファイルの容量が大き過ぎて表示するのにとても遅くなるため、300~400dpiで取るのが現実的です。
カラーは中間色のお陰でdpiが低くても十分綺麗に見えるのでご安心を。
4.途中でトラブルがありスキャンが止まってしまった場合†
途中で引っかかる等、何かしらのトラブルで止まってしまった場合はそこでスキャン中止にせず、後で修正する事にして以下の方法で再開します。
- きちんとスキャンされてないと予想されるページ番号をメモしておきます
- 破けていたり折れ曲がっているページを直します
- きちんとスキャンされていないページからスキャン再開します
以上の方法で再開した場合はスキャンしたページ数分、PDFのページが増えてしまっている事を忘れないようにして下さい。
後で修正するためにとても重要です。
5.PDFのページを修正する・スキャンミスを簡単に見つける†
PDFを作成した際に、表紙・目次・奥付等でPDFのサムネイルページ番号と本のページが違う場合が多いと思います。
このままだと目次を見てページを飛んでも、目的のページに飛ぶ事が出来ません。
これでは使う上では不便でしょうがないので、PDFのサムネイルページ番号と本のページを合わせる事にします。
→AcrobatでPDFのサムネイルページ番号と本のページを合わせるを参照
その後、以下の手順でスキャンミスを発見します
- きちんとスキャンされてないと予想されるページ番号をメモしているなら、まずそこを修正します。
変なスキャンがされている不要なページを削除します。
- 数十ページずつ飛ばしながらPDFのページと本のページが途中でズレてないかを見ます。
これをする事によって、多重巻き込みでスキャンされていないページがあったり、応募ハガキをスキャンしてしまっていたりしている様なスキャンミスを簡単に発見する事が出来ます。
ScanSnap iX500 について†
#amazon(B00A5YE7C8,left,image)
私が「ScanSnap iX500」で本をスキャンする際に行った設定や工夫を参考までにメモしておきます。
ScanSnap Manager - スキャンボタンの設定†
- クイックメニューを使用する:☐ オフ
- アプリ選択
- アプリケーションの選択:ScanSnap Organizer
- 保存先
- イメージの保存先:C:\Users\xxxx\Documents\ScanSnap
※ScanSnap Organizer選択時は、変更できません
- ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒 ※特に設定変更していません
- 読み取り後、ファイル名を変更します:☐ オフ
- 読み取りモード
- 画質の選択:スーパーファイン(カラー/グレー:300dpi、白黒:600dpi相当)
- カラーモードの選択:カラー
- 読み取り面の選択:両面読み取り
- 原稿の向きを自動的に回転します:☐ オフ
- 白紙ページを自動的に削除します:☐ オフ
- 継続読み取りを有効にします:☑ オン
- オプション
- 裏写りを軽減します:☐ オフ
- 白黒読み取りの濃度を調整します:標準
- 文字をくっきりします:☐ オフ
- 原稿を上向きにしてセットします:☐ オフ
※後々混乱の元なのでオフが望ましい
- ファイル形式
- ファイル形式の選択:PDF (*.pdf)
- テキスト認識の選択
- マーカー部分の文字列をPDFのキーワードにします:☐ オフ
- 検索可能なPDFにします:☑ オン
- テキスト認識オプション
- オプション
- PDFページ分割:すべてのページを1つのPDFファイルにします
- 出力モード:PDF/A-1bに準拠した形式で出力します:☐ オフ
- パスワード:読み取ったPDFファイルにパスワードを付けます:☐ オフ
- 電子署名・タイムスタンプ:読み取ったPDFファイルに電子署名・タイムスタンプを付けます:☐ オフ
- 原稿
- 原稿サイズの選択:サイズ自動検出
- A3キャリアシート設定 ※特に設定変更していません
- イメージの保存方法:表裏のイメージを見開きにして保存します ※特に設定変更していません
- 保存するイメージのサイズ:サイズ自動選択 ※特に設定変更していません
- マルチフィード検出:重なりで検出 (超音波)
- ファイルサイズ
読み取りモードの画質の選択のDPI・速度について†
ソースは以下のページから。
ScanSnap iX500 : 富士通
読み取りモード | dpi(解像度) | 読み取り速度 |
自動解像度モード | 原稿の長さが約148mm以下:カラー/グレー300dpi、白黒600dpi相当 原稿の長さが約148mmよりも長い:カラー/グレー200dpi、白黒400dpi相当 | 両面・片面 25枚/分 |
ノーマル | カラー/グレー150dpi、白黒300dpi相当 | 両面・片面 25枚/分 |
ファイン | カラー/グレー200dpi、白黒400dpi相当 | 両面・片面 25枚/分 |
スーパーファイン | カラー/グレー300dpi、白黒600dpi相当 | 両面・片面 25枚/分 |
エクセレント | カラー/グレー600dpi、白黒1,200dpi相当 | 両面・片面 7枚/分 |
※速度やファイルの容量の事を考えると、スーパーファインが適切な様です
ScanSnap S510 について†
#amazon(B000MTON5C,left,image)
私が「ScanSnap S510」で本をスキャンする際に行った設定や工夫を参考までにメモしておきます。
ScanSnap Manager - スキャンボタンの設定†
- クイックメニューを使用する:☐ オフ
- アプリ選択
- 保存先
- イメージの保存先:D:\Scan ※保存先はお好きな場所で良いと思います
- ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒 ※特に設定変更していません
- 読み取りモード
- 画質の選択:スーパーファイン(より綺麗に読み取ります)
- カラーモードの選択:カラー
- 読み取り面の選択:両面読み取り
- 継続読み取りを有効にします:☑ オン
- オプション
- 白黒読み取りの濃度:標準
- 文字をくっきりします:☐ オフ
- 白紙ページを自動的に削除します:☐ オフ
※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする
- 文字列の傾きを自動的に補正します:☐ オフ
※たまにおかしな角度で補正をしてしまうのでOFF
- 原稿の向きを自動的に補正します:☐ オフ
※たまにおかしな方向に向きを補正してしまうためOFF
- 原稿を上向きにしてセットします:☐ オフ
※後々混乱の元なのでOFFにしとくのが望ましい
- ファイル形式
- ファイル形式の選択:PDF(*.pdf)
- テキストを認識して検索可能なPDFにします:☑ オン
- テキスト認識する言語の選択:日本語
- テキスト認識するページの選択:全ページ
- オプション
- PDFファイルオプション:すべてのページを1つのPDFファイルにします
- 読み取ったPDFファイルにパスワードを付けます:☐ オフ
- 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:☐ オフ
- 原稿サイズ
- 原稿サイズの選択:サイズ自動検出
- 幅や長さの違う原稿を同時に読み取ります:☐ オフ
- A3キャリアシート設定 ※特に設定変更していません
- 実行モード:見開き画像を出力します ※特に設定変更していません
- 出力画像サイズ:サイズ自動選択 ※特に設定変更していません
- ファイルサイズ
読み取りモードの画質の選択のDPI・速度について†
ソースは以下のページから。
ScanSnap S510(製品情報) : 富士通
読み取りモード | dpi(解像度) | 読み取り速度 |
ノーマル | カラー150dpi、白黒(2値)300dpi相当 | 両面・片面 18枚/分 |
ファイン | カラー200dpi、白黒(2値)400dpi相当 | 両面・片面 12枚/分 |
スーパーファイン | カラー300dpi、白黒(2値)600dpi相当 | 両面・片面 6枚/分 |
エクセレント | カラー600dpi、白黒(2値)1,200dpi相当 | 両面・片面 0.6枚/分 |
※速度やファイルの容量の事を考えると、スーパーファインが適切な様です
S510で複数枚巻き込みが起こらないようにする工夫†
複数枚巻き込みが多いな…と思ったら以下の方法を試すと解消される事が多いです
- パッドユニットのゴム部分を拭く
ゴムの部分に本のインクがべったりと付く事でゴムの摩擦が少なくなり、複数巻き込みの原因となります。
- 投入する用紙の形を工夫する
普通に入れて複数巻き込みをしない用紙であれば、これをする必要は無いです(余計に複数枚巻き込みが発生する場合があります)
- スキャナに入れる側の辺を、机の上でトントン…として揃える
- 用紙をクニクニさせ、スキャナに入れる辺の断面が斜めになる様に形を作る
S510でスキャン後の用紙がバラけない様にする工夫†
スキャン後の用紙がどんどん上に引きずられ、バラバラになってしまう様なら、以下の様にセロハンテープの輪っかを作り、上に引きずられない様に配置します。
※用紙が上に引きずられない様になれば良いので、セロハンテープでなくても良い
その他関連Webページ†