戻る

目次


ScanSnapで本を透明テキスト入りPDFに電子化

本棚・倉庫がいっぱいで場所を開けたいが、やっぱり無くなるのは嫌だな~
…という本をScanSnapでスキャンして、検索性も良くするために透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。

持っているすべての本をスキャンしようとすると、何のためにスキャンしているか分からなくなるので、私は以下の基準でスキャンする本を決めています。

種類行動
2度と見ない
懐かしさ・捨てられない感が無い
捨てる・売る
PCがある場所以外で使うそのまま使うので本棚に置くか、決まった場所に片付ける
良く使うそのまま使うので本棚に置くか、決まった場所に片付ける
たまに見るスキャンする(裁断した本は捨てる)
見ていないが捨てるのが惜しいスキャンする(裁断した本は捨てる)
スキャン後もたぶん見ないが、喪失感が無いのがメリット
倉庫に保管したいスキャンする(裁断した本は捨てる)
倉庫→捨てるのが惜しいと思っている証拠
でも倉庫に入れたが最後、その本は冬眠決定
…なので倉庫に入れるぐらいならスキャンする

メリット

透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。

こうする事により画像で保存するよりは以下のメリットがあります。

  • 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
    PDF形式の利点です。
    TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。

  • 文字検索が出来る
    OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
    テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
    同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。

デメリット

本をバラして裁断する必要がある事です。
本当に捨てたい本だけやるか、2冊買うしかありません。

スキャンの手順

1.本をバラして裁断する

 真中にホチキスの針で止められているような雑誌の場合は針を抜いて切るだけで終了です。

 ですが、雑誌以外のほとんどの本は背表紙のウラに硬いノリでべったりとページを貼っているものが多いと思います。
 そういう本の場合は背表紙の部分を切る事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。

  1. 表紙と本体を分ける
     まず「表紙&裏表紙&背表紙」と「本の中身」を分離します。
    Scan_Cut1.jpg
     背表紙にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすいみたいです。
     本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。

  2. 表紙と裏表紙を分離する
     表紙・裏表紙を背表紙を境に切ります。
    Scan_Cut2.jpg
     これでまずはバラす準備が出来ました。

  3. 背表紙部分を切る
     順番に背表紙の部分を切ります。
     切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
     ※ホーマックで2千円以内で買えました。
    Scan_Cut3.jpg
     丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
    Scan_Cut4.jpg
     高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
     コツは紙の厚さが1~2ミリ以下の枚数になる分ずつやる事です。
     面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
    Scan_Cut5.jpg
    綺麗に切れました、これを繰り返します。

2.用紙を投入する時のポイント

  1. 用紙を入れる前に本とスキャナのホコリを取る
    できる限り本に付着したホコリを取りましょう。
    そうしないとスキャン時に読み取り窓にホコリが付着し、縦に筋が入ったようにスキャンされてしまいます。
    筋が出るようになってしまった場合は、スキャナの読み取り窓のホコリをふき取りましょう。
    (説明書によると、ブロアー等で吹き飛ばすのは機械の奥底にホコリが入って駄目だそうなので、面倒くさがらずにやわらかい布で拭きます)
    yomitori.jpg

  2. 複数巻き込み防止のためにパラパラする
    くっついて複数巻き込みをしない様に切った側の方を、指でパラパラパラっとしましょう。
    特に1~4枚目を念入りに。

  3. 用紙を投入する
    ムリに押し込むと最初の数ページが複数枚巻き込む事が多いです。
    複数枚の巻き込みは、投入直後の1~4枚目の状態に起きやすい様なので、スキャン開始時の数枚は監視しておきましょう。

3.スキャンする際のパラメータ


  • カラーorグレースケール
    ※白黒(2値)はAdobeReaderでは縮小表示が見えずらいため、お勧め出来ません
  • dpi(解像度)
    カラーorグレースケール:300~400dpi
    白黒(2値):400~600dpi

※dpi(解像度)ってナニ?
dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。
たとえば300dpiは、1インチの幅に300ドットあるという意味です。
プリンタやコピー機等でよく使われている解像度は600dpiです。

白黒(2値)と違い、カラー・グレースケールの場合は600dpiだとスキャンした際の容量が大き過ぎる=重いため、300~400dpiで取るのが現実的です。
カラーは中間色のお陰でdpiが低くても十分綺麗なのでご安心を。

4.PDFのページを修正する・スキャンミスを簡単に見つける

PDFを作成した際に、表紙・目次・奥付等でPDFのページと本のページが違う場合が多いと思います。
このままだと目次を見てページを飛んでも、目的のページに飛ぶ事が出来ません。
これでは使う上では不便でしょうがないので、PDFのページと本のページを合わせる事にします。
AcrobatでPDFのページと本のページを合わせるを参照

ページを合わせた後、数十ページずつ飛ばしながらPDFのページと本のページが途中でズレてないかを見ます。
これをする事によって、多重巻き込みでスキャンされていないページがあったり、応募ハガキをスキャンしてしまっていたりしている様なスキャンミスを簡単に発見する事が出来ます。

ScanSnap S510 のScanSnap Managerの設定について

#amazon(B000MTON5C,left,image)

画像取得先

私が本をスキャンする際には「ScanSnap S510」を使っています。
その際に行った設定を参考までにメモしておきます。

  • クイックメニューを使用する:オフ

スキャンボタンの設定

  • 読み取り設定の選択:透明テキストPDF(両面)  ※名前はお好きなもので良いと思います
  • アプリ選択
    • アプリケーションの選択:指定したフォルダに保存
  • 保存先
    • イメージの保存先:D:Scan ※お好きな場所で良いと思います
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒  ※特に設定していません
  • 読み取りモード
    • 画質の選択:スーパーファイン(より綺麗に読み取ります)
    • カラーモードの選択:カラー
    • 読み取り面の選択:両面読み取り
    • 継続読み取りを有効にします:ON
    • オプション
      • 白黒読み取りの濃度:標準
      • 文字をくっきりします:標準
      • 白紙ページを自動的に削除します:OFF
        ※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする
      • 文字列の傾きを自動的に補正します:OFF
        ※たまにおかしな角度で補正をしてしまうのでOFF
      • 原稿の向きを自動的に補正します:OFF
        ※たまにおかしな方向に向きを補正してしまうためOFF
      • 原稿を上向きにしてセットします:OFF
        ※後々混乱の元なのでOFFにしとくのが望ましい
  • ファイル形式
    • ファイル形式の選択:PDF(*.pdf)
    • テキストを認識して検索可能なPDFにします:ON
    • テキスト認識する言語の選択:日本語
    • テキスト認識するページの選択:全ページ
    • オプション
      • PDFファイルオプション:すべてのページを1つのPDFファイルにします
      • 読み取ったPDFファイルにパスワードを付けます:OFF
      • 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:OFF
  • 原稿サイズ
    • 原稿サイズの選択:サイズ自動検出
    • 幅や長さの違う原稿を同時に読み取ります:OFF
    • A3キャリアシート設定
      • ?  ※使っていないので特に設定していません
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
富士通公式ページ-ScanSnap S510 製品仕様

  • ノーマル
    カラー150dpi、白黒(2値)300dpi相当
    両面・片面 18枚/分
  • ファイン
    カラー200dpi、白黒(2値)400dpi相当
    両面・片面 12枚/分
  • スーパーファイン   ※速度面と実用面的におすすめ
    カラー300dpi、白黒(2値)600dpi相当
    両面・片面 6枚/分
  • エクセレント
    カラー600dpi、白黒(2値)1,200dpi相当
    両面・片面 0.6枚/分