戻る

ScanSnap S510で本を透明テキスト入りPDFに電子化

 捨てたい本の中で、使う頻度が低くて捨てたいけと無くなるのは嫌だな~…というものをScanSnap S510で、透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。



透明テキスト入りPDFにするメリット・デメリット

メリット

透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。

こうする事により画像で保存するよりは以下のメリットがあります。

  • 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
    PDF形式の利点です。
    TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。

  • 文字検索が出来る
    OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
    テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
    同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。

デメリット

本の場合はバラす必要があるので、当然2度とその本が使えなくなります。
本当に捨てたい本だけやるか、電子化したい本は2冊買うかするしかありません。

スキャンをするために本をバラす

 真中にホチキスの針で止められているような雑誌の場合は針を抜いて切るだけで終了です。

 ですが、雑誌以外のほとんどの本は背表紙のウラに硬いノリでべったりとページを貼っているものが多いと思います。
 そういう本の場合は背表紙の部分を切る事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。

  • 表紙と本体を分ける
     まず「表紙&裏表紙&背表紙」と「本の中身」を分離します。
    Scan_Cut1.jpg
     背表紙にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすいみたいです。
     本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。

  • 表紙と裏表紙を分離する
     表紙・裏表紙を背表紙を境に切ります。
    Scan_Cut2.jpg
     これでまずはバラす準備が出来ました。

  • 背表紙部分を切る
     順番に背表紙の部分を切ります。
     切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
     ※ホーマックで2千円以内で買えました。
    Scan_Cut3.jpg
     丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
    Scan_Cut4.jpg
     高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
     コツは紙の厚さが1~2ミリ以下の枚数になる分ずつやる事です。
     面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
    Scan_Cut5.jpg
    綺麗に切れました、これを繰り返します。

用紙を投入する時のポイント

  • 用紙を入れる前に
    用紙を切った側の方を、指でパラパラパラっとしましょう。
    特に1~4枚目を念入りに。

  • 用紙を入れた時に
    上が揃っているか確認しましょう。
    ムリに押し込んだりすると最初の数ページが複数枚巻き込む事が多いです。

  • 複数枚の巻き込みがなりやすい所
    投入直後の1~4枚目の状態に起きる(起きやすい?)様なので、最初だけ見ておきましょう。

ScanSnap S510のScanSnap Managerの設定について

自分が本をスキャンする際に行った設定は以下のとおりです。

クイックメニューを使用する:オフ

スキャンボタンの設定

  • 読み取り設定の選択:透明テキストPDF(両面)  ※名前はお好きなもので良いと思います
  • アプリ選択
    • アプリケーションの選択:指定したフォルダに保存
  • 保存先
    • イメージの保存先:D:Scan ※お好きな場所で良いと思います
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒  ※特に設定していません
  • 読み取りモード
    • 画質の選択:スーパーファイン(より綺麗に読み取ります)
    • カラーモードの選択:自動(原稿ごとにカラーと白黒を自動判別します)
    • 読み取り面の選択:両面読み取り
    • 継続読み取りを有効にします:ON
    • オプション
      • 白黒読み取りの濃度:標準
      • 文字をくっきりします:OFF
      • 白紙ページを自動的に削除します:OFF
      • 文字列の傾きを自動的に補正します:OFF
      • 原稿の向きを自動的に補正します:OFF
      • 原稿を上向きにしてセットします:OFF
  • ファイル形式
    • ファイル形式の選択:PDF(*.pdf)
    • テキストを認識して検索可能なPDFにします:ON
    • テキスト認識する言語の選択:日本語
    • テキスト認識するページの選択:全ページ
    • オプション
      • PDFファイルオプション:すべてのページを1つのPDFファイルにします
      • 読み取ったPDFファイルにパスワードを付けます:OFF
      • 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:OFF
  • 原稿サイズ
    • 原稿サイズの選択:サイズ自動検出
    • 幅や長さの違う原稿を同時に読み取ります:OFF
    • A3キャリアシート設定
      • ?  ※使っていないので特に設定していません
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
富士通公式ページ-ScanSnap S510 製品仕様

  • ノーマル
    カラー150dpi、白黒(2値)300dpi相当
    両面・片面 18枚/分
  • ファイン
    カラー200dpi、白黒(2値)400dpi相当
    両面・片面 12枚/分
  • スーパーファイン
    カラー300dpi、白黒(2値)600dpi相当
    両面・片面 6枚/分
  • エクセレント
    カラー600dpi、白黒(2値)1,200dpi相当
    両面・片面 0.6枚/分