ScanSnapで本を透明テキスト入りPDFに電子化

戻る

目次


ScanSnapで本を透明テキスト入りPDFに電子化

本棚・倉庫がいっぱいで場所を開けたいが、捨てて無くなるのは嫌だな~
…という本をScanSnapでスキャンして、検索性も良くするために透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。

何故本をスキャンするのか?

物事を始めるには必ず理由があり、それが無いまま進めてしまうと無駄になるのは当たり前です。*1
私の目的は情報の再利用物理スペースの節約をするためです。

本は他のメディアと違い、内容の再利用する機会が多いメディアです。
躊躇(ちゅうちょ)無く捨てられる本は捨てても問題ないとは思いますが、捨てるのに少しでも躊躇した本は後から再利用する可能性があります。

捨てた後で「ああ、あの時捨てなければ…」というのはよくある事なので、そうならないためにもスキャンする事をおすすめします。

スキャンする本の基準・心構え

私は以下の基準でスキャンする本を決めています。

種類行動
2度と見ない
懐かしさ・捨てられない感が無い
捨てる・売る
PCがある場所以外で使うそのまま使うので本棚に置くか、決まった場所に片付ける
良く使うそのまま使うので本棚に置くか、決まった場所に片付ける
たまに見る再利用するためスキャンする(裁断した本は捨てる)
見ていないが捨てるのが惜しい再利用する可能性があるためスキャンする(裁断した本は捨てる)
スキャン後もたぶん見ないが、喪失感や後で後悔する事が無いのがメリット
倉庫に保管したいスキャンする(裁断した本は捨てる)
倉庫→捨てるのが惜しいと思っている証拠
でも倉庫に入れたが最後、その本は冬眠決定
…なので倉庫に入れるぐらいならスキャンする
  • 全ての書籍を電子化する必要は無い
    よく使う本は、物理的にあったほうが複数冊開いて使えるため、電子化しない方が使い勝手が良かったりします
  • 労力<使い勝手
    労力が上回ると辛くなって止めてしまうためクオリティーに凝るのはほどほどに
    特にOCRした結果、生成されたテキストの修正はしない事
    紙の本自体が文字検索出来ないのと比べれば、多少誤認識されていたとて紙の本よりデータアクセス性は上なのです

スキャナ

最新の上位機種「ScanSnap iX500」が発売された様です
※私が持っているS510から2世代新しい機種です

#amazon(B00A5YE7C8,left)

参考Webページ


最新より1世代前の上位機種「ScanSnap S1500」が発売されています。
添付ソフトとして、AdobeAcrobatXが標準で入っています
※私が持っているS510から1世代新しい機種です

#amazon(B005UXGP8S,left)

私が持っているスキャナーは「ScanSnap S510」です
添付ソフトとして、AdobeAcrobat8が標準で入っていますが、AdobeAcrobat8はサポート切れとなっています

#amazon(B000MTON5C,left)

下位版の「ScanSnap S1300i」もありますが、
こちらには添付ソフトにAdobeAcrobatが付いてこないのでお勧めできません
※AdobeAcrobatが無いと、後で説明する「PDFのページを修正する・スキャンミスを簡単に見つける」方法を取る事が出来ず、スキャンミスを発見しずらくなります

#amazon(B00857ZV0E,left)

裁断機

最近は裁断を自分でやらずに、地元にある会社で本の背表紙の糊面を裁断してくれる所にお願いしています
参考までに、そのお店では1冊50円(ハードカバーの場合は1冊100円)でやってもらっています

私が持っている裁断機は「ロータリーカッター・A4(DCM Japan 株式会社)」です
2000円ほどでホーマックで買った商品ですが、DCM Japan 株式会社のWebページに商品紹介が載ってません

Scan_Cut3.jpg

ロータリーカッター・A4(DCM Japan 株式会社)
DCM Japanホールディングス株式会社

Amazonでロータリーカッターを調べると似たような商品が出てきました。
見た目ソックリ(というか同じもの?OEM?)ですが、使い勝手が同じかどうかは保障出来ません
3000円ほどで買える様です

#amazon(B002B7GRCU,left)

巷では「プラス 断裁機 裁断幅A4 PK-513L 26-106」がよく使われている様です
ですが値段が3万円オーバーなんで、私はまだこれを買う勇気が出ません><
欲しいんですけどねぇ…

#amazon(B002MRPKRC,left)

さらに上記のPK-513Lの発展型として「パーソナル断裁機 Durodex 200DX」が販売されています
PK-513Lとはメーカーが違えど見た目が似ているのは、OEM元が同じだからな様です

#amazon(B00A378TNU,left)

参考Webページ

メリット

透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。

こうする事により画像で保存するよりは以下のメリットがあります。

  • 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
    PDF形式の利点です。
    TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。

  • 文字検索が出来る
    OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
    テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
    同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。

デメリット

本をバラして裁断する必要がある事です。
本当に捨てたい本だけやるか、2冊買うしかありません。

スキャンの手順

1.本をバラして裁断する

本の背を裁断してくれる業者に頼んだ方が間違いないのですが、ここでは裁断を自分でやりたい場合の説明を行います。

真ん中にホチキスの針で止められているような雑誌の様な本は針を抜いて切るだけで終了なのですが、ほとんどの本は背のウラに硬いノリでべったりと貼っているものが多いと思います。
そういった本の場合は背の部分ごと裁断する事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。

  1. カバーを外し、カバーを切る
    切る場所は、カバーの表側にに背文字の部分が残る様な形が理想です
    Scan_Cut9.png

  2. 表紙と本体を分ける
    背にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすくなります。
    本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。
    Scan_Cut1.jpg

  3. 表紙を分離する
    背を境に切ります。
    Scan_Cut2.jpg

  4. 表紙と本文の背の部分を切る
    背の部分を切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
    丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
    高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
    コツは厚みが1~2ミリ以下の枚数ずつやる事です。
    面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
    Scan_Cut3.jpg
    Scan_Cut4.jpg
    Scan_Cut5.jpg
    綺麗に切れました、これを繰り返します。

2.用紙を投入する時のポイント

  1. カバーと、表紙&本文は別でスキャン
    大きさが違うため、別でスキャンして後でPDF編集ソフトで結合する様にしましょう

  2. くっ付いたページが無いか1枚ずつ見る
    背の部分が糊でくっ付いたページが無いか必ず見ましょう、面倒ですがこれを怠ると後で痛い目を見ます
    背や天の部分をクニクニすると見た目や、指でパラパラっとやった感触でくっついたページが分かります
    Scan_Cut10.png
    Scan_Cut11.png

  3. 用紙を入れる前に用紙とスキャナのホコリを取る
    できる限り本に付着したホコリを取りましょう。
    そうしないとスキャン時に読み取り窓にホコリが付着し、縦に筋が入ったようにスキャンされてしまいます。
    筋が出るようになってしまった場合は、スキャナの読み取り窓のホコリをふき取りましょう。
    (説明書によると、ブロアー等で吹き飛ばすのは機械の奥底にホコリが入って駄目だそうなので、面倒くさがらずにやわらかい布で拭きます)

    #ref(): File not found: "yomitori.jpg" at page "ScanSnapで本を透明テキスト入りPDFに電子化"


  4. 用紙を投入する
    ムリに押し込むと最初の数ページが複数枚巻き込む事が多いです。

3.スキャンする際のパラメータ


  • カラー
    ※白黒(2値)はAdobeReaderでは縮小表示が見えずらいため、お勧め出来ません
  • dpi(解像度)
    カラー:300~400dpi

※dpi(解像度)ってナニ?
dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。
たとえば300dpiは、1インチの幅に300ドットあるという意味です。
プリンタやコピー機等でよく使われている解像度は600dpiです。

白黒(2値)と違い、カラーの場合は600dpiだとスキャンした際の容量が大き過ぎる=重いため、300~400dpiで取るのが現実的です。
カラーは中間色のお陰でdpiが低くても十分綺麗なのでご安心を。

4.複数枚巻き込みが起こらないようにする工夫

複数枚巻き込みが多いな…と思ったら以下の方法を試すと解消される事が多いです

  1. パッドユニットのゴム部分を拭く
    ゴムの部分に本のインクがべったりと付く事でゴムの摩擦が少なくなり、複数巻き込みの原因となります。
    Scan_Cut12.png
  2. 投入する用紙の形を工夫する
    普通に入れて複数巻き込みをしない用紙であれば、これをする必要は無いです(余計に複数枚巻き込みが発生する場合があります)
    1. スキャナに入れる側の辺を、机の上でトントン…として揃える
      Scan_Cut7.png
    2. 用紙をクニクニさせ、スキャナに入れる辺の断面が斜めになる様に形を作る
      Scan_Cut8.png

5.スキャン後の用紙がバラけない様にする工夫

スキャン後の用紙がどんどん上に引きずられ、バラバラになってしまう様なら、以下の様にセロハンテープの輪っかを作り、上に引きずられない様に配置します。
※用紙が上に引きずられない様になれば良いので、セロハンテープでなくても良い

Scan_Cut6.png

6.途中でトラブルがありスキャンが止まってしまった場合

途中で引っかかる等、何かしらのトラブルで止まってしまった場合はそこでスキャン中止にせず、後で修正する事にして以下の方法で再開します。

  1. きちんとスキャンされてないと予想されるページ番号をメモしておきます
  2. 破けていたり折れ曲がっているページを直します
  3. きちんとスキャンされていないページからスキャン再開します

以上の方法で再開した場合はスキャンしたページ数分、PDFのページが増えてしまっている事を忘れないようにして下さい。
後で修正するためにとても重要です。

7.PDFのページを修正する・スキャンミスを簡単に見つける

PDFを作成した際に、表紙・目次・奥付等でPDFのサムネイルページ番号と本のページが違う場合が多いと思います。
このままだと目次を見てページを飛んでも、目的のページに飛ぶ事が出来ません。
これでは使う上では不便でしょうがないので、PDFのサムネイルページ番号と本のページを合わせる事にします。
AcrobatでPDFのサムネイルページ番号と本のページを合わせるを参照

その後、以下の手順でスキャンミスを発見します

  1. きちんとスキャンされてないと予想されるページ番号をメモしているなら、まずそこを修正します。
    変なスキャンがされている不要なページを削除します。
  2. 数十ページずつ飛ばしながらPDFのページと本のページが途中でズレてないかを見ます。
    これをする事によって、多重巻き込みでスキャンされていないページがあったり、応募ハガキをスキャンしてしまっていたりしている様なスキャンミスを簡単に発見する事が出来ます。

ScanSnap S510 の ScanSnap Manager 設定について

#amazon(B000MTON5C,left,image)

画像取得先

私が本をスキャンする際には「ScanSnap S510」を使っています。
その際に行った設定を参考までにメモしておきます。

  • クイックメニューを使用する:オフ

スキャンボタンの設定

  • 読み取り設定の選択:透明テキストPDF(両面)  ※名前はお好きなもので良いと思います
  • アプリ選択
    • アプリケーションの選択:指定したフォルダに保存
  • 保存先
    • イメージの保存先:D:Scan ※お好きな場所で良いと思います
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒  ※特に設定していません
  • 読み取りモード
    • 画質の選択:スーパーファイン(より綺麗に読み取ります)
    • カラーモードの選択:カラー
    • 読み取り面の選択:両面読み取り
    • 継続読み取りを有効にします:ON
    • オプション
      • 白黒読み取りの濃度:標準
      • 文字をくっきりします:標準
      • 白紙ページを自動的に削除します:OFF
        ※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする
      • 文字列の傾きを自動的に補正します:OFF
        ※たまにおかしな角度で補正をしてしまうのでOFF
      • 原稿の向きを自動的に補正します:OFF
        ※たまにおかしな方向に向きを補正してしまうためOFF
      • 原稿を上向きにしてセットします:OFF
        ※後々混乱の元なのでOFFにしとくのが望ましい
  • ファイル形式
    • ファイル形式の選択:PDF(*.pdf)
    • テキストを認識して検索可能なPDFにします:ON
    • テキスト認識する言語の選択:日本語
    • テキスト認識するページの選択:全ページ
    • オプション
      • PDFファイルオプション:すべてのページを1つのPDFファイルにします
      • 読み取ったPDFファイルにパスワードを付けます:OFF
      • 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:OFF
  • 原稿サイズ
    • 原稿サイズの選択:サイズ自動検出
    • 幅や長さの違う原稿を同時に読み取ります:OFF
    • A3キャリアシート設定
      • ?  ※使っていないので特に設定していません
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
富士通公式ページ-ScanSnap S510 製品仕様

  • ノーマル
    カラー150dpi、白黒(2値)300dpi相当
    両面・片面 18枚/分
  • ファイン
    カラー200dpi、白黒(2値)400dpi相当
    両面・片面 12枚/分
  • スーパーファイン   ※速度面と実用面的におすすめ
    カラー300dpi、白黒(2値)600dpi相当
    両面・片面 6枚/分
  • エクセレント
    カラー600dpi、白黒(2値)1,200dpi相当
    両面・片面 0.6枚/分

その他関連Webページ


*1 スキャンが無駄だ、という人への対抗メッセージだったりします