戻る

目次


2013/4/21 更新

ScanSnapで本を透明テキスト入りPDFに電子化

本棚・倉庫がいっぱいで場所を開けたいが、捨てて無くなるのは嫌だな~
…という本をScanSnapでスキャンして、検索性も良くするために透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。

何故本をスキャンするのか?

物事を始めるには必ず理由があり、それが無いまま進めてしまうと無駄になるのは当たり前です。*1
私の目的は情報の再利用物理スペースの節約をするためです。

本は他のメディアと違い、内容の再利用する機会が多いメディアです。
躊躇(ちゅうちょ)無く捨てられる本は捨てても問題ないとは思いますが、捨てるのに少しでも躊躇した本は後から再利用する可能性があります。

捨てた後で「ああ、あの時捨てなければ…」というのはよくある事なので、そうならないためにもスキャンする事をおすすめします。

スキャンする本の基準・心構え

私は以下の基準でスキャンする本を決めています。

種類行動
2度と見ない
懐かしさ・捨てられない感が無い
捨てる・売る
PCがある場所以外で使うそのまま使うので本棚に置くか、決まった場所に片付ける
良く使うそのまま使うので本棚に置くか、決まった場所に片付ける
たまに見る再利用するためスキャンする(裁断した本は捨てる)
見ていないが捨てるのが惜しい再利用する可能性があるためスキャンする(裁断した本は捨てる)
スキャン後もたぶん見ないが、喪失感や後で後悔する事が無いのがメリット
倉庫に保管したいスキャンする(裁断した本は捨てる)
倉庫→捨てるのが惜しいと思っている証拠
でも倉庫に入れたが最後、その本は冬眠決定
…なので倉庫に入れるぐらいならスキャンする
  • 全ての書籍を電子化する必要は無い
    よく使う本は、物理的にあったほうが複数冊開いて使えるため、電子化しない方が使い勝手が良かったりします
  • 労力<使い勝手
    労力が上回ると辛くなって止めてしまうためクオリティーに凝るのはほどほどに
    特にOCRした結果、生成されたテキストの修正はしない事
    紙の本自体が文字検索出来ないのと比べれば、多少誤認識されていたとて紙の本よりデータアクセス性は上なのです

メリット

透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。

こうする事により画像で保存するよりは以下のメリットがあります。

  • 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
    PDF形式の利点です。
    TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。

  • 文字検索が出来る
    OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
    テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
    同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。

デメリット

本をバラして裁断する必要がある事です。
本当に捨てたい本だけやるか、2冊買うしかありません。

必要な物

スキャナ

最新の上位機種は「ScanSnap iX500」です
Amazon.co.jp: 富士通 FUJITSU ScanSnap iX500 (A4/両面/Wi-Fi対応) FI-IX500A: パソコン・周辺機器

ロータリーカッター・裁断機

本の背を裁断してくれる業者に頼んだ方が間違いないのですが、裁断の業者によってはカバーを切らない場合があったりするので、ロータリーカッターはあった方が良いです。

私が持っている裁断機は「ロータリーカッター・A4(DCM Japan 株式会社)」です
※2000円ほどでホーマックで買った商品ですが、現在DCM Japan 株式会社のWebページに商品紹介が載っていませんでした

Scan_Cut3.jpg

ロータリーカッター・A4(DCM Japan 株式会社)
DCMホールディングス株式会社

Amazonでロータリーカッターを調べると似たような商品が出てきました。
3000円ほどで買える様です
Amazon.co.jp: ナカバヤシ ロータリーカッターA4 ブルー NRC-N2A4-B [オフィス用品]: 文房具・オフィス用品


業者を使わず自分で分厚い本の本の背を一気に裁断したい
そういう方がよく使われている裁断機が「パーソナル断裁機 Durodex 200DX」です
ただ、値段が3万近くするので私はこれを買う勇気が出ません><
Amazon.co.jp: DURODEX 自炊裁断機 ブラック 200DX: 文房具・オフィス用品

参考Webページ

正常にスキャン出来るか確認

購入して実際に使う前に、正常にスキャン出来ているかどうかを確認します

A4の色画用紙等を両面スキャンして、変な縦筋が出ないかチェックします
構造上多少の縦筋は出ますが、以下の様な極めて目立つ縦筋が上から下にかけて出る様であれば、読み取り窓に何かついてないか確認し拭いてみて下さい。

目立つ縦筋.png

拭き方としては、「実際にスキャンする」の「2.読み取り窓を拭く」の項を参照して下さい。

拭いても縦筋が発生する場合は、サポートに問合せして下さい。
ScanSnap 本製品のお問い合わせ : 富士通

※私の場合は買ったばかりだったので新品交換という事で、まず新品が送られて来て正常動作を確認してから不良品を着払いで送り返す、という対応をして戴きました。

実際にスキャンする

1.本をバラして裁断する

本の背を裁断してくれる業者に頼んだ方が間違いないのですが、裁断の業者によってはカバーは切らない場合もあるので、ここではロータリーカッターを使って自分で裁断を行う場合の説明をします。

真ん中にホチキスの針で止められているような雑誌の様な本は針を抜いて切るだけで終了なのですが、ほとんどの本は背のウラに硬いノリでべったりと貼っているものが多いと思います。
そういった本の場合は背の部分ごと裁断する事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。

  1. カバーを外し、カバーを切る
    切る場所は、カバーの表側にに背文字の部分が残る様な形が理想です
    Scan_Cut9.png

  2. 表紙と本体を分ける
    背にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすくなります。
    本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。
    Scan_Cut1.jpg

  3. 表紙を分離する
    背を境に切ります。
    Scan_Cut2.jpg

  4. 表紙と本文の背の部分を切る
    背の部分を切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
    丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
    高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
    コツは厚みが1~2ミリ以下の枚数ずつやる事です。
    面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
    Scan_Cut3.jpg
    Scan_Cut4.jpg
    Scan_Cut5.jpg
    綺麗に切れました、これを繰り返します。

2.スキャナ内のホコリを飛ばす&読み取り窓を拭く

読み取り窓にホコリ&背の糊が付着し、スキャン時に縦筋の様な跡が出る場合があるので、定期的にスキャナ内のホコリを飛ばす&読み取り窓を拭きましょう。

糊が付着した読み取り窓.png

タイミングとしては1冊分の表紙&本文をスキャンし終えた直後や、スキャンサイズが変わるカバーをスキャンする直前が良いと思います

  • 用紙が接触する場所・周辺を、毛ばたきでホコリを飛ばす
    ただし静電気で取るタイプの毛ばたきはダメ、静電気で余計にホコリ引き寄せます
    ブロアーやエアダスター等で吹き飛ばすのは、強力すぎて機械の奥底にホコリが入るので絶対ダメ!!
  • 濡れティッシュ的な物で拭く
    繊維ゴミの出ないやわらかい布(メガネ拭き)+クリーナーF1(又は清掃用の無水アルコールや、コピー機やFAX用のOA機器濡れティッシュ)

読み取り窓は必ず2か所とも拭きましょう、これは読み取り面の反対側の読み取り窓の白い部分に汚れが付着した場合にも縦筋が発生するからです。
水分の付着も縦筋の原因になるので水分を布の乾いた部分で拭き取っておく事も忘れずに

読み取り窓_iX500.png
読み取り窓_S510.png

3.用紙を投入する時のポイント

  1. カバーと、表紙&本文は別でスキャン
    別でスキャンして後でPDF編集ソフトで結合する様にしましょう

  2. くっついたページを確認&ホコリ除去
    背や天の部分をクニクニした後で指でパラパラすれば、見た目や指の感触で背の部分が糊でくっ付いたページが分かり、なおかつ指でパラパラした事によってホコリが取り除けます
    Scan_Cut10.png
    Scan_Cut11.png

  3. ムリに押し込んで入れない
    ムリに押し込むと最初の数ページが複数枚巻き込む事が多いです。

4.スキャンする際の色とdpi(解像度)について

種類設定説明
カラー白黒は容量の面では有利ですが
AdobeReaderで見た時に縮小表示が汚く表示されるので、
カラーでやっておいた方が無難です
dpi(解像度)カラーで300~400dpi

※dpi(解像度)ってナニ?
dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。
たとえば300dpiは、1インチの幅に300ドットあるという意味です。

コピー機等でよく使われている解像度は600dpiですが、カラーの場合は600dpiだとファイルの容量が大き過ぎて表示するのにとても遅くなるため、300~400dpiで取るのが現実的です。
カラーは中間色のお陰でdpiが低くても十分綺麗に見えるのでご安心を。

5.途中でトラブルがありスキャンが止まってしまった場合

途中で引っかかる等、何かしらのトラブルで止まってしまった場合はそこでスキャン中止にせず、後で修正する事にして以下の方法で再開します。

  1. きちんとスキャンされてないと予想されるページ番号をメモしておきます
  2. 破けていたり折れ曲がっているページを直します
  3. きちんとスキャンされていないページからスキャン再開します

以上の方法で再開した場合はスキャンしたページ数分、PDFのページが増えてしまっている事を忘れないようにして下さい。
後で修正するためにとても重要です。

6.PDFのページを修正する・スキャンミスを簡単に見つける

PDFを作成した際に、表紙・目次・奥付等でPDFのサムネイルページ番号と本のページが違う場合が多いと思います。
このままだと目次を見てページを飛んでも、目的のページに飛ぶ事が出来ません。
これでは使う上では不便でしょうがないので、PDFのサムネイルページ番号と本のページを合わせる事にします。
AcrobatでPDFのサムネイルページ番号と本のページを合わせるを参照

その後、以下の手順でスキャンミスを発見します

  1. きちんとスキャンされてないと予想されるページ番号をメモしているなら、まずそこを修正します。
    変なスキャンがされている不要なページを削除します。
  2. 数十ページずつ飛ばしながらPDFのページと本のページが途中でズレてないかを見ます。
    これをする事によって、多重巻き込みでスキャンされていないページがあったり、応募ハガキをスキャンしてしまっていたりしている様なスキャンミスを簡単に発見する事が出来ます。

ScanSnap iX500 について

Amazon.co.jp: FUJITSU ScanSnap iX500 FI-IX500: パソコン・周辺機器
私が「ScanSnap iX500」で本をスキャンする際に行った設定や工夫を参考までにメモしておきます。

ScanSnap Manager - スキャンボタンの設定

  • クイックメニューを使用する:☐ オフ

  • アプリ選択
    • アプリケーションの選択:ScanSnap Organizer
  • 保存先
    • イメージの保存先:C:\Users\xxxx\Documents\ScanSnap
      ※ScanSnap Organizer選択時は、変更できません
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒 ※特に設定変更していません
    • 読み取り後、ファイル名を変更します:☐ オフ
  • 読み取りモード
    • 画質の選択:スーパーファイン(カラー/グレー:300dpi、白黒:600dpi相当)
    • カラーモードの選択:カラー
    • 読み取り面の選択:両面読み取り
    • 原稿の向きを自動的に回転します:☐ オフ
    • 白紙ページを自動的に削除します:☐ オフ
    • 継続読み取りを有効にします:☑ オン
    • オプション
      • 裏写りを軽減します:☐ オフ
      • 白黒読み取りの濃度を調整します:標準
      • 文字をくっきりします:☐ オフ
      • 原稿を上向きにしてセットします:☐ オフ
        ※後々混乱の元なのでオフが望ましい
  • ファイル形式
    • ファイル形式の選択:PDF (*.pdf)
    • テキスト認識の選択
      • マーカー部分の文字列をPDFのキーワードにします:☐ オフ
      • 検索可能なPDFにします:☑ オン
    • テキスト認識オプション
      • 対象言語:日本語
      • 対象ページ:全ページ
    • オプション
      • PDFページ分割:すべてのページを1つのPDFファイルにします
      • 出力モード:PDF/A-1bに準拠した形式で出力します:☐ オフ
      • パスワード:読み取ったPDFファイルにパスワードを付けます:☐ オフ
      • 電子署名・タイムスタンプ:読み取ったPDFファイルに電子署名・タイムスタンプを付けます:☐ オフ
  • 原稿
    • 原稿サイズの選択:サイズ自動検出
    • A3キャリアシート設定 ※特に設定変更していません
      • イメージの保存方法:表裏のイメージを見開きにして保存します ※特に設定変更していません
      • 保存するイメージのサイズ:サイズ自動選択 ※特に設定変更していません
    • マルチフィード検出:重なりで検出 (超音波)
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
ScanSnap iX500 : 富士通

読み取りモードdpi(解像度)読み取り速度
自動解像度モード原稿の長さが約148mm以下:カラー/グレー300dpi、白黒600dpi相当
原稿の長さが約148mmよりも長い:カラー/グレー200dpi、白黒400dpi相当
両面・片面 25枚/分
ノーマルカラー/グレー150dpi、白黒300dpi相当両面・片面 25枚/分
ファインカラー/グレー200dpi、白黒400dpi相当両面・片面 25枚/分
スーパーファインカラー/グレー300dpi、白黒600dpi相当両面・片面 25枚/分
エクセレントカラー/グレー600dpi、白黒1,200dpi相当両面・片面 7枚/分

※速度やファイルの容量の事を考えると、スーパーファインが適切な様です

ScanSnap S510 について

Amazon | FUJITSU ScanSnap(スキャンスナップ) S510 FI-S510 | 富士通 | ドキュメントスキャナ 通販
私が「ScanSnap S510」で本をスキャンする際に行った設定や工夫を参考までにメモしておきます。

ScanSnap Manager - スキャンボタンの設定

  • クイックメニューを使用する:☐ オフ

  • アプリ選択
    • アプリケーションの選択:指定したフォルダに保存
  • 保存先
    • イメージの保存先:D:\Scan ※保存先はお好きな場所で良いと思います
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒  ※特に設定変更していません
  • 読み取りモード
    • 画質の選択:スーパーファイン(より綺麗に読み取ります)
    • カラーモードの選択:カラー
    • 読み取り面の選択:両面読み取り
    • 継続読み取りを有効にします:☑ オン
    • オプション
      • 白黒読み取りの濃度:標準
      • 文字をくっきりします:☐ オフ
      • 白紙ページを自動的に削除します:☐ オフ
        ※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする
      • 文字列の傾きを自動的に補正します:☐ オフ
        ※たまにおかしな角度で補正をしてしまうのでOFF
      • 原稿の向きを自動的に補正します:☐ オフ
        ※たまにおかしな方向に向きを補正してしまうためOFF
      • 原稿を上向きにしてセットします:☐ オフ
        ※後々混乱の元なのでOFFにしとくのが望ましい
  • ファイル形式
    • ファイル形式の選択:PDF(*.pdf)
    • テキストを認識して検索可能なPDFにします:☑ オン
    • テキスト認識する言語の選択:日本語
    • テキスト認識するページの選択:全ページ
    • オプション
      • PDFファイルオプション:すべてのページを1つのPDFファイルにします
      • 読み取ったPDFファイルにパスワードを付けます:☐ オフ
      • 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:☐ オフ
  • 原稿サイズ
    • 原稿サイズの選択:サイズ自動検出
    • 幅や長さの違う原稿を同時に読み取ります:☐ オフ
    • A3キャリアシート設定 ※特に設定変更していません
      • 実行モード:見開き画像を出力します ※特に設定変更していません
      • 出力画像サイズ:サイズ自動選択 ※特に設定変更していません
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
ScanSnap S510(製品情報) : 富士通

読み取りモードdpi(解像度)読み取り速度
ノーマルカラー150dpi、白黒(2値)300dpi相当両面・片面 18枚/分
ファインカラー200dpi、白黒(2値)400dpi相当両面・片面 12枚/分
スーパーファインカラー300dpi、白黒(2値)600dpi相当両面・片面 6枚/分
エクセレントカラー600dpi、白黒(2値)1,200dpi相当両面・片面 0.6枚/分

※速度やファイルの容量の事を考えると、スーパーファインが適切な様です

S510で複数枚巻き込みが起こらないようにする工夫

複数枚巻き込みが多いな…と思ったら以下の方法を試すと解消される事が多いです

  1. パッドユニットのゴム部分を拭く
    ゴムの部分に本のインクがべったりと付く事でゴムの摩擦が少なくなり、複数巻き込みの原因となります。
    Scan_Cut12.png
  2. 投入する用紙の形を工夫する
    普通に入れて複数巻き込みをしない用紙であれば、これをする必要は無いです(余計に複数枚巻き込みが発生する場合があります)
    1. スキャナに入れる側の辺を、机の上でトントン…として揃える
      Scan_Cut7.png
    2. 用紙をクニクニさせ、スキャナに入れる辺の断面が斜めになる様に形を作る
      Scan_Cut8.png

S510でスキャン後の用紙がバラけない様にする工夫

スキャン後の用紙がどんどん上に引きずられ、バラバラになってしまう様なら、以下の様にセロハンテープの輪っかを作り、上に引きずられない様に配置します。
※用紙が上に引きずられない様になれば良いので、セロハンテープでなくても良い

Scan_Cut6.png

その他関連Webページ


*1 スキャンが無駄だ、という人への対抗メッセージだったりします