戻る

目次


ScanSnapで本を透明テキスト入りPDFに電子化

本棚・倉庫がいっぱいで場所を開けたいが、捨てて無くなるのは嫌だな~
…という本をScanSnapでスキャンして、検索性も良くするために透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。

何故本をスキャンするのか?

物事を始めるには必ず理由があり、それが無いまま進めてしまうと無駄になるのは当たり前です。*1
私の目的は情報の再利用物理スペースの節約をするためです。

本は他のメディアと違い、内容の再利用する機会が多いメディアです。
躊躇(ちゅうちょ)無く捨てられる本は捨てても問題ないとは思いますが、捨てるのに少しでも躊躇した本は後から再利用する可能性があります。

捨てた後で「ああ、あの時捨てなければ…」というのはよくある事なので、そうならないためにもスキャンする事をおすすめします。

スキャンする本の基準・心構え

私は以下の基準でスキャンする本を決めています。

種類行動
2度と見ない
懐かしさ・捨てられない感が無い
捨てる・売る
PCがある場所以外で使うそのまま使うので本棚に置くか、決まった場所に片付ける
良く使うそのまま使うので本棚に置くか、決まった場所に片付ける
たまに見る再利用するためスキャンする(裁断した本は捨てる)
見ていないが捨てるのが惜しい再利用する可能性があるためスキャンする(裁断した本は捨てる)
スキャン後もたぶん見ないが、喪失感や後で後悔する事が無いのがメリット
倉庫に保管したいスキャンする(裁断した本は捨てる)
倉庫→捨てるのが惜しいと思っている証拠
でも倉庫に入れたが最後、その本は冬眠決定
…なので倉庫に入れるぐらいならスキャンする
  • 全ての書籍を電子化する必要は無い
    よく使う本は、物理的にあったほうが複数冊開いて使えるため、電子化しない方が使い勝手が良かったりします
  • 労力<使い勝手
    労力が上回ると辛くなって止めてしまうためクオリティーに凝るのはほどほどに
    特にOCRした結果、生成されたテキストの修正はしない事
    紙の本自体が文字検索出来ないのと比べれば、多少誤認識されていたとて紙の本よりデータアクセス性は上なのです

スキャナ

私が持っているスキャナーは「ScanSnap S510」です
添付ソフトとして、AdobeAcrobat8が標準で入っています

FUJITSU ScanSnap(スキャンスナップ) S510 FI-S510
FUJITSU ScanSnap(スキャンスナップ) S510 FI-S510

現在はその上位機種である「ScanSnap S1500」が販売されています。
添付ソフトとして、AdobeAcrobat9が標準で入っています
紙の複数枚巻き込み防止の性能が上がっているらしいので、こちらを購入する事をおすすめします。

FUJITSU ScanSnap S1500 FI-S1500
FUJITSU ScanSnap S1500 FI-S1500

下位版の「ScanSnap S1300」もありますが、
こちらには添付ソフトにAdobeAcrobatが付いてこないのでお勧めできません
※AdobeAcrobatが無いと、後で説明する「PDFのページを修正する・スキャンミスを簡単に見つける」方法を取る事が出来ず、スキャンミスを発見しずらくなります

FUJITSU ScanSnap S1300 FI-S1300
FUJITSU ScanSnap S1300 FI-S1300

裁断機

私が持っている裁断機は「ロータリーカッター・A4(DCM Japan 株式会社)」です
2000円ほどでホーマックで買った商品ですが、DCM Japan 株式会社のWebページに商品紹介が載ってません

Scan_Cut3.jpg

ロータリーカッター・A4(DCM Japan 株式会社)
DCM Japanホールディングス株式会社

Amazonでロータリーカッターを調べると似たような商品が出てきました。
見た目ソックリ(というか同じもの?OEM?)ですが、使い勝手が同じかどうかは保障出来ません
3000円ほどで買える様です

ロータリーカッター A4 NRC-N2A4B
ロータリーカッター A4 NRC-N2A4B

巷では「プラス 断裁機 裁断幅A4 PK-513L 26-106」がよく使われている様です
ですが値段が3万円オーバーなんで、私はまだこれを買う勇気が出ません><
欲しいんですけどねぇ…

プラス 断裁機 裁断幅A4 PK-513L 26-106
プラス 断裁機 裁断幅A4 PK-513L 26-106

メリット

透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。

こうする事により画像で保存するよりは以下のメリットがあります。

  • 複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。
    PDF形式の利点です。
    TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。

  • 文字検索が出来る
    OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。
    テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。
    同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。

デメリット

本をバラして裁断する必要がある事です。
本当に捨てたい本だけやるか、2冊買うしかありません。

スキャンの手順

1.本をバラして裁断する

 真中にホチキスの針で止められているような雑誌の場合は針を抜いて切るだけで終了です。

 ですが、雑誌以外のほとんどの本は背表紙のウラに硬いノリでべったりとページを貼っているものが多いと思います。
 そういう本の場合は背表紙の部分を切る事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。

  1. 表紙と本体を分ける
     まず「表紙&裏表紙&背表紙」と「本の中身」を分離します。
    Scan_Cut1.jpg
     背表紙にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすいみたいです。
     本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。

  2. 表紙と裏表紙を分離する
     表紙・裏表紙を背表紙を境に切ります。
    Scan_Cut2.jpg
     これでまずはバラす準備が出来ました。

  3. 背表紙部分を切る
     順番に背表紙の部分を切ります。
     切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。
     ※ホーマックで2千円以内で買えました。
    Scan_Cut3.jpg
     丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。
    Scan_Cut4.jpg
     高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。
     コツは紙の厚さが1~2ミリ以下の枚数になる分ずつやる事です。
     面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。
    Scan_Cut5.jpg
    綺麗に切れました、これを繰り返します。

2.用紙を投入する時のポイント

  1. 用紙を入れる前に本とスキャナのホコリを取る
    できる限り本に付着したホコリを取りましょう。
    そうしないとスキャン時に読み取り窓にホコリが付着し、縦に筋が入ったようにスキャンされてしまいます。
    筋が出るようになってしまった場合は、スキャナの読み取り窓のホコリをふき取りましょう。
    (説明書によると、ブロアー等で吹き飛ばすのは機械の奥底にホコリが入って駄目だそうなので、面倒くさがらずにやわらかい布で拭きます)
    yomitori.jpg

  2. 複数巻き込み防止のためにパラパラする
    くっついて複数巻き込みをしない様に切った側の方を、指でパラパラパラっとしましょう。
    特に1~4枚目を念入りに。

  3. 用紙を投入する
    ムリに押し込むと最初の数ページが複数枚巻き込む事が多いです。
    複数枚の巻き込みは、投入直後の1~4枚目の状態に起きやすい様なので、スキャン開始時の数枚は監視しておきましょう。

3.スキャンする際のパラメータ


  • カラーorグレースケール
    ※白黒(2値)はAdobeReaderでは縮小表示が見えずらいため、お勧め出来ません
  • dpi(解像度)
    カラーorグレースケール:300~400dpi
    白黒(2値):400~600dpi

※dpi(解像度)ってナニ?
dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。
たとえば300dpiは、1インチの幅に300ドットあるという意味です。
プリンタやコピー機等でよく使われている解像度は600dpiです。

白黒(2値)と違い、カラー・グレースケールの場合は600dpiだとスキャンした際の容量が大き過ぎる=重いため、300~400dpiで取るのが現実的です。
カラーは中間色のお陰でdpiが低くても十分綺麗なのでご安心を。

4.PDFのページを修正する・スキャンミスを簡単に見つける

PDFを作成した際に、表紙・目次・奥付等でPDFのサムネイルページ番号と本のページが違う場合が多いと思います。
このままだと目次を見てページを飛んでも、目的のページに飛ぶ事が出来ません。
これでは使う上では不便でしょうがないので、PDFのサムネイルページ番号と本のページを合わせる事にします。
AcrobatでPDFのサムネイルページ番号と本のページを合わせるを参照

ページを合わせた後、数十ページずつ飛ばしながらPDFのページと本のページが途中でズレてないかを見ます。
これをする事によって、多重巻き込みでスキャンされていないページがあったり、応募ハガキをスキャンしてしまっていたりしている様なスキャンミスを簡単に発見する事が出来ます。

ScanSnap S510 のScanSnap Managerの設定について

#amazon(B000MTON5C,left,image)

画像取得先

私が本をスキャンする際には「ScanSnap S510」を使っています。
その際に行った設定を参考までにメモしておきます。

  • クイックメニューを使用する:オフ

スキャンボタンの設定

  • 読み取り設定の選択:透明テキストPDF(両面)  ※名前はお好きなもので良いと思います
  • アプリ選択
    • アプリケーションの選択:指定したフォルダに保存
  • 保存先
    • イメージの保存先:D:Scan ※お好きな場所で良いと思います
    • ファイル名の設定:yyyy年MM月dd日HH時mm分ss秒  ※特に設定していません
  • 読み取りモード
    • 画質の選択:スーパーファイン(より綺麗に読み取ります)
    • カラーモードの選択:カラー
    • 読み取り面の選択:両面読み取り
    • 継続読み取りを有効にします:ON
    • オプション
      • 白黒読み取りの濃度:標準
      • 文字をくっきりします:標準
      • 白紙ページを自動的に削除します:OFF
        ※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする
      • 文字列の傾きを自動的に補正します:OFF
        ※たまにおかしな角度で補正をしてしまうのでOFF
      • 原稿の向きを自動的に補正します:OFF
        ※たまにおかしな方向に向きを補正してしまうためOFF
      • 原稿を上向きにしてセットします:OFF
        ※後々混乱の元なのでOFFにしとくのが望ましい
  • ファイル形式
    • ファイル形式の選択:PDF(*.pdf)
    • テキストを認識して検索可能なPDFにします:ON
    • テキスト認識する言語の選択:日本語
    • テキスト認識するページの選択:全ページ
    • オプション
      • PDFファイルオプション:すべてのページを1つのPDFファイルにします
      • 読み取ったPDFファイルにパスワードを付けます:OFF
      • 読み取ったPDFファイルに電子署名・タイムスタンプを付けます:OFF
  • 原稿サイズ
    • 原稿サイズの選択:サイズ自動検出
    • 幅や長さの違う原稿を同時に読み取ります:OFF
    • A3キャリアシート設定
      • ?  ※使っていないので特に設定していません
  • ファイルサイズ
    • 圧縮率:標準

読み取りモードの画質の選択のDPI・速度について

ソースは以下のページから。
富士通公式ページ-ScanSnap S510 製品仕様

  • ノーマル
    カラー150dpi、白黒(2値)300dpi相当
    両面・片面 18枚/分
  • ファイン
    カラー200dpi、白黒(2値)400dpi相当
    両面・片面 12枚/分
  • スーパーファイン   ※速度面と実用面的におすすめ
    カラー300dpi、白黒(2値)600dpi相当
    両面・片面 6枚/分
  • エクセレント
    カラー600dpi、白黒(2値)1,200dpi相当
    両面・片面 0.6枚/分


*1 スキャンが無駄だ、という人への対抗メッセージだったりします