[[戻る>DoldoWorkz#generalcomputer]] *ScanSnap S510で本を透明テキスト入りPDFに電子化 [#s3545e22] 捨てたい本の中で、使う頻度が低くて捨てたいけと無くなるのは嫌だな~…というものをScanSnap S510で、透明テキスト入りのPDFファイルに電子化してしまおう!という試みのメモです。 #hr #contents #hr *透明テキスト入りPDFにするメリット・デメリット [#zd296e27] **メリット [#r2a05244] 透明テキスト入りPDFとは、スキャンした際に画像をOCR(画像から文字を取り出す技術)で文字を取り出して、透明なテキストファイルとして貼り付けます。~ ~ こうする事により画像で保存するよりは以下のメリットがあります。 -複数ページが1枚のファイルに収まり、サムネイルが標準で表示される。~ PDF形式の利点です。~ TIFF画像形式で1ファイルに複数の画像が入る形式もありますが、あまり一般的ではないのとサムネイル対応ソフトが少ないので、やはりPDFにしたほうが良いでしょう。~ ~ -文字検索が出来る~ OCRで取り出された文字は多少誤認識する場合があるのですが、全てのページをチェックするのは不可能なのでここはあえて目をつむります。~ テキストは透明で見えないようになっており、目視・印刷で見る分にはイメージ側だけが見えるので、多少誤認識しても問題ないのです。~ 同じ手間で、ただの画像より文字検索できるメリットがあるのはかなり大きいです。~ **デメリット [#q6008476] 本の場合はバラす必要があるので、当然2度とその本が使えなくなります。~ 本当に捨てたい本だけやるか、電子化したい本は2冊買うかするしかありません。~ *スキャンをするために本をバラす [#kfee1bdb] 真中にホチキスの針で止められているような雑誌の場合は針を抜いて切るだけで終了です。~ ~ ですが、雑誌以外のほとんどの本は背表紙のウラに硬いノリでべったりとページを貼っているものが多いと思います。~ そういう本の場合は背表紙の部分を切る事になりますが、そのままカッターやハサミで切るには無理なので、以下の方法で行っています。~ -表紙と本体を分ける~ まず「表紙&裏表紙&背表紙」と「本の中身」を分離します。~ #ref(Scan_Cut1.jpg) 背表紙にドライヤーやアイロンをかけると、ノリが柔らかくなって取れやすいみたいです。~ 本の種類にもよるのかもしれませんが、ある程度慎重にやればドライヤやアイロン等を使わなくても普通にビリビリと分離出来るようになると思います。~ ~ -表紙と裏表紙を分離する~ 表紙・裏表紙を背表紙を境に切ります。~ #ref(Scan_Cut2.jpg) これでまずはバラす準備が出来ました。~ ~ -背表紙部分を切る~ 順番に背表紙の部分を切ります。~ 切るのに「ロータリーカッター・A4(DCM Japan 株式会社)」という裁断機を使っています。~ ※ホーマックで2千円以内で買えました。~ #ref(Scan_Cut3.jpg) 丸い刃のカッターがついていて、その刃がついてる取っ手を押し付けながらスライドする事によって切ることができる代物です。~ #ref(Scan_Cut4.jpg) 高いものでは数百ページを一気に切るものもありますが、そういうのは2万円ぐらいしますので、コストを考えるとこれでいいのかなと思います。~ コツは紙の厚さが1~2ミリ以下の枚数になる分ずつやる事です。~ 面倒だからといっていっぺんにやろうとすると汚ない切り口になってしまうのでほどほどに。~ #ref(Scan_Cut5.jpg) 綺麗に切れました、これを繰り返します。~ *用紙を投入する時のポイント [#d9087b0e] -用紙を入れる前に~ --ホコリを取る~ できる限り&color(blue){''本に付着したホコリを取り''};ましょう。~ そうしないとスキャン時に読み取り窓にホコリが付着し、縦に筋が入ったようにスキャンされてしまいます。~ 筋が出るようになってしまった場合は、スキャナの読み取り窓のホコリをふき取りましょう。~ (説明書によると、&color(red){''ブロアー等で吹き飛ばすのは機械の奥底にホコリが入って駄目''};だそうなので、面倒くさがらずにやわらかい布で拭きます)~ #ref(yomitori.jpg)~ --複数巻き込み防止~ &color(blue){''用紙を切った側の方を、指でパラパラパラ''};っとしましょう。~ 特に1~4枚目を念入りに。~ -用紙を入れた時に~ 上が揃っているか確認しましょう。~ &color(red){''ムリに押し込んだりすると最初の数ページが複数枚巻き込む事が多い''};です。~ -複数枚の巻き込みがなりやすい所~ 投入直後の1~4枚目の状態に起きる(起きやすい?)様なので、最初だけ見ておきましょう。~ *ScanSnap S510のScanSnap Managerの設定について [#r5a22e91] 自分が本をスキャンする際に行った設定は以下のとおりです。~ ~ クイックメニューを使用する:オフ~ **スキャンボタンの設定 [#vf645af2] -読み取り設定の選択:''透明テキストPDF(両面)'' ※名前はお好きなもので良いと思います~ -アプリ選択~ --アプリケーションの選択:''指定したフォルダに保存''~ -保存先~ --イメージの保存先:''D:Scan'' ※お好きな場所で良いと思います~ --ファイル名の設定:''yyyy年MM月dd日HH時mm分ss秒'' ※特に設定していません~ -読み取りモード~ --画質の選択:&color(blue){''スーパーファイン(より綺麗に読み取ります)''};~ --カラーモードの選択:&color(blue){''自動(原稿ごとにカラーと白黒を自動判別します)''};~ --読み取り面の選択:&color(blue){''両面読み取り''};~ --継続読み取りを有効にします:&color(blue){''ON''};~ --オプション~ ---白黒読み取りの濃度:''標準''~ ---文字をくっきりします:''標準''~ ---白紙ページを自動的に削除します:&color(blue){''OFF''}; ※ちゃんとスキャンが出来たかをページ数で確認する際に、数が合わなくなってしまうのでOFFにする~ ---文字列の傾きを自動的に補正します:&color(blue){''OFF''}; ※たまにおかしな角度で補正をしてしまうのでOFF~ ---原稿の向きを自動的に補正します:&color(blue){''OFF''}; ※たまにおかしな方向に向きを補正してしまうためOFF~ ---原稿を上向きにしてセットします:''OFF'' ※後々混乱の元なのでOFFにしとくのが望ましい~ -ファイル形式~ --ファイル形式の選択:&color(blue){''PDF(*.pdf)''};~ --テキストを認識して検索可能なPDFにします:&color(blue){''ON''};~ --テキスト認識する言語の選択:&color(blue){''日本語''};~ --テキスト認識するページの選択:&color(blue){''全ページ''};~ --オプション~ ---PDFファイルオプション:&color(blue){''すべてのページを1つのPDFファイルにします''};~ ---読み取ったPDFファイルにパスワードを付けます:''OFF''~ ---読み取ったPDFファイルに電子署名・タイムスタンプを付けます:''OFF''~ -原稿サイズ~ --原稿サイズの選択:''サイズ自動検出''~ --幅や長さの違う原稿を同時に読み取ります:''OFF''~ --A3キャリアシート設定~ ---? ※使っていないので特に設定していません~ -ファイルサイズ~ --圧縮率:''標準''~ **読み取りモードの画質の選択のDPI・速度について [#aaa2aab1] ソースは以下のページから。~ [[富士通公式ページ-ScanSnap S510 製品仕様>http://scansnap.fujitsu.com/jp/product/s510/specification/]]~ ~ -''ノーマル''~ カラー150dpi、白黒(2値)300dpi相当~ 両面・片面 18枚/分~ -''ファイン''~ カラー200dpi、白黒(2値)400dpi相当~ 両面・片面 12枚/分~ -&color(blue){''スーパーファイン''}; ※速度面と実用面的におすすめ~ カラー300dpi、白黒(2値)600dpi相当~ 両面・片面 6枚/分~ -''エクセレント''~ カラー600dpi、白黒(2値)1,200dpi相当~ 両面・片面 0.6枚/分~ ~ ***DPIってナニ? [#cc47b0da] dpi(解像度)とはドットパーインチという単位で、印刷時のドットの細かさを表した値です。~ たとえば300dpiは、1インチの幅に300ドットあるという意味です。~ プリンタやコピー機等でよく使われている解像度は600dpiです。~ ~ 白黒と違い、カラーの場合は600dpiだとスキャンした際の容量が大き過ぎる=重いので、300~400dpiで取るのが妥当だと思います。~ カラーだと、色の中間色のお陰で多少dpiが低くても十分見えますのでご安心を。~