Posts Tagged ‘ライトノベル’
画像の大きさの適正とe.Typistの学習機能
前回と同じく小説のテキスト化。
e.Typistは仕事でのOCRに適正化されているみたいで、!など使われづらいであろう
ものの優先度が低めに設定されている感じがします。
なので、学習機能を使ってどのくらい改善するのか試してみた。
そもそも、ライトノベルなどで多用される!?や!!などの読み込みは無視されます。
なのでe.Typistでも(読んでココ!も同じ方法) !?や!!(今回の題材には??はなかった)を一つの文字として
認識させて読み込ませます。
小説をテキスト化する下ごしらえのTips
メモ書きなので、そのうちまとめます。(wikiかなんか作ったほうが良いかな?)
今回はどのフォーマットで下ごしらえをするべきかを比較しながらやってく。
サンプル作品はSnapScan(300dpi)でスキャンしたものを10数ページ。
画像ファイルの下ごしらえ
一般的には文字のようなものはフォーマット的にpngが最適だと思います。
使用ソフトはMeTilTranと藤 -Resizer-とe.Typistの3つを使っていきます。
MeTilTranで画像の角度修正とリサイズの両方の作業ができる、しかしMeTilTranは
画像の出力にはそれほど手を加えられないので、画像のリサイズに藤 -Resizer-を使う場合と比較してみる。

