画像の大きさの適正とe.Typistの学習機能
前回と同じく小説のテキスト化。
e.Typistは仕事でのOCRに適正化されているみたいで、!など使われづらいであろう
ものの優先度が低めに設定されている感じがします。
なので、学習機能を使ってどのくらい改善するのか試してみた。
そもそも、ライトノベルなどで多用される!?や!!などの読み込みは無視されます。
なのでe.Typistでも(読んでココ!も同じ方法) !?や!!(今回の題材には??はなかった)を一つの文字として
認識させて読み込ませます。
!! → ㍉
!? → ㌫
このようにして、小説中では出てこない文字列として認識させます。
e.Typistでは画像補正から!?のところをドラックで囲んで、メニューの文字認識→文字パターン登録から登録させます。
何か手順がめんどくさいですが、少しは効果が出るので、根気よく何箇所もやってみるといいかも。
画像の形から文字の認識をするので、スキャン方法によって全く認識が変わるかも知れません。
シリーズ物で、同じ方法でスキャンしたものには効果的な予感。
!や─(けいせん)も認識が悪いので、辞書に何箇所も登録してみた。
全てあわせて、一冊で70ぐらい登録した。
作成した e.Typist辞書ファイル
文字パターン辞書には1000まで登録できるので、どんどん登録しても大丈夫そうだが、質が悪いものを
増やしていくと誤認識が多くなるので注意したい。
っ など小文字は登録するとかなりの確立で誤認識するので登録は控えたほうがよい。
実際登録した状態で認識させてみたところ、
**登録を全くしてない状態に比べて50%ぐらいは改善したと思う。
**不安な誤認だが、少々あるものの元々が誤認であるものがさらに誤認されたものが多く
実害はあまりなさそう。
例)
辞書なし
ー が 1
辞書あり
ー が !
これは!をかなり優先させたためにおきたものだと思われる。
まだ一冊程度の量からしか辞書登録してないので、増やすほど改善されるのかを確かめていく。
また、辞書登録をしていったところ、なぜか**ルビの認識ミスが増加していくという現象にあった。
**これの根本的な原因は分からないが、下の方法だと少し改善が見れた。
**画像サイズの適正
**前回は縦を6000px(インデックスカラー=256色)になるように拡大していたが、今回は3600px(インデックスカラー=256色=グレースケール?)に拡大して
OCRにかけてみたところ、6000pxでは辞書登録により?ルビの誤認が増加したが、このサイズではルビの誤認は辞書を増やす前とほぼ同程度の
認識率となり、誤認が少し減ったように思われる。
スキャンのときの質の限界を超えた拡大は、誤認を招きやすいようである。
(元画像の3倍程度の大きさ=3600px)
お知らせ欄
JavaScript Primerの書籍版がAmazonで購入できます。
JavaScriptに関する最新情報は週一でJSer.infoを更新しています。
GitHub Sponsorsでの支援を募集しています。