<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Web scratch &#187; 小説電子化</title>
	<atom:link href="http://efcl.info/category/%e5%b0%8f%e8%aa%ac%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e5%8c%96/feed/" rel="self" type="application/rss+xml" />
	<link>http://efcl.info</link>
	<description>フリーソフトやFirefoxなどについて、web全般なサイト</description>
	<lastBuildDate>Wed, 08 Sep 2010 05:51:26 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>MeTilTranとeTilTranの使い方とか設定[Tips]</title>
		<link>http://efcl.info/2008/0521/res96/</link>
		<comments>http://efcl.info/2008/0521/res96/#comments</comments>
		<pubDate>Wed, 21 May 2008 09:43:50 +0000</pubDate>
		<dc:creator>azu</dc:creator>
				<category><![CDATA[小説電子化]]></category>
		<category><![CDATA[OCR]]></category>
		<category><![CDATA[小説]]></category>

		<guid isPermaLink="false">http://efcl.info/?p=96</guid>
		<description><![CDATA[自分用のメモですが、機能の詳細についてまだ分からない部分が多いので実験しながら書いています。
MeTilTranの方が使う機会は多いのでMeTilTran中心です。
再配置の簡単な流れ(いつもやってるような流れ)

画像 [...]]]></description>
			<content:encoded><![CDATA[<p>自分用のメモですが、機能の詳細についてまだ分からない部分が多いので実験しながら書いています。<br />
<a href="http://no722.cocolog-nifty.com/blog/2008/01/metiltran_v011_b150.html">MeTilTran</a>の方が使う機会は多いのでMeTilTran中心です。</p>
<p>再配置の簡単な流れ(いつもやってるような流れ)</p>
<ol>
<li>画像を読み込んで多くのページのノンブルが正しく認識されているかを確認する。</li>
<li>ノンブルが認識されてないページ(挿絵以外で)を探し、有効領域がノンブルと本文をごっちゃにしているときは<br />
グループ編集で本文のみを有効領域で覆う。(再認識すると元に戻る)<br />
ページ編集に戻し、本文がおかしくないかを確認</li>
<li><strong>段</strong>のとこをみておかしな数(1ばかりの中に2が混じってたり)を探して、<br />
ノンブルを本文と認識している場合は切り離す(2の方法と同じ)<br />
また角度を調整したりして再認識する。</li>
<li>適当なページでプレビューをして、好きなレイアウトに合うように調整する。<br />
自分的にはウィザードで文字サイズ、行数と字数を決めて、細かい余白は設定から決め打ちしている。(この時の文字サイズを覚えておく)</li>
<li>ちなみに行数は19、字数は24ぐらいで余白は時計回りに上22,24,16,16ぐらいな感じにしている。(文字サイズはスキャンする小説毎に異なるのでいつもと見た目が同じくらいのサイズにする。75%前後が多い)</li>
<li>設定などができたら、できるなら１ページ１ページ崩れていないかを確認して角度を調整して直す。</li>
<li>そして出力する。MeTilTranは文字サイズ(出力画像拡大サイズ)を忘れるバグがあるので4の時のサイズを入力する。</li>
</ol>
<p>自問自答</p>
<ul>
<li>Q.ノンブルが左右で片方だけ上手く認識しないとき<br />
偶数ページだけノンブルを認識しなかったり場合の話</li>
</ul>
<p>画像を読み込む時(MeTilTranのスキャン)に<strong>グループ融合文字割合</strong>を変えてみる(初期値1.25)<br />
これを1.00にしたりすると意外とできることがある。</p>
<p>分布左右_ノンブルの高さの有効範囲を設定する。<br />
この値があまりにも小さいとノンブルを認識できない事がある。だけど大きくしすぎても意味はない。<br />
30~50くらいで十分</p>
<ul>
<li>Q.文字が半分かすれたり、切れたりする。</li>
</ul>
<p>まあ、 MeTilTranで再配置すると何枚かは必ずなると思う。<br />
このかすれを減らすには<strong>角度のズレ</strong>をなくすといい。<br />
角度変更するときにShift+スクロールで0.1度づつ変更できる。グリッドに合わせてやればやりやすい。<br />
eTilTranで細かく角度を調整するのもいいと思う。<br />
またMeTilTranでも角度の補正はできるのでプレビュー画面で明らかにミスっているものは角度を少し変えてみるといい。</p>
<p>一番楽なのはスキャンするときにできるだけズレをなくすこと。(一枚も失敗しないときは気持ちいい。)</p>
<p>MeTilTranで傾きの設定項目で傾き検出文字数をあまり大きくすると（初期値20)補整角が上手く取得できないので、<br />
大きな値にする必要はあまりない。</p>
]]></content:encoded>
			<wfw:commentRss>http://efcl.info/2008/0521/res96/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>画像の大きさの適正とe.Typistの学習機能</title>
		<link>http://efcl.info/2007/1228/res12/</link>
		<comments>http://efcl.info/2007/1228/res12/#comments</comments>
		<pubDate>Thu, 27 Dec 2007 15:47:24 +0000</pubDate>
		<dc:creator>azu</dc:creator>
				<category><![CDATA[小説電子化]]></category>
		<category><![CDATA[e.Typist]]></category>
		<category><![CDATA[OCR]]></category>
		<category><![CDATA[テキスト化]]></category>
		<category><![CDATA[ライトノベル]]></category>
		<category><![CDATA[小説]]></category>

		<guid isPermaLink="false">http://efcl.info/2007/1228/res12/</guid>
		<description><![CDATA[前回と同じく小説のテキスト化。
e.Typistは仕事でのOCRに適正化されているみたいで、！など使われづらいであろう
ものの優先度が低めに設定されている感じがします。
なので、学習機能を使ってどのくらい改善するのか試し [...]]]></description>
			<content:encoded><![CDATA[<p>前回と同じく小説のテキスト化。<br />
e.Typistは仕事でのOCRに適正化されているみたいで、！など使われづらいであろう<br />
ものの優先度が低めに設定されている感じがします。</p>
<p>なので、学習機能を使ってどのくらい改善するのか試してみた。<br />
そもそも、ライトノベルなどで多用される!?や!!などの読み込みは無視されます。<br />
なのでe.Typistでも(読んでココ！も同じ方法)　!?や!!(今回の題材には??はなかった)を一つの文字として<br />
認識させて読み込ませます。</p>
<p><span id="more-12"></span></p>
<p>!! →　㍉<br />
!? →　㌫</p>
<p>このようにして、小説中では出てこない文字列として認識させます。</p>
<p>e.Typistでは画像補正から!?のところをドラックで囲んで、メニューの文字認識→文字パターン登録から登録させます。<br />
何か手順がめんどくさいですが、少しは効果が出るので、根気よく何箇所もやってみるといいかも。<br />
画像の形から文字の認識をするので、スキャン方法によって全く認識が変わるかも知れません。<br />
シリーズ物で、同じ方法でスキャンしたものには効果的な予感。</p>
<p>！や─(けいせん)も認識が悪いので、辞書に何箇所も登録してみた。<br />
全てあわせて、一冊で70ぐらい登録した。</p>
<p><a href="http://efcl.info/wp-content/uploads/usrpat120.UPT" title="e.Typist辞書">作成した　e.Typist辞書ファイル<br />
</a><br />
文字パターン辞書には1000まで登録できるので、どんどん登録しても大丈夫そうだが、質が悪いものを<br />
増やしていくと誤認識が多くなるので注意したい。<br />
っ　など小文字は登録するとかなりの確立で誤認識するので登録は控えたほうがよい。</p>
<p>実際登録した状態で認識させてみたところ、<br />
<strong>登録を全くしてない状態に比べて50%ぐらいは改善したと思う。<br />
</strong>不安な誤認だが、少々あるものの元々が誤認であるものがさらに誤認されたものが多く<br />
実害はあまりなさそう。</p>
<p>例)<br />
辞書なし<br />
ー　が　１<br />
辞書あり<br />
ー　が　！</p>
<p>これは！をかなり優先させたためにおきたものだと思われる。<br />
まだ一冊程度の量からしか辞書登録してないので、増やすほど改善されるのかを確かめていく。<br />
また、辞書登録をしていったところ、なぜか<strong>ルビの認識ミスが増加していくという現象にあった。<br />
</strong>これの根本的な原因は分からないが、下の方法だと少し改善が見れた。</p>
<p><strong>画像サイズの適正<br />
</strong>前回は縦を6000px（インデックスカラー=256色）になるように拡大していたが、今回は3600px（インデックスカラー=256色=グレースケール？）に拡大して<br />
OCRにかけてみたところ、6000pxでは辞書登録により？ルビの誤認が増加したが、このサイズではルビの誤認は辞書を増やす前とほぼ同程度の<br />
認識率となり、誤認が少し減ったように思われる。</p>
<p>スキャンのときの質の限界を超えた拡大は、誤認を招きやすいようである。<br />
(元画像の3倍程度の大きさ=3600px)</p>
]]></content:encoded>
			<wfw:commentRss>http://efcl.info/2007/1228/res12/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>小説をテキスト化する下ごしらえのTips</title>
		<link>http://efcl.info/2007/1225/res9/</link>
		<comments>http://efcl.info/2007/1225/res9/#comments</comments>
		<pubDate>Tue, 25 Dec 2007 14:51:32 +0000</pubDate>
		<dc:creator>azu</dc:creator>
				<category><![CDATA[小説電子化]]></category>
		<category><![CDATA[e.Typist]]></category>
		<category><![CDATA[OCR]]></category>
		<category><![CDATA[ソフトウェア]]></category>
		<category><![CDATA[テキスト化]]></category>
		<category><![CDATA[ライトノベル]]></category>
		<category><![CDATA[小説]]></category>

		<guid isPermaLink="false">http://efcl.info/2007/1225/res9/</guid>
		<description><![CDATA[メモ書きなので、そのうちまとめます。(wikiかなんか作ったほうが良いかな?)
今回はどのフォーマットで下ごしらえをするべきかを比較しながらやってく。
サンプル作品はSnapScan（300dpi）でスキャンしたものを1 [...]]]></description>
			<content:encoded><![CDATA[<p>メモ書きなので、そのうちまとめます。(wikiかなんか作ったほうが良いかな?)<br />
今回はどのフォーマットで下ごしらえをするべきかを比較しながらやってく。</p>
<p>サンプル作品はSnapScan（300dpi）でスキャンしたものを10数ページ。</p>
<p><strong>画像ファイルの下ごしらえ</strong></p>
<p>一般的には文字のようなものはフォーマット的にpngが最適だと思います。</p>
<p>使用ソフトは<a href="http://no722.cocolog-nifty.com/blog/2007/10/index.html">MeTilTran</a>と<a href="http://hp.vector.co.jp/authors/VA015850/">藤 -Resizer</a>-とe.Typistの3つを使っていきます。<br />
MeTilTranで画像の角度修正とリサイズの両方の作業ができる、しかしMeTilTranは<br />
画像の出力にはそれほど手を加えられないので、画像のリサイズに藤 -Resizer-を使う場合と比較してみる。</p>
<p><span id="more-9"></span></p>
<p><strong>以下略します。<br />
MeTilTran→メチル<br />
藤 -Resizer-→藤<br />
</strong><br />
まず共通の操作ですが、メチルで画像の補正をします。<br />
つまり、画像の傾きとノンブル削除を行います。<br />
そして全てPNGで吐き出しますが、そこらへんの違いで少しOCRの読み込みに差が出てくるようです。</p>
<table border="1" cellpadding="3" cellspacing="3">
<tr valign="top">
<td>方法</td>
<td><strong>メチル補正→籐リサイズ</strong></td>
<td>メチル補正→メチルリサイズ</td>
<td>メチル補正→メチルリサイズ</td>
</tr>
</table>
<p><strong>*色深度=<span class="mw-headline">インデックスカラー</span></strong><br />
これをe.Typistで読み込み、OCRをかける。<br />
以下e.Typistの設定。</p>
<p>・ファイル読込<br />
画像の微小傾き補正 → 全体の補正(T)<br />
(画像拡大にチェックが入ってたら外す。拡大は前で処理)<br />
・レイアウト → 自動レイアウト解析<br />
※ 読んde!!ココと違い、自動解析するほうが精度高いです。ただし、画像から<br />
ノンブルや柱を消して余計なものを認識しないようにする必要があります。<br />
・認識<br />
日本語認識オプション→かな<br />
ルビ文字挿入認識オプション<br />
被ルビ開始文字列 → ｜<br />
ルビ開始文字列 → {<br />
ルビ終端文字列 → }<br />
認識終了後の設定<br />
混在認識時の欧文言語 → 英語にチェック<br />
・ファイル保存<br />
保存処理 → 自動<br />
保存ファイル<br />
→ 画像名を使用してページ毎に保存<br />
→ ファイル形式 → テキスト</p>
<p>ツールメニュー → 環境設定<br />
・認識 → 半角文字出力 → 英、数、記号の半角出力のチェックを外す</p>
<p>文字認識メニュー<br />
領域種別指定 → 文章領域(結果は大して違いはなさそう)<br />
段組指定 → 縦1段<br />
改行コード挿入指定 → 毎行改行<br />
空白文字挿入指定 → 空白出力<br />
ルビ認識指定 → 文章中に挿入</p>
<p><strong>実行結果<br />
</strong></p>
<table border="1" cellpadding="3" cellspacing="3">
<tr valign="top">
<td>方法</td>
<td><strong>メチル補正→籐リサイズ</strong></td>
<td>メチル補正→メチルリサイズ</td>
<td>メチル補正→メチルリサイズ</td>
</tr>
</table>
<p>結果的にパターン2のメチル補正→メチルリサイズをして色深度<strong>8bitに</strong>するのが<br />
この中ではよかったが、スキャン画像により異なる反応を示すと思うので、もっと検証の必要がある。</p>
<p>ちなみに色深度8bitは256 色ということらしい。<br />
この辺が多すぎると余計なゴミも移ってしまうので、変なミスが生まれる。<br />
スキャンがしっかりできているほど、この影響は少なくなると思う。</p>
<p>他の人はどんな風にやってるのかな。(ほとんどいなそうだけど)</p>
]]></content:encoded>
			<wfw:commentRss>http://efcl.info/2007/1225/res9/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
