古典などの「くずし文字」がOCRで解読可能に

2015年07月09日 06:56

OCR(optical character recognition、光学文字認識)は、スキャンした紙の資料などをデジタルテキスト化する際にとても重宝する技術だ。ただ、ちょっと前までは、けっこうお粗末でなかなか文字を正確に読み取れなかった。しかも厄介なのは、「変換」を「愛揉」というように視覚的に微妙に異なった誤字に変換するため、文字校正をスリ抜けやすいという難点を持っていた。

そんなOCRも最近は格段の進歩を遂げ、微妙に異なった文字も解像度の調節などでかなり正確に文字を打ち出すようになり、もう信用できる実用レベルまできているようだ。このリリースによれば、さらに厄介な古文書などの「くずし字」までもテキストデータ化できる技術が開発されたらしい。これなら句読点がなくても日本人ならほぼ解読できる。
0004
TOPPANのリリースより。

古典文学や歴史学などの研究では古文書の解読が必須だが、やはり崩された文字や古語が高いハードルだった。開発元によれば、2015年の夏ごろから古典書籍などのテキストデータ化のサービスを始めるらしい。現状80%の解読率をさらに上げていくようだ。歴史学者や古文書研究者のみらならず、歴史好きには朗報だろう。

TOPPAN
凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 ~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~


787初号機ZA001、セントレアで贈呈式 公開時期は未定
Aviation Wire
B787の飛行試験をしてきた最初の機材が、中部空港(セントレア)に送られた、という記事だ。名古屋周辺には航空関係企業が多い。B787も日本で主翼や胴体の主要部品を作っている。「里帰り」という表現を使っているが、初号機は日本へ、2号機は米国のアリゾナ州ツーソンにあるピマ航空博物館(Pima Air & Space Museum)、3号機がシアトルの航空博物館(Museum of Flight)へ寄贈されたらしい。いずれにせよ、セントレアがどういう展示法をするか、楽しみではある。
00001
全日空がローンチカスタマーとして開発したB787。

Early relative of Triceratops unearthed
Science
トリケラトプス(トライセラトプス)といえば、恐竜界の人気者だ。頭部の先端にサイのような角を生やし、首にはエリマキのような盾がある。この角とエリマキの本数や形は、化石によれば多種多様なものがあり、生態系でかなり成功した恐竜の一種と考えられている。トリケラトプスの種類は、アジアで生まれた、とする学説もあり、この説によるとカナダのアルバータ州や米国モンタナ州などで出ている多くの化石の祖先は、今のベーリング海峡を渡ってきたのでは、ということになる。これは角とエリマキの最新研究を紹介している記事だが、鼻先の角は長いものと短いものの二段階で進化したのでは、と考えられているようだ。
00002
トリケラトプスの角とエリマキ。トロント大学エバンスラボの研究者Danielle Dufaultさんが描いたイラスト。恐竜好きにはなじみ深いイラストレーターだが、こうした才能も科学技術や研究成果を広く一般に広めるために有効だ。

China Exposes New Advanced Anti-Submarine Aircraft
SPUTNIK NEWS
中国が最新式の対潜哨戒機を公開した、という記事だ。これはY-8型輸送機を改造したものだが、探査レーダーや磁気感知装置などを備え、推定では航続距離6000km、滞空時間8時間以上と考えられている。米海軍はもちろん、海事の潜水艦にとっても驚異となりそうだ。
00003
黄色く塗られた中国人民解放軍の新式対潜哨戒機。SPUTNIK NEWSのHPより。

お使いの回線は果たして? 「通信の最適化」の有無を調べるチェックツールが続々登場
INTERNET Watch
携帯電話事業者が、利用者のデータを勝手に「間引き」している、というのが「通信の最適化」問題だ。使う側としては聞き捨てならない話だ、というわけで、もし本当にそんなことが行われているとすればけしからん、という人も多い。勝手に、自分だけ、そして損をする。これらキーワードが並ぶと客は黙っていない。けっして好事魔多しというわけでもなさそうだ。あなたのデータは大丈夫だろうか。


アゴラ編集部:石田 雅彦

アゴラの最新ニュース情報を、いいねしてチェックしよう!

関連記事

アクセスランキング

  • 24時間
  • 週間
  • 月間

過去の記事

ページの先頭に戻る↑