開發和下載開源軟體

瀏覽 NHocrについて

category(Tag) tree

file info

category(Tag)
檔案名
about-140830
最後更新
2009-05-05 21:41
類型
HTML
editor
H. Goto
描述
NHocrの紹介
語言
Japanese
translate

NHocr - 日本語文字認識プログラム

Since Sep 8, 2008 / Last update: May 5, 2009


この文書は nhocr: OCR engine for Japanese language (Google Code) にある紹介文を日本語訳し、若干の変更を加えたものです。

NHocrについて

NHocr は日本語に対応したコマンドライン形式の 文字認識(OCR)プログラムです。 NHocr は画像中の日本語文字(ひらがな、カタカナ、漢字等)やASCII文字/シンボルを認識します。 NHocr はフリーのオープンソースな OCRソフトウェアとしてリリースされる予定です。

NHocr はウェブサービス WeOCR でも利用できます。

このプログラムは実験的な意味が強く、 文字認識の精度に限界があります。
(高性能なOCRが必要ならば、製品を買った方が幸せになれるでしょう。)

NHocr は元々、作者の週末プログラミングの成果物です。 開発は遅いかもしれません。

現バージョンにおける制約事項

  • ソースコードはまだ公開されていません。
  • 現在の NHocr は、ページレイアウトの解析処理が組み込まれていないので、 行イメージしか扱うことができません。
  • 全角・半角の文字が混在したり、プロポーショナルフォントが用いられると、 認識率が悪化することがあります。というか、します。
  • 文字切り出しアルゴリズムはまだ非常に単純なので、 文字切り出しの精度は悪いです。
  • ASCII文字の認識率は悪いです。欧米言語には、例えば tesseract のような、 他のOCRを使うことを奨めます。
  • 傾き補正処理がまだ入っていません。
  • 言語後処理はまだ含まれていません。

サポートされるプラットフォームと要件

後に決定の予定です。
現在の版はLinux上で走っています。 最低限 Solaris と Linux はサポートされる予定です。

コードの入手性

開発がまだ初期の段階なので、当面の間、 ソースコードは共同研究者のみに公開の予定です。 一般へのソース公開は 2009.2Q に予定されています。

NHocr で用いられている文字特徴量は、 '90年代後半に堀らによって提案された 外郭局所モーメント特徴 (Peripheral Local Moment, P-LM) が基本になっています。 現在、文字特徴量の抽出のためのコードは、 Google Code のサイトにて ダウンロード可能です。

ライセンス

新版には Apache License 2.0 が適用されます。
バージョン 1.5e-32 以前には、MIT-Xの派生が適用されています。


© 2008,2009  
Hideaki Goto