開發和下載開源軟體

OSDN > 軟體搜索 > NHocr: OCR engine for Japanese language > Docs

瀏覽 NHocrについて

category（Tag） tree

根

file info

category（Tag）: 根

檔案名: about-140830
最後更新: 2014-08-31 01:14
類型: HTML
editor: H. Goto

描述: NHocrの紹介

version history 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 incremental difference from the previous show the differences of selected versions

語言: Japanese; translate

NHocr - 日本語文字認識プログラム

Since Sep 8, 2008 / Last update: Aug. 30, 2014

この文書は nhocr: OCR engine for Japanese language (Google Code) にある紹介文を日本語訳し、若干の変更を加えたものです。

NHocrについて

NHocr は日本語等に対応したコマンドライン形式の文字認識(OCR)プログラムです。 NHocr は画像中の日本語文字(ひらがな、カタカナ、漢字等) やASCII文字/シンボルを認識します。 NHocr は、学術関係者に公開された実験的な部分ソースを除いては、おそらく最初のオープンソース日本語OCRソフトウェアです。

NHocr はウェブサービス WeOCR でも利用できます。

日本語文字認識 - beta: http://maggie.ocrgrid.org/nhocr/index-j.html

このプログラムは実験的な意味が強く、文字認識の精度に限界があります。
(高性能なOCRが必要ならば、製品を買うべきでしょう。)

NHocr で用いられている文字特徴量は、 '90年代後半に堀らによって提案された外郭局所モーメント特徴 (Peripheral Local Moment, P-LM) が基本になっています。

NHocr は元々、作者の週末プログラミングの成果物です。開発は遅いかもしれません。

現バージョンにおける制約事項

現在の NHocr は、ページレイアウトの解析処理が組み込まれていないので、文字行ブロックのイメージしか扱うことができません。
全角・半角の文字が混在したり、プロポーショナルフォントが用いられると、認識率が悪化することがあります。というか、します。
文字切り出しアルゴリズムはまだ非常に単純なので、文字切り出しの精度は悪いです。
ASCII文字の認識率は悪いです。欧米言語には、例えば tesseract のような、他のOCRを使うことを奨めます。
言語後処理の gramd は試験的なもので、日本語の文書しか扱えません。若干の副作用があるでしょう。

サポートされるプラットフォームと要件

Solaris SPARC/x86 と Linux が正式にサポートされます。 NHocr はその他のUNIX(ライク)な環境やMS-Windowsでも動作するかもしれません。

NHocrをコンパイルするには、FreeType2の開発環境(ライブラリ)が必要です。

http://www.freetype.org/

0.21以前のNHocrは、下記サイトで入手できる O2-tools パッケージに依存しています。

http://www.imglab.org/p/O2/

ライセンス

新版には Apache License 2.0 が適用されます。
バージョン 1.5e-32 以前には、MIT-Xの派生が適用されています。

© 2008-2014 Hideaki Goto

OSDN:關於

軟件搜索

軟件開發

社群

帮助

Copyright ©Appirits Inc.