宮脇佑介
wakis****@gmail*****
2013年 11月 20日 (水) 15:03:57 JST
mroonga開発者様方にはいつもお世話になっています。 宮脇です。 ※ 先日、同じテーマで告知しましたが、 メール本文の内容によって迷惑メールとして振り分けられてしまったとご連絡い ただきましたので同じ内容で再送しています。 すでに受け取っている方にはお手数おかけいたします。 カテゴリ抽出ツール実験サイト http://133.101.61.43/~2010_miyawakiyusuke/doc/laboratory/ 上記のサイトは、mroongaを用いたテキストの主文であろうカテゴリを求める、 カテゴリ抽出ツールです。 (テキストの表記ズレ修正、ノイズ除去などが行われます) この「カテゴリ抽出」には、2つのパラメータがあるのですが、 テキストによってカテゴリ抽出の結果が最適になるパラメータが違い、 毎回最適なカテゴリ抽出結果となるように手作業で設定する必要がありました。 そこで、 「こういうテキストには、こういうパラメータ、 こんなテキストには、こんなパラメータ」といった、 テキストとパラメータの教師データを取りたいと考えています。 (テキストとパラメータのパターン?が見つかればいいなという考えです) 解析するテキストは、twitterの内容や、ブログ記事、メール本文など どのようなテキストでも構いません。 実験方法などはサイト上に記載しました。 遊んでいただけたらありがたいです。 よろしくお願い致します。m(_ _)m 将来、このカテゴリ抽出ツールは、 テキストマイニングツールのコアの部分になります。 将来のテキストマイニングツールの例 「 Sennaは組み込み型の全文検索システムです。 DBMSやスクリプト言語処理系等に組み込むことによって、その全文検索機能を強 化することができます。 n-gramインデックスと単語インデックスの特徴を兼ね備えた、高速かつ高精度な 転置インデックスタイプのエンジンです。 コンパクトな実装ですが、大規模な文書量と検索要求を処理できるよ うに設計 されています。 また、純粋なn-gramインデックスの作成も可能です。 」 と、 「 mroongaは全文検索エンジンであるgroongaをベースとしたMySQLのストレージエ ンジンです。 MySQLではver5.1からPluggable Storage Engineインタフェースが採用され、以 前よりも柔軟に独自のストレージエンジンを利用できるようになりました。 そこでgroongaにストレージエンジンインタフェースを実装し、MySQL経由でも groongaを利用できるようにしました。 mroongaを経由することでgroongaをSQLコマンドでも利用することができるよう になります。 」 の2つテキストの、mecabを用いた形態素解析では、「全文検索、エンジン」の 名詞でしか一致せず、 2つのテキストが、データベースを用いた全文検索エンジンについてのことであ ると判定するには難しい面がありました。 そこで、wikipediaのカテゴリ情報や、リダイレクト情報を用いて、2つのテキ ストで関連しているカテゴリを抽出するシステムを作っていま す。 現段階で、上記2つのテキストを解析すると、 「DBMS、ストレージエンジン、mysql」などのキーワードを「データベース」 「全文検索システム、全文検索エンジン」を「全文検索」というカテゴリの抽出 を行います。 標記ズレや、ノイズの削除が行われるため、 形態素解析結果で出てくる「高速、精度、特徴」などのキーワードを除去したり、 「全文検索システム、全文検索エンジン」を「全文検索」としてまとめたりします。