handic-mecab (20230109) | 2023-01-09 22:24 |
mkhandic-mecab (0.2) | 2022-03-14 22:33 |
tools (mecab-k2alpha) | 2019-10-03 21:38 |
MkHanDicは,形態素解析器MeCabで利用することができる,15世紀朝鮮語の形態素解析用辞書です.
インストールの方法はHanDicと同じです.HanDicのインストールを参照してください.
MkHanDicは以下のような特徴を備えています.
登録されている項目は『釈譜詳節』(1447年),『阿弥陀経諺解』(1464年)が中心ですが,今後その他の文献もデータとして利用し拡張していく予定です.
現代語用のHanDicとは異なり,各項目の表層形=単語そのものは,ハングルをアルファベットで転写して記述しています.そのため,MeCabで解析する際には,アルファベットで転写したテキスト(UTF-8エンコーディング)を入力として与えます.
アルファベットの転写は福井玲式を一部改変したもので,MeCabで変換するための辞書を公開しています.
辞書に登録されたそれぞれの項目には,表層形=単語そのものと左連接ID,右連接ID,コストに続けて,その項目の特性に応じた素性が記述されています.コンマで区切ったCSV形式で,HanDicにならって以下の内容を記述してあります.
品詞1,品詞2,品詞3,接続情報,語基,辞書形,出現形,漢字,備考,品詞タグ
品詞1〜品詞3まではそれぞれ品詞の大分類〜小分類です.品詞体系はHanDicに準じます.
接続情報と語基は,用言と語尾の接続に関わる情報です。HanDicでは用言活用の記述に「語基」を採用しています.そのため,動詞や形容詞などの用言にはその項目が何番目の語基であるのかを記述し,語尾や接尾辞にはその項目が何番目の語基につくかを記述してあります.
辞書形はその項目の辞書形に,同音異義語がある場合には任意に設定した同音異義語番号をつけてあります.出現形は,その項目が実際に現れた形を統合型のハングルで記述しました.
漢字は,漢字語あるいは漢字表記可能な項目の漢字表記を記述してあります.ただし,語源的な記述ではないので,現在のところ漢字表記の語だけ記述があります.
備考は同音異義語などの補足情報を含めています。
品詞タグは,上述の国立国語院が構築,公開している「21世紀世宗計画」の「形態解析コーパス」の品詞タグを参照し,記述しました.
MkHanDicは,オープンソースソフトウェアとして,修正BSDライセンスにて公開しています.
MkHanDicは, 日本学術振興会科学研究費・基盤研究(C)「自動形態素解析を利用した15世紀朝鮮語解析済みコーパスの構築」(課題番号:17K02758,研究代表者:須賀井義教)の助成をうけて開発されました.
関連する研究業績をご覧ください.
handic-mecab (20230109) | 2023-01-09 22:24 |
mkhandic-mecab (0.2) | 2022-03-14 22:33 |
tools (mecab-k2alpha) | 2019-10-03 21:38 |
[PageInfo]
LastUpdate: 2019-10-03 22:19:52, ModifiedBy: pon_okikirmui
[License]
Creative Commons 4.0 Attribution-ShareAlike
[Permissions]
view:all, edit:doc editors, delete/config:doc editors