
1: ******************** 2: cannadic改 3: ******************** 4: 5: 6: [ 概要 ] 7: Anthy、Canna 用の自家製変換辞書です。 8: cannadic-0.95c をベースに、大幅に手を加えてあります。 9: 10: 総エントリ数: 236,883 エントリ (2007/10/23 現在) 11: ( cannadic-0.95c は 149,384 ) 12: 13: ※変換精度の確認は Anthy で行い、Canna では行っていません。 14: 15: 16: [ ライセンス ] 17: cannadic がベースなので、GPL を継承します。 18: 言うまでもありませんが、保証の類は一切ありません。 19: 20: 21: [ ファイル ] 22: ファイルは g_fname.t を除いてすべて EUC-JP です。 23: gcanna.ctd 自立語辞書 24: gcannaf.ctd 付属語辞書 25: gtankan.ctd 単漢字辞書(送り仮名ありの読みのものは除く) 26: g_fname.t 人名フルネーム辞書(Anthy用)(UTF-8) 27: g_fname.ctd 人名フルネーム辞書(Canna用) 28: Changes.txt 変更履歴 29: 30: 以下のものは cannadic-0.95c そのままのものです。 31: COPYING ライセンス 32: Makefile Canna 用 Makefile 33: orig-README.ja cannadic-0.95c の README 34: 35: 36: [ 使い方 ] 37: Wiki を参照してください。 38: http://sourceforge.jp/projects/alt-cannadic/wiki/ 39: 40: 41: [ cannadic からの主な変更点 ] 42: 43: ○cannadic-0.95c 以外に利用させて頂いた電子ファイルは以下です。 44: 45: ・単漢字部分 46: 「jisx0213 infocenter」(http://www.jca.apc.org/~earthi 47: an/aozora/0213.html)の「漢字音訓索引(onkun0213.txt 48: [2000-09-11])」 49: ・地名 50: 日本郵政公社のデータファイル(平成17年6月30日更新版) 51: (http://www.post.japanpost.jp/zipcode/dl/kogaki.html) 52: ・anthy-7100b の base.t, katakana.t, placename.t 53: 54: ライセンスがややこしくなるのが嫌だったので、上記以外には 55: 「他の電子辞書ファイルから引っ張ってきて突っ込む」という 56: ことはしていません。Canna 付属の辞書すら避けました。 57: 58: 59: ○ほぼ全品詞を強化。主なものは以下 60: ・敬語丁寧語表現強化(「お〜」「ご〜」、時候挨拶等。まだ 61: まだ十分とは言えない) 62: ・ことわざ、慣用表現強化 63: ・動詞、形容詞の整備(誤りの修正や表記の整備)。 64: また、多くの追加を行い、動詞と形容詞に関しては基本的な 65: ものはかなりカバーできたと思う。 66: (「基本的な」というのは「複合語でない」という意味です) 67: ・単漢字の漢字部分を完全再作成 68: (jisx0213 infocenterの「漢字音訓索引」からjis第1,2水準 69: の漢字のみを抜き出してベースとしたので、その意味では、 70: この部分はかなり品質が高くなっていると思います) 71: ・副詞/形容動詞の強化と整理。普通名詞に含まれていたもの 72: を副詞/形容動詞として登録し直したり、擬声擬態を表す語 73: を拡充したり等。 74: ・地名強化 75: 日本郵政公社の「ゆうびんホームページ」にあるデータ 76: ファイル(平成17年6月30日更新版)を利用。 77: また、「MAPOO」(http://www.mapoo.or.jp/station/) 78: で調べた全国の駅名を追加。 79: ・付属語全般強化 80: 81: ・cannadic にあった誤りを気づいた範囲で修正、また無駄な重 82: 複エントリを削除(修正削除はかなりの数を行ったが、まだまだ 83: 誤りは残っている。特に普通名詞あたりは伏魔殿。また、私が 84: 新たに入れてしまった誤りもあるかと思います) 85: ・頻度の調整(まだまだ見てない部分が殆ど) 86: ・「N2〜」「D2〜」のタイプのものは、「ありえない候補を作 87: ってしまう」「その場合、区切り直さなければ出したいものが 88: 出せない」というデメリットの方が大きいと思われるので、 89: 今のところほぼ外してある 90: ・「う゛ぁう゛ぃう゛う゛ぇう゛ぉ」でも「ヴぁヴぃヴヴぇヴぉ」 91: でも出せるように、読みの「う゛」を「ヴ」に置換した候補を 92: 追加(例えば「ヴぃーなす」で「ヴィーナス」を出せるように) 93: 94: ・品詞コードはすべて Canna の品詞コードの範囲内に留め、 95: Anthy 独自のものは使っていない。( Anthy の複合語の登録法 96: は、学習ができない等の欠点があるように思われ、「そのう 97: ち変更されるかもしれない」と思ったので使っていない。) 98: ・Canna の品詞コードのうちでも形容詞の「mi」「me」「mime」 99: や連用形が名詞化することを表す動詞の「r」など、煩瑣なく 100: せにあまり意味のなさそうなコードは使わなくした。 101: 形容詞の「mi」「me」、動詞の「r」は別途名詞として登録。 102: 人名はすべて JN に、地名はすべて CN に統一した。 103: 敬語表現 OKX も名詞のコードで登録してある(「する」への 104: 接続をコントロールしたかったから)。 105: ・主要な品詞の頻度を一括で変更(まだ実験中) 106: 107: 108: [ 謝辞 ] 109: 作成にあたり恩恵を受けました以下の方々に感謝いたします。 110: ・ベースとさせて頂いた cannadic を編纂されたすぎもとさん 111: ・Canna 及び Anthy の開発陣の方々 112: ・「漢字音訓索引(onkun0213.txt [2000-09-11])」を作成/公開 113: してくださった方々 114: ・郵便番号辞書を公開してくださっている日本郵政公社殿 115: ・endo-h さんの「pudic+ 補遺」も参考にさせて頂きました 116: http://www.remus.dti.ne.jp/~endo-h/wnn/#supplement 117: ・ICOTの「形態素辞書」(morphdic)も参考にさせて頂きました 118: http://www.icot.or.jp/ARCHIVE/Museum/IFS/abst/033-J.html 119: ・UTUMI さんの私家版 gcanna.ctd(20061121) 120: http://www.geocities.jp/ep3797/snapshot/anthy_dict/anthy_gcanna_ut-20061121.tar.bz2 121: 122: また、公開に先立ち、UTUMI Hirosi さんから、頻度の調整、新語 123: や誤りに関して多くの情報とご助言を頂きました。感謝いたします。 124: 125: 次の方々からも誤登録の指摘、異表記/新語追加の点で多くの 126: ご助力をいただきました。ありがとうございます。 127: denson さん 128: 井汲景太 さん 129: 登録希望 さん 130: ishii さん 131: nosuke さん 132: n/a さん 133: 2ch の匿名の方々 134: 135: 136: [ 連絡先 ] 137: 何かありましたら下記まで。 138: vagus.xyz あっと gmail.com 139: 140: 誤りの指摘、新語追加希望等は掲示板もしくは wiki へお願いします。 141: http://bbs11.fc2.com/php/e.php/alt-cannadic/ 142: http://sourceforge.jp/projects/alt-cannadic/wiki/ 143: 144: 145: 146: 147: 148: 149: 150: