
1: ** GLOSSARY ** 2: ator allocatorの略 3: allocatorは一般にはメモリの管理を行う機構のことを指し、 4: メモリの確保だけではなく解放も管理する。 5: 6: candidate 候補 7: 8: candsort 候補の評価並び換えを行うモジュール 9: 10: candswap 候補の優先順位の交換を行うモジュール 11: 12: cc(conjugate class) どの活用か (何行何段とか) 13: 14: commit(コミット) 入力の確定 15: 16: compose: 17: 品詞を割当てられた文節に対して候補を割当てる 18: 19: conjugate: 20: 活用(infectionの方が適切かも) 21: 22: context: 23: 入力コンテキスト 変換する文字列一つに対応する 24: 25: corpus: 26: 例文 27: 28: cos(class of speech): 29: 副品詞 30: 31: ct(conjugate type): 32: 活用形 (未然、連用、、) 33: 34: declinable: 35: 用言 <-> 体言 indeclinable 36: 37: depword: 38: 付属語 39: 40: dic_session_t: 41: 辞書のセッション 42: 43: dtor: 44: destructorの略 45: 46: ent: 47: entry 48: 49: feature: 50: 素性、0,1の値を取る関数 51: 52: feature_set: 53: 素性の集合、二値のベクトルもしくは素性番号のリストとして扱える 54: 55: file_dic: 56: ファイル辞書 57: 58: gang look up: 59: 複数の検索キーに対する検索を一度に行う 60: 61: lattice: 62: 束、集合論の概念 63: 64: metaword: 65: 文節を複数まとめたもの 66: 67: mmap: 68: OSの機能 69: ファイルの内容をプロセスのアドレス空間に見えるようにする 70: 71: nr: 72: NumbeR。nr_?? でなにかの数を意味する 73: 74: ochaire(お茶入れ): 75: 文節の組をそのまま学習するための機構 76: 77: personality: 78: ユーザを識別するための文字列 79: 80: pos(part of speech): 81: 品詞 82: 83: quit: 84: モジュール自体の終了(関数の命名に使ってる) -> release 85: 86: ratio: 87: RATIO_BASEを分母とする比率 88: 89: release : 90: モジュールのデータ(構造)の解放(関数の命名に使ってる) -> quit 91: 92: scos(sub cos): 93: 副副品詞 94: 95: seg: 96: -> segment 97: 98: seq_ent_t: 99: 辞書上の見出語 100: 101: segment: 102: 文節(国文法の文節では無い) 103: 104: segstruct: 105: 文節を構成する単語に対しルール基づいてに品詞を割当てる 106: 107: splitter: 108: ひらがな列を文節に分割する 109: 110: trie: 111: n-way tree 一般的には256などを用いる 112: 文字列やIPアドレス等の高速検索に用いられる 113: 114: word_list: 115: 文節を構成する単位、自立語を一つ含む 116: 117: wordseq: 118: 自立語に対して付属語を付けてゆく 119: 120: wordsplit: 121: 文節の境界を検出する 122: 123: wtype: 124: 単語の型情報 -> doc/POSを見よう 125: 126: xchar: 127: 文字(EUC-JPのコード) 128: 129: xstr: 130: 文字列(長さとxcharへのポインタを持つ) 131: 132: ビタビアルゴリズム: 133: viterbi algorithm、動的計画法の一種 134: 135: 136: ** xchar ** 137: anthyではxcharという独自の文字型を作って文字を扱うようにしている。 138: xcharは現時点では32bitでUCS4もしくはASCIIのコードが入っている。 139: 140: 141: ** context ** 142: Anthyは同時に複数の入力を行うことをサポートするために、 143: 複数の各入力をコンテキストというオブジェクトに対応させて、 144: ユーザによる操作をそれぞれのコンテキストへの操作という 145: 形で行うようにしています。 146: 147: ** seq_ent ** 148: 文字列のハンドルです。 149: personalityごとに辞書は用意されるので、異なるpersonalityにおいては 150: 同じ文字列でも異なる値を取ります。 151: 152: ** xstr ** 153: typedef struct xstr_{ 154: xchar *str; 155: int len; 156: }xstr; 157: 普通の文字列のように\0終端にすると部分を取り出すなどの操作が 158: 複雑になるので、開始点へのポインタと文字数を持つ構造体によって 159: 文字列を表現している。 160: 161: ** personality ** 162: 学習の内容などを識別するための名前 163: 各コンテキストは一つのpersonalityを参照する。 164: 特に指定しなければdefault personality ""(空文字)が使用される。