(linenum→info "unix/slp.c:2238")

anthy/9100e/doc/GLOSSARY

    1: ** GLOSSARY **
    2: ator allocatorの略
    3:      allocatorは一般にはメモリの管理を行う機構のことを指し、
    4:      メモリの確保だけではなく解放も管理する。
    5: 
    6: candidate 候補
    7: 
    8: candsort 候補の評価並び換えを行うモジュール
    9: 
   10: candswap 候補の優先順位の交換を行うモジュール
   11: 
   12: cc(conjugate class) どの活用か (何行何段とか)
   13: 
   14: commit(コミット) 入力の確定
   15: 
   16: compose:
   17:         品詞を割当てられた文節に対して候補を割当てる
   18: 
   19: conjugate:
   20:         活用(infectionの方が適切かも)
   21: 
   22: context:
   23:         入力コンテキスト 変換する文字列一つに対応する
   24: 
   25: corpus:
   26:         例文
   27: 
   28: cos(class of speech):
   29:         副品詞
   30: 
   31: ct(conjugate type):
   32:         活用形 (未然、連用、、)
   33: 
   34: declinable:
   35:         用言 <-> 体言 indeclinable
   36: 
   37: depword:
   38:         付属語
   39: 
   40: dic_session_t:
   41:         辞書のセッション
   42: 
   43: dtor:
   44:         destructorの略
   45: 
   46: ent:
   47:         entry
   48: 
   49: feature:
   50:         素性、0,1の値を取る関数
   51: 
   52: feature_set:
   53:         素性の集合、二値のベクトルもしくは素性番号のリストとして扱える
   54: 
   55: file_dic:
   56:         ファイル辞書
   57: 
   58: gang look up:
   59:         複数の検索キーに対する検索を一度に行う
   60: 
   61: lattice:
   62:         束、集合論の概念
   63: 
   64: metaword:
   65:         文節を複数まとめたもの
   66: 
   67: mmap:
   68:         OSの機能
   69:         ファイルの内容をプロセスのアドレス空間に見えるようにする
   70: 
   71: nr:
   72:         NumbeR。nr_?? でなにかの数を意味する
   73: 
   74: ochaire(お茶入れ):
   75:         文節の組をそのまま学習するための機構
   76: 
   77: personality:
   78:         ユーザを識別するための文字列
   79: 
   80: pos(part of speech):
   81:         品詞
   82: 
   83: quit:
   84:         モジュール自体の終了(関数の命名に使ってる) -> release
   85: 
   86: ratio:
   87:         RATIO_BASEを分母とする比率
   88: 
   89: release :
   90:         モジュールのデータ(構造)の解放(関数の命名に使ってる) -> quit
   91: 
   92: scos(sub cos):
   93:         副副品詞
   94: 
   95: seg:
   96:         -> segment
   97: 
   98: seq_ent_t:
   99:         辞書上の見出語
  100: 
  101: segment:
  102:         文節(国文法の文節では無い)
  103: 
  104: segstruct:
  105:         文節を構成する単語に対しルール基づいてに品詞を割当てる
  106: 
  107: splitter:
  108:         ひらがな列を文節に分割する
  109: 
  110: trie:
  111:         n-way tree 一般的には256などを用いる
  112:         文字列やIPアドレス等の高速検索に用いられる
  113: 
  114: word_list:
  115:         文節を構成する単位、自立語を一つ含む
  116: 
  117: wordseq:
  118:         自立語に対して付属語を付けてゆく
  119: 
  120: wordsplit:
  121:         文節の境界を検出する
  122: 
  123: wtype:
  124:         単語の型情報 -> doc/POSを見よう
  125: 
  126: xchar:
  127:         文字(EUC-JPのコード)
  128: 
  129: xstr:
  130:         文字列(長さとxcharへのポインタを持つ)
  131: 
  132: ビタビアルゴリズム:
  133:         viterbi algorithm、動的計画法の一種
  134: 
  135: 
  136: ** xchar **
  137: anthyではxcharという独自の文字型を作って文字を扱うようにしている。
  138: xcharは現時点では32bitでUCS4もしくはASCIIのコードが入っている。
  139: 
  140: 
  141: ** context **
  142: Anthyは同時に複数の入力を行うことをサポートするために、
  143: 複数の各入力をコンテキストというオブジェクトに対応させて、
  144: ユーザによる操作をそれぞれのコンテキストへの操作という
  145: 形で行うようにしています。
  146: 
  147: ** seq_ent **
  148: 文字列のハンドルです。
  149: personalityごとに辞書は用意されるので、異なるpersonalityにおいては
  150: 同じ文字列でも異なる値を取ります。
  151: 
  152: ** xstr **
  153: typedef struct xstr_{
  154:   xchar *str;
  155:   int len;
  156: }xstr;
  157: 普通の文字列のように\0終端にすると部分を取り出すなどの操作が
  158: 複雑になるので、開始点へのポインタと文字数を持つ構造体によって
  159: 文字列を表現している。
  160: 
  161: ** personality **
  162: 学習の内容などを識別するための名前
  163: 各コンテキストは一つのpersonalityを参照する。
  164: 特に指定しなければdefault personality ""(空文字)が使用される。
Syntax (Markdown)