
1: --(2007/05/12)(yusuke) 2: 単語自体のような出現頻度の低い素性を扱う方法を検討中 3: 4: --(2007/05/09)(yusuke) 5: 例文から変換結果を得てパラメータを更新すると、別の変換結果が得られる 6: これを繰り返すことで様々な誤変換を得ることができる。 7: ->make update_params2を使う 8: 9: 10: --(2007/04/25)(yusuke) 11: 「運転席|側」のように接尾辞は別文節にする 12: 13: --(2007/02/28)(yusuke) 14: 「忙し」(せわし)のように形容詞の語幹だけ使うことがまれにある 15: anthy-8700 released 16: recordの単語をtextdicに移すコードを削除 17: 18: --(2007/02/23)(yusuke) 19: 頻度関係の誤変換が目立つようになってきた 20: 21: --(2007/01/28)(yusuke) 22: hmmじゃなくなったので、変数名等の変更中。->done 23: 次はiisを変更する->done 24: 25: --(2007/01/27)(yusuke) 26: utf8化は完了 27: MEMMは止めて経験的確率をハードコードすることにした 28: 当面の間はコーパスの量を増やすことで性能向上を図る 29: 例文を増やすと自然なコードで性能が稼げる 30: 素性を増やすときは正誤の識別に貢献しているかで順位を付け,高い物のみを用いる 31: 文節の素性,連接の素性を分離して複数の分布から確率を計算するという手も考えられる 32: 33: --(2006/11/17)(yusuke) 34: 10と10では接尾辞の付き方が違う←修正済み 35: 36: --(2006/11/5)(yusuke) 37: anthy-8700は下記のコードを併存させる 38: *PRIVATEDICセクション(次のリリースで消すかも) 39: *texttrie EUC-JPセクション 40: *texttrie UTF8セクション 41: その後で、EUCセクションからUTF8セクションへ単語を 42: 移動するコードを追加する 43: 現時点ではEUC-JPモードで登録された単語はEUC-JPのセクションに 44: 登録される 45: 46: 47: --(2006/11/4)(yusuke) 48: 個人辞書のストレージをEUC-JPとUTF8の両方を使うようにした 49: 50: --(2006/10/22)(yusuke) 51: コーパスを増やしながらチューニングすると、コーパスの量に応じた 52: いろいろな現象が発生してる。 53: 54: --(2006/10/21)(yusuke) 55: last-recordのUTF8化 56: 既存のEUCのファイルがあれば、そのまま使う 57: なければ、.utf8というsuffixを付けて新規作成 58: 59: --(2006/09/29)(yusuke) 60: 文節X, Yと連続する確率は 61: P = 1/z * exp (f_c・λ) 62: ここでcはXのクラス 63: λはXの付属語とYのクラスを含むベクトル 64: 65: --(2006/09/16)(yusuke) 66: 文節X, Yと連続する確率は 67: P = 1/z * exp (f_c・λ_x) 68: ここでcはYのクラス 69: 70: --(2006/04/14)(yusuke) 71: 久々の更新 72: テスト機構をつけた 73: 74: --(2004/07/22)(yusuke) 75: recordを全部読むと遅いので、必要な時だけ読むsectionも作ろうと思う 76: 77: --(2004/06/16)(yusuke) 78: *名詞化動詞の後続に来るのは名詞のあと+名詞35のあと 79: 80: --(2004/05/30)(yusuke) 81: 「(」「)」などの一文字で単独の文節になって欲しいものに 82: 新しい品詞を割り振る 83: 84: 85: --(2004/04/26)(yusuke) 86: 履歴による候補の順序変更が動いた、要チューニング 87: anthy-azik.elを追加したが、ロードが遅い 88: 89: --(2004/04/18)(yusuke) 90: 履歴による候補の順序変更 91: 92: --(2004/04/13)(yusuke) 93: anthy.elでauto-fill-modeが効かないらしい->修正できた 94: 95: --(2004/03/17)(yusuke) 96: 文節の学習は、語幹+文節クラスをベースにしよう 97: 98: --(2004/03/09)(yusuke) 99: 「ありませんし」みたいなのは、文末フラグが欲しい 100: 101: --(2004/02/11)(yusuke) 102: 単語の関係はhashを引いてから検索を実際に行う。これをdiclibのレイヤで行う。 103: 104: --(2004/02/07)(yusuke) 105: 用例辞書を復活させた 106: 107: --(12/26)(yusuke) 108: 修飾語は被修飾語の前の方を修飾する場合と後ろを修飾する場合がありそうな気がする 109: 110: --(12/16)(yusuke) 111: 「みぶんるい」の一つめの文節を「み」まで縮めると何故か「未|文|類」になる 112: 113: --(11/9)(yusuke) 114: ユニコード化した時のエンコーディング 115: 辞書ソース EUC-JP 116: 辞書ファイル UTF-8 117: xchar UCS4 118: cstr EUC-JP 119: 120: --(10/16)(yusuke) 121: サ変名詞の接尾辞を新設 122: 123: --(9/21)(yusuke) 124: 上一段活用の動詞の語幹 + "" = 連用形 125: というように0文字のパートが存在する 126: 127: --(9/17)(yusuke) 128: #RTは処理できてるかな 129: 130: --(9/2)(yusuke) 131: metawordの結合のためには、文節の最後の要素の品詞を知らないといけない。 132: ユニコード化 133: 内部 UTF-32 134: 外部 とりあえずEUCのまま 135: 辞書エンコーディング UTF16 136: 137: --(8/7)(yusuke) 138: 付属語グラフの終端に属性を付ける。 139: 未然、連用、終止、連体、仮定、命令、主格、所有格、、 140: 141: --(8/1)(yusuke) 142: 活用はconjugateじゃなくてinflectionらしい 143: 144: --(7/31)(yusuke) 145: anthy_get_nth_dic_ent_strでコピーした 146: 文字列を返す必要があるのか要検討 147: 148: --(7/26)(yusuke) 149: word_list->part[].{from,len}が 150: それぞれまともか要チェック 151: 152: --(6/30)(yusuke) 153: struct_ratioを文節の評価に入れたい 154: 155: --(6/28)(yusuke) 156: 区切りの検索を幅優先に変更した 157: 158: --(6/21)(yusuke) 159: 付属語の辞書を自作しようかしら 160: 活用表の先頭のマッチングを書き換えないと 161: 「サ変未然形」が「サ変」にもマッチする 162: 163: --(6/15)(yusuke) 164: 「する」の扱いがまずい 165: 166: 167: --(6/10)(yusuke) 168: 何故か残っていたmkanthydic/struct.txtを消した 169: 候補を一個ずつ進めるモードの実装は少しずつ進めている 170: 171: 172: --(6/7)(yusuke) 173: dic_ent中に品詞の名前を追加したが、wtypeの 174: 中にいれるのも良いかもしれない 175: 176: --(6/2)(yusuke) 177: idからdic_entを得るためのhashを作った。 178: 179: --(6/1)(yusuke) 180: 用例辞書のデザインのメモ 181: 単語のid,読みのidを作成する(読みについては未実装) 182: id間の関係には複数の種類がある。たとえば、 183: 近所に出現した、主語述語の関係で使用されるなど。 184: anthy-isearch.elの作成を開始 185: todo: seq_nodeをseq_entにマージしたので、関数名などを 186: 見直す 187: 188: --(5/10)(yusuke) 189: anthy.elでカナモード用のAPIを追加 190: 191: --(5/2)(yusuke) 192: 動詞の名詞化を正しく処理できていない、語幹のみで足している 193: 直した 194: 195: --(5/1)(yusuke) 196: セーブされた用例データは(読み、単語、品詞)の形式をとる 197: idからそれらを求める関数を書かないといけない 198: 199: --(4/28)(yusuke) 200: ochaire学習の文節数を2から3に上げた 201: 202: --(4/27)(yusuke) 203: 用例の学習の数の上限を付ける、セーブする 204: 205: --(4/21)(yusuke) 206: 単語の内部表現から外部表現への変換はできそう。 207: 逆を考えないと、、ochaire学習は付属語のパターンの 208: 学習に縮退させようと思うです。 209: 「背中に書く」「背中を掻く」とかむずかしいなあ 210: 211: --(4/20)(yusuke) 212: 用例辞書が候補交換に負けるのをなんとかしないと、、 213: 214: --(4/17)(yusuke) 215: 用例辞書が引けるようになった 216: 217: --(4/12)(yusuke) 218: sdicからfile_dicへの名前変更中 219: お茶入れ学習の端の文節の処理をなんとかしたい 220: 221: --(4/7)(yusuke) 222: カタカナ候補を先頭か最後にもってくるようにした 223: qで最後の候補を選べるようにしようと思う 224: 225: --(4/5)(yusuke) 226: 用例辞書を作るためにコードの整理 227: UCS4対応するためには、 228: 辞書、内部、外部のエンコーディングを正しく扱わないと 229: いけない。とりあえず、内部だけUCS4ができるか検討する。 230: 231: --(4/1)(yusuke) 232: X5rのrを忘れてた。活用形とかの情報をそのままにした名詞を追加。 233: 234: --(3/19)(yusuke) 235: 「満てるとき」>「見てるとき」というのは接続の強さの設定がまずい。 236: お茶入れ学習ききすぎ 237: 238: --(3/4)(yusuke) 239: カ変、サ変は直した 240: ドキュメントも直さないと、、 241: 242: --(3/2)(yusuke) 243: カ変、サ変は壊れてます。 244: seginfo中の情報が活用語尾を含んでいません 245: 246: --(3/1)(yusuke) 247: K2T15 done 248: Cannaを読んで、活用語尾の処理を付属語グラフに回しても 249: よさそうな気がしたが、活用形の情報を付属語グラフに埋めるのが 250: 面倒だとも思った。 251: 未然(MZ)、連用(RY)、終止(SS)、連体(RT)、仮定(KT)、命令(MR)、語幹(GK) 252: 形容詞はなんとかなったけど、compose.cに 253: anthy_wtype_set_ct(&ce->si->word_info[n].wt, CT_NONE);がいる 254: 理由をあきらかにすること。 255: 活用語尾を付属語送りにしたせいで、struct_ratioがめいっぱい下がった 256: 「動きやすい」とかにするとcoreの品詞が動詞で、活用形が終止形になってしまう。 257: 258: --(2/27)(yusuke) 259: Cannaの付属語グラフは 260: main.code 品詞の名前の定義のみ 261: gram.code 付属語のクラスわけ 262: gram.goto 遷移の定義 263: マクロの定義が興味深い 264: 「@〜詞語幹」というノードをそのうち作ろう 265: 266: JSmonoとK2T16、K2T35をコピーしてきた とりあえず [-]演算子は無視 267: この取り込み作業は当分続けるつもり 268: 269: 数詞を数詞と認識できてない 270: 271: --(2/25)(yusuke) 272: 接続助詞の整理 273: 274: --(2/20)(yusuke) 275: static関数のプロトタイプをいちいち先頭に書くのはやめた src-util/*.c以外 276: 277: --(2/15)(yusuke) 278: 2chの78の二つめの要望を実現すべくanthy.elの候補レイアウトを簡単化 279: 280: --(2/12)(yusuke) 281: 辞書生成の時に一度全部メモリに読むようにした。 282: 283: --(1/28)(yusuke) 284: 辞書中に同じ単語は一ヶ所しか現れないことを保証するようにした。 285: 286: --(1/25)(yusuke) 287: anthy_ddic_push_back_dic_ent()に単語のidを付加した 288: 289: --(1/20)(yusuke) 290: 微妙なパラメータの調整のみ 291: 292: --(12/30)(yusuke) 293: anthy modeでの候補選択をclean up中 294: (参照: anthyスレ78番) 295: #OKX (動詞丁寧表現語幹)を #T30: 名詞(する,語幹,格助接続) 296: と同じにした。 297: 298: --(12/8)(yusuke) 299: 姓と名をマージするのが変 src-splitter/metaword.c::try_combine_name() 300: 301: --(11/29)(yusuke) 302: Doxygenを導入した。anthy/ でdoxygenを実行するよろし 303: 304: --(11/23)(yusuke) 305: 候補の構造でスコアをいじるところで分母と分子をまちがえてたので直した 306: 307: --(11/18)(yusuke) 308: 括弧の開きを後ろの文節に付けたい 309: 310: --(11/16)(yusuke) 311: 文節の最後の文字が助詞ならば,そこまでをカタカナにした候補を 312: 生成するようにした.次は評価をいじる 313: 「書いて」が出ない.付属語の長さでstruct_rationを引き過ぎ(直した) 314: 315: --(11/9)(yusuke) 316: ヤマケンさんから頂いたメモリリーク修正のパッチを当てた 317: 2chで頂いたローマ字にバックスペースでアルファベットに分割する 318: パッチをあてたが,メモリリークがあるっぽい.(直した) 319: 320: --(11/7)(yusuke) 321: anthy.el のバッファごとのコンテキスト分離をやった 322: minibufferが絡むと依然バグる 323: 324: --(11/6)(yusuke) 325: 2chで指摘された問題の一部に対応 326: あとはanthyinputのclean upが必要 327: input.hの構造体を見せないようにするためのAPIを足した 328: 329: --(11/2)(yusuke) 330: 主語(subj) 331: 述語(pred) 332: 修飾語(mod) 333: 独立語(dep) 334: 接続語(conn) 335: 336: --(10/23)(yusuke) 337: > #KJ > 338: などのエントリを追加しているところ 339: 「かお」で顔文字も欲しい 340: 341: --(10/22)(yusuke) 342: 文の成分は主語,述語,修飾語,独立語,接続語というモデルで 343: 行こうかしら 344: SKKの辞書を取り込めるようにしたい 345: 346: --(10/3)(yusuke) 347: 自立語のみの学習を追加した.TODO(Done 10/22) 348: *文節ごとの学習とのコードとの統合をする 349: *動作チェック 350: 351: --(9/28)(yusuke) 352: スコアがオーバーフローしてた 353: intで256を掛けることがあるので,よくチェックすべし. 354: 355: --(9/21)(yusuke) 356: candswapで候補を入れ換えるのは変で 357: 旧候補は2位に落とすだけで十分直した 358: 359: --(9/19)(yusuke) 360: 〜する,〜おく,〜べき 361: 362: --(9/14)(yusuke) 363: seg_infoのstruct_ratioとbase_scoreをそのうち統合したい 364: 365: --(9/8)(yusuke) 366: 文節の長さをバランスするために, 367: (Σ(文節長^2))/文節数をスコアから引くようにした 368: 負の評価値を割ると大きくなるという恥ずかしいバグ 369: 370: 371: --(8/22)(yusuke) 372: 右に隣接するextentの様子でそのextentも変わるようにしようと思った 373: cannadicから消えてた #D2KYを復活させて 「動き易い」などの変換を復活 374: 375: --(8/4)(yusuke) 376: 右から検索に変わる方法が難しい 377: 378: --(7/28)(yusuke) 379: 「生み出す華麗な」が「生み出すか礼な」で後ろから 380: マッチングすればよいでしょうけど件の特許が邪魔. 381: でけた.検索時に文の右端か2つめ以降のextentは加点することにした. 382: しかし,右端に句読点などがあると困る. 383: 384: 385: --(7/25)(yusuke) 386: 単語登録のバグを修正 387: 品詞の名前に#をつけるのを忘れていた 388: recordを読んだときに個人辞書を更新しないといけない 389: 390: --(7/15)(yusuke) 391: 付属語グラフに属性を追加する準備開始 392: 393: --(7/13)(yusuke) 394: charをsignedだと思ってた.はずかしいなぁ 395: 396: --(7/11)(yusuke) 397: include/segclass.h を追加 398: 399: --(6/28)(yusuke) 400: anthyinputのドキュメントupdateしないといけない 401: 402: --(6/26)(yusuke) 403: splitterで文節(seginfo)に属性をあたえて,relationで 404: 前後をみながらソートするって感じ 405: 406: --(6/15)(yusuke) 407: 「放送中し」「〜し」で生成してるけど、「放送中」は 408: 「する名詞」ではないので減点を十分にしとかんといかん 409: 410: --(6/12)(yusuke) 411: 名詞に接頭辞をつけないようにした。 412: 次は(a)接頭辞だけで文節になるようにする、 413: (b)接頭辞を含むmetawordを作る 414: 「いれたて」が変換できないregression 415: 416: 417: --(6/11)(yusuke) 418: よくわからん文節は、全部カタカナの候補を 419: 先頭に出すようにした。次にはこれを学習できるようにするかも 420: 421: --(6/8)(yusuke) 422: 無理矢理くさい候補は減点して、カタカナのみの名詞にしよう 423: 424: --(6/4)(yusuke) 425: metawordの生成されていない一文字extentを生成するようにして 426: ダミーのmetawordをそこでは使わないようにした. 427: 428: --(6/3)(yusuke) 429: extentが片付いたら,接頭辞,接尾辞を整理しようと思う 430: 431: --(6/1)(yusuke) 432: 付属語グラフの強化をやった 433: 434: --(5/30)(yusuke) 435: extentへの移行はとりあえずできたかな 436: NF_NAME = NF_FAMNAME | NF_FSTNAMEはまずい 437: 名前っぽいシーケンスを二つ結合してしまう 438: 439: --(5/28)(yusuke) 440: 一文字の文節のスコアを下げた 441: 後ろの文節のスコアをあげようと思った 442: 右から検索するというのは例の特許がかかってるので 443: やめようと思う. 444: 「いまの^にnほんが」を「いまのに」で文節を構成して 445: しまうという問題がある 446: 447: --(5/25)(yusuke) 448: extentへの変更を実行中 449: 450: --(5/23)(yusuke) 451: splitterにmetawordよりも上のレイヤのextentを 452: 導入することを決意.失敗したらまた全部除去する. 453: 454: --(5/22)(yusuke) 455: MAP_CLEARを2回するとcoreはく 456: 直した 457: 458: --(5/21)(yusuke) 459: カナ入力のためにLHSが複数文字のときに 460: 設定できるようにしつつある. 461: 462: --(5/19)(yusuke)2周年! 463: カナ入力をしようとすると最初のローマ字の設定を 464: クリアしないといけないのが面倒. 465: 466: --(5/18)(yusuke) 467: rkconvの設定を改善する 468: 付属語グラフの改善 469: 接頭辞、接尾辞の学習 470: ILIBのドキュメントの改善 471: rkconv.c::rk_sort_rule()を始めた 472: 473: --(5/16)(yusuke) 474: anthy_input_edit_config() を 475: anthy_input_edit_rk_symbol_config() 476: anthy_input_edit_rk_edit_config() 477: に分割した 478: 479: 480: --(5/15)(yusuke) 481: src-splitter/wordborder.h のword_info_cache中の 482: meta_word,word_listをポインタの配列にした. 483: 484: --(5/12)(yusuke) 485: anthy_input_free_config()でconfigをリファレンスカウント方式にする? 486: 487: --(5/11)(yusuke) 488: static void *ここに改行をいれて回る日々*hoge() 489: テストプログラムが誤変換を学習するので困るが, 490: 直すのは手間っぽい. 491: テスト用の匿名パーソナリティを作らんとダメっぽいです. 492: 匿名パーソナリティを""にして,デフォルトを"default"に 493: することを検討中 494: 495: --(5/9)(yusuke) 496: lock_record()でロックしてたのでまずい 497: はやくflockに切替えるべし.きりかえた 498: ochaireのnegativeがおかしい 499: 500: --(4/30)(yusuke) 501: testのプログラムをelispに変更しつつある 502: 無理っぽいseginfoだけで候補を生成してしまった場合にはもっと短くて 503: 適切なseginfoも探すようにすべし. 504: 505: --(4/28)(yusuke) 506: anthy-agentをテスト環境でも動作できるようにコマンドラインオプションを 507: いくつか追加した. 508: 「ー」を変換してスペース4回目に列挙モードになるのは変 509: 510: --(4/21)(yusuke) 511: src-splitter/evalborder.c の検索で右端に到達したら 512: より深い検索に切替えるようにした 513: 514: --(4/20)(yusuke) 515: anthy_get_ext_seq_ent_wtypeがいい加減過ぎ 516: 自立語部の長さを取り出すとき,動詞は語幹だけで数えるか 517: 「名詞する」の「する」まで数えるかどちらかにすべき. 518: 519: --(4/14)(yusuke) 520: agent.cにコメントを追加 521: 522: --(4/7)(yusuke) 523: 未知付属語学習の追加中 524: 525: --(3/29)(yusuke) 526: src-splitter/metaword.c::make_dummy_metawordのスコアの計算が適当 527: 528: --(3/27)(yusuke) 529: #OKXの候補が出ない 530: anthy_commit_border()にseginfoが渡って来ない 531: 532: --(3/24)(yusuke) 533: wtypecmpの返り値が変 534: 535: --(3/21)(yusuke) 536: wl->conn_score, si->tail_biasを分母256の固定小数に変えた 537: si->tail_bias を si->tail_ratioに改名した 538: 539: --(3/4)(yusuke) 540: 「私達」を学習しない 541: お茶入れの評価を越える点数になっている? 542: 543: --(2/26)(yusuke) 544: fprintf -> anthy_log に切替え中なので、メッセージ中の 545: "Anthy: "はもう要らない。不要なinclude <stdio.h>も消す 546: 547: --(2/25)(yusuke) 548: 「へんこうもと」の候補に「変更も」がでてくる 549: ->昔ばぐったのを学習させたからでした 550: 551: --(2/17)(yusuke) 552: 付属語グラフによるバイアス(done)と 553: 接頭辞接尾辞のバイアスを復活させる 554: 必要がある。 555: 556: --(2/16)(yusuke) 557: seg_infoをmetawordのレイヤに移動した 558: エラーなどをエラー出力にはくのはまずいので、出力するための機能が必要 559: src-main/personality.cを消した 560: 561: --(2/15)(yusuke) 562: ネームスペースの汚染を避ける必要があるので徐々に改善していく予定 563: 564: --(2/10)(yusuke) 565: 今ごろallocatorにバグがあったにょ 566: 567: --(2/7)(yusuke) 568: src-diclib/dic_personality.h を消す 569: 570: --(2/5)(yusuke) 571: 「ー」は名詞の付属語! 572: 573: --(1/30)(yusuke) 574: *segexpand.hを消す 575: 576: --(1/26)(yusuke) 577: commitの際にseg_infoを構成するのをやめないといけない 578: contextのreset時にseg_info_atorを作りなおす 579: 無変換の候補にseg_infoがない 580: 581: --(1/25)(yusuke) 582: *seg_info中の単語の情報を配列にする 583: *presonalityの除去はできた 584: 585: --(1/24)(yusuke) 586: 今日からDIARYには名前を書く 587: *ソースツリーの外でビルドするとbase.tとextra.tがくみこまれない。 588: *seg_infoに複雑な情報を持たせる -in progress 589: *personalityの除去 -in progress 590: *付属語の情報の更新(foosen) 591: *バージョンを返すAPI -planning 592: 593: --(1/20) 594: 「しょうがない」の候補に「しょうがい」がでる 595: 596: --(1/15) 597: *src-diclib/record.c でfseekに失敗したらというところが 598: あるがfseekは失敗しない(fixed 1/18) 599: *候補の交換が作動していないっぽい。ループのところを要チェック(fixed 1/18) 600: 601: 602: --(1/14) 603: 辞書ライブラリでsdicから同じ品詞を付けた単語を取り出す時に 604: 先に取り出された物には頻度を高くするようにして、 605: 辞書中に先に出現した単語に若干高いスコアを与えるようにした 606: (いままででもqsortの実装によってその順序になっていた) 607: cannadic-0.93aへの更新 608: 609: --(1/12) 610: cannadic-0.93への対応と辞書ディレクトリの移動 611: 612: --(1/2) 613: xemacs対応? 614: 615: --(1/1) 616: 候補の評価のチューニング 617: 618: --(12/27) 619: βフリーズ(これはその後に書かれた) 620: 621: --(12/21) 622: mule対応のelispを統合 623: 624: --(12/18) 625: ドキュメントの整理 626: 627: --(12/17) 628: 単語登録はできたが、登録した際にはキャッシュ中の 629: 既存のエントリーをパージする必要がある 630: 631: --(12/11) 632: メモリリークはほぼ解決、でも変換一回ごとに1K弱ほど 633: 候補生成でリークしてる 634: 635: --(12/10) 636: 形容動詞の処理が怪しい 637: 一日中メモリリークとの格闘 638: 辞書ライブラリっぽい 639: 640: --(12/9) 641: メモリリークの追跡 642: pageはリークしてないようだ 643: 644: --(12/8) 645: 「下さい」がでない 646: ど -> ° をなんとかする 647: 648: --(12/1) 649: 個人辞書に活用するエントリが入ってると厄介 650: 651: --(11/30) 652: 〜子(生成子) 653: 両〜、〜こと、だろう、まで 654: 655: --(11/29) 656: ソース中のドキュメント追加 657: 658: --(11/26) 659: splitterでグローバル変数を一個消した 660: 661: --(11/23) 662: record.cからsaveするときに'"'をescapeし忘れている 663: 数字を全角/半角に変換できるようにした 664: 665: --(11/18) 666: XCT_PARTのバグ取り、単漢字の修正 667: 668: --(11/16) 669: 長音、母音の小さいもの、促音 metaword生成時に含むようにした 670: 濁点、そのたの小さいもの XCT_PARTをつくった 671: metaword生成を整理した 672: 「あaaaaaaaaaaaaaaaaaaaaaaaaaあ」とか変換すると遅くなる 673: ->get_seq_entが遅いand 呼び過ぎ 674: ext_entのソースコードを整理した 675: 676: --(11/13) 677: 「゛」などの処理を記述中 678: 「゛」はその前までで候補生成するのはまずいが「ぁ」はOK 679: 「痛ぁ」など。splitterとsegcompose両方で対応すべし。 680: 681: --(11/7) 682: リリースワーク、リリースノートを書いたり 683: 684: --(11/6) 685: ドキュメントの追加 686: 687: --(11/2) 688: αリリースまでのクリティカルバグは 689: *ダブルクォートの処理 690: *候補選択画面 691: 692: --(10/31) 693: '(' ')'のanthy-agentの対応がまずいような気がする。 694: 695: --(10/29) 696: 得(う、え)る「うらない」とかでてきてしまう。 697: 「行きたい」が変換できない(直した) 698: 699: --(10/26) 700: カ変動詞の処理をとりあえず実装した。 701: 702: --(10/24) 703: elispでモードラインへの表示を追加した。 704: *カ変の対応と同時に外来語の「ー」の対応をやろう 705: 706: --(10/23) 707: config.h 708: 709: --(10/22) 710: 全角の数字も数字になるようにした 711: 712: --(10/21) 713: xchar APIを整理した 714: 715: --(10/20) 716: anthy-confを etc に格納するようにした 717: 718: --(10/18) 719: printf() -> fprintf(stderr,) 720: 721: --(10/17) 722: 開きかっこはMS-IMEにならって一つの文節にしようと思う 723: に"ゃあとのSync待ち 724: 725: --(10/16) 726: *takによるMakefile.amの修正 727: *に"ゃあによるお茶いれパッチ 728: *kaoru君さんによるelispの修正 729: *agent.cの修正 730: など 731: 732: --(10/14) 733: 開きかっこがmetawordの左にあったら、それを含むmetawordを作るようにした 734: elispでanthy-minor-modeをbuffer localにした 735: 736: --(10/13) 737: 〜してる 738: 帰る 739: 740: --(10/12) 741: 始めてのanthyの使用がanthy-agentの起動だった場合辞書ファイルを作成する 742: とかいった内容が標準出力にでてくるので対策をとらんといかん。 743: カーソルの色で状態がわかるようにしたい 744: 「死ぬ」が変換できん? 745: 文末のnをなんとかしたい 746: / でバックスペースをおせない 747: 748: --(10/11) 749: alignment of sections in dictionaly file. 750: 751: --(10/10) 752: anthy.elにminibufferの対応を書いた 753: 754: --(10/8) 755: emacs lispのコーディングを継続中です、変な入力にも対応できると思う。 756: 757: --(10/6) 758: anthy-agentが使い物になってきた 759: 760: --(10/5) 761: elispで[う゛]を変換すると点と分かれてしまうのがまずい 762: 763: --(10/3) 764: 変換前の候補をanthy_get_segmentで取り出せるようにした 765: ドキュメントやコミットの部分の整合性をとらんといかん。 766: emacs lispをすこし書いた 767: 768: --(10/2) 769: agentのマージ第1弾、ここからemacs lispを書こう 770: 771: --(10/1) 772: 文節の伸縮の学習ができたっぽい。 773: もうすこし細い点を見直すべし 774: 775: --(9/30) 776: splitterから文節の情報を取り出す際に自立語の 777: 品詞の名前を取り出せるようにしつつある。 778: 779: --(9/28) 780: splitter cacheを必ず作るようにした。 781: cacheじゃなくなったので名前を変えよう。 782: 783: --(9/23) 784: 文節を拡大するときに、文節が短かかった時の候補もでるようにしたいけど 785: 文節の拡大が学習されて次回に長い文節が最初に出てきたときに 786: その候補が出せない。 787: 学習機構は可逆にしよう。 788: 789: --(9/22) 790: anthy_quit()を実装するためにメモリ確保をallocatorに移動中 791: 終了時にメモリを解放するためには、allocatorモジュールが 792: 用意するdestructorで一気に解放するのだが。 793: 参照する先の情報が先に解放されてしまってからunref_Xとかやると 794: まずそう。 795: *メモリ以外の解放はdtorには書かない 796: *dtorの引数にメモリのみの解放であることを示す 797: *参照される側のデータのモジュールで不当な解放をハネる 798: *データを参照するモジュールのメモリは先に明示的に解放する(9/23) 799: 800: --(9/19) 801: 最初の分割時に出した隣接する文節が結合されてコミットされたら 802: それを学習すれば良いような気がした。 803: 804: --(9/14) 805: 副詞の分類を開始した mkanthydic/av.depword を追加 806: anthy.elのコーディングを進行中 807: ひらがな数字は A := (X千)?(X百)?(X十)?X? までにするか 808: B:= (A億)?(A万)?A? までかだけど、とりあえずAだけやってみよう。 809: 810: --(9/12) 811: 「書い易い」とか出てきてしまう。 812: ctab.h に CST_V_RENYOU_{TA,DA} を付けてなかった場所を直した 813: 動詞連用形 -> 動詞連用形{5,D} に制約を強くした 814: 「嗅い易い」ってなんだ? 815: 816: --(9/11) 817: 〜まくる、〜しまう は Cannadicでは対応されていない。 818: mkanthydic/extra.t の助詞、助動詞は消した 819: src-splitter/evalborder.c に境界の検索は移した 820: 「動き易い」などが候補として出てくるようにした 821: 822: --(9/9) 823: 辞書のインデックスにEUCの2バイト文字とASCII文字を混在する 824: ようにしよう。辞書ライブラリ側での対応は終了 825: 826: --(9/8) 827: 「いれる」に「要れる」が出てくるのは変 828: 辞書ファイルのindex中にでてくる文字の巻き戻しの数を 829: ASCII文字ではなく キャラクタコードの1-31を使うことにした。 830: か変、さ変が正しく処理できていない。 831: 「する」は直した 832: 候補の評価はどうしよう? 833: 834: --(9/6) 835: 候補生成を2系統にするのはできた 836: 837: --(9/5) 838: ドキュメントを追加した 839: 840: --(9/4) 841: metawordの生成数が多すぎるような気がする。 842: splitterからの情報の取得をword_listからではなく、 843: metawordからやるようにした。 844: 845: --(9/3) 846: <