新時代のことえりを考える

OS標準添付のApple純正IM「ことえり」。漢字Talk 7登場時に、漢字Talk 6.0.7までの標準添付IM「2.1変換」から大幅に機能アップして登場。「言葉を選ぶ」という意味の名前だ。
漢字Talk 7(正確には7.1)そのものに付けられた「おにぎり」という公募名称は一度も見かけたことがないのだが、どこに行ってしまったものだろうか(JRの「E電」と同種のオクラ入り感がする)。当時、このネーミングの選定を行った糸井重里は本当にバカなヤツだと思った。彼にとってもこの一件はかなり大きなダメージになったはずだ。うん、きっとそうだ。アップルでも「おにぎり」は黒歴史として「なかったこと」にしたがっているに違いない。

ちなみに「漢字Talk」については、この名前を命名した元AJのおざはたさんに「なんでJapanese Talkにしなかったのか?」と聞いてみたことがある。実際、中国語向けはChinese Talk、というように言語名称+Talkが基本ルールで、漢字Talkだけが例外だったのだ。

おざはたさんいわく、日本語ローカル仕様OSは(英語など1バイト言語圏以外の)初めての2バイト言語圏向け製品であり、マーケティング的に「Japanese Talk」なんかよりもインパクトのある名前が欲しいということで決まったのだという。本当の話である。

脱線した。ことえりに話を戻す。

サードパーティのIMに気をつかって、リリース時にわざと辞書登録語彙数を減らしたことは有名で、当時のことえりの開発者の宮武伸裕さんが個人的に「ことえりチューナー」なる学習語彙数増加ツールを配布していたりもした。現在のおJobs様の恐怖政治体制下での抑圧を考えると、とても想像できないことばかりだ。

……で、Tiger(Mac OS X 10.4)に搭載されている現行の「ことえり」について考えてみようかというのが今回のテーマである。たしか「ことえり3」などと呼ばれていたはずだ(アップルの桜庭さんが言っていた気がした)。

コンピュータに詳しくない人や、他のOSを使っている人が初めてMacを使ったときにフラストレーションを抱えない程度の変換性能を維持しつつ、サードパーティのIMの売り上げを落とさない程度に機能を落とさなくてはならない、という非常に神経の疲れる戦いを行っているのがことえりの開発部隊である。

こうして考えると、コンピュータメーカー(OSメーカー)の仕事の大半はバカユーザー向けの対策であってなんとも同情を禁じ得ないところだ。

単なる「かな漢字変換プログラム」として考えれば、今後ことえりがどういう方向に進化すべきか、ということは割と簡単な話になる。

ユーザーの好みや傾向をありとあらゆる場所から取り込んで学習して、そのユーザーの思いどおりの漢字変換を行うこと、ただこれだけである。

そのためには手段を選ばず、メールの内容であるとか読んでいるWebの内容、あるいはファイル名にどーゆー名前をつけたがるとかワープロの文章内容だとか……システム上のありとあらゆる場所からデータを抽出し、傾向を分析するのだ(これは、現行バージョンでもかなり行っているが、お行儀よく振る舞わなくてはならないがゆえのジレンマはありそうだ)。

「かな漢字変換」以外の機能を提供する、いわば日本語処理フレームワークとしての機能が欲しい。たとえば、シソーラスのDBを備え、Spotlightの検索時に入力キーワードの同義語も検索語として展開を行い、検索対象を広げたりするのだ。Automatorのモジュールをキーワードで選択する時にも、この同義語展開機能を用いてsynonymを展開してヒットの幅を広げるのだ。Automatorの仕様はとてもバカなので、当たりそうなキーワードを選ぶこと自体が困難な作業である。本当にあの仕様を考えたUS Appleのエンジニア(←ほとんど名指し)はバカである。

また、「逆変換」の機能についても期待したい。与えられた文章を逆変換して「よみがな」を取り出すのだ。現在でも「再変換」機能として実装されているが、これを他のプログラムからでも利用できるようにしていただきたい。現時点でもAPIを叩けばできそうだが、AppleScriptから利用できるとか、コマンドラインから利用できるといったレベルでの実装が望ましい。

また、これはシステム全体に影響を及ぼしてしまう話だが……入力中に日付とか場所や固有名詞などの情報があったら、それをなんとかして文章中にメタ情報として埋め込むような仕組みを整備していただきたい。そこまでやれば、大量のメールの中に同じ「鈴木さん」が出てきてもそれらを明確に区別できるだろうし、○○の場所で会った鈴木さんに関するメールを取り出すことも可能だろう。

テキスト編集時にそのテキストの中にメタ情報を埋め込むわけにはいかないだろうから、SpotlightのDB中に、テキストファイルとひもづけした属性値情報を積極的に書き込むのだ。このへん、各アプリケーション側で面倒を見なくてはならないようになっているが、文字入力というアクションを通じて、いまよりも遥かに積極的かつアクティブに属性値情報を吐き出すのだ。こんなマネは純正IMにしかできない相談だろう。

ただ……毎回文字入力→漢字変換を間違えるようなレベルの人間を相手にこのような処理を行うと…………支離滅裂なメタ情報が付いてしまうかもしれない。これではメタ情報ではなくメタメタ情報だ(超寒)。

そのような場合でもメールアドレスなどから同一の人物であると推測し、「ゆらぎ」幅を持たせながらメタ情報を作成…………………なんか、ものすごく処理が重いうえに役に立たなさそうな気配が(汗)

こういう仕組みを作ってみたら、どの程度役に立つのか、シミュレーションを行ってみるべきなんだろう。

Copyright By Piyomaru Software. All Rights Reserved