対話用言語 ①

AI の性能は刻一刻と向上している。シンギュラリティはすぐそこまで来ている。およそあらゆる知的ないとなみにおいて、やつらは間もなく人類の最高峰に肩を並べ、そして一瞬のうちに抜き去ってゆくだろう。

 

最新の言語モデルを追っていると、しばしばそんな感覚に襲われる。やつはわたしたちの質問に、実際に的確な質問を返す。風景を描写し、プログラムを書き、ジョークの面白さを説明する。なんでもできるという点についてやつは個々の人間を凌駕しており、そして人類全体を合わせた知を AI の汎用性が追い抜くのはおそらく、時間の問題なようにすら思えてくる。

 

しかしながら。そうした悲観的な推論――もっともそれをわたしはむしろ楽観的だと評価するのだが――は、言語モデルの構造上の弱点から目を背けていると言わざるを得ない。現にいまの AI には実際、弱点が存在する。しかもそれは、現時点でのモデルの未熟さというよりは、言語モデルという考え方それ自身の弱点であるようにわたしには見える。

 

たとえばこんなことを考えてみよう。AI の学習データとはあくまで文章であり、画像である。やつらが地球上各地の名所を知っていて、そこを映した写真やそこについて書かれた文章をいくらたくさん学習していたとしても、やつらは実際にその場に行ったわけではない。やつらは決して食べ物を食べることができないし、その匂いを嗅ぐことすらできない。やつらはあくまで言語のモデルであり、言語とは一切、そのような経験を内包するものではない。

 

あるいはこんなことも言える。やつらは複雑な推論ができない。複雑な推論とはおそらく、言語だけによって為されるものではないからだ。現状の AI は、大昔のウェブサービスがすでにやっていることであるにもかかわらず、わたしが思い浮かべているキャラクターを言い当てることもできない。それどころか乗換案内すら、いまのところろくにこなせない。それがきっと言語モデルの限界であって、そのレヴェルを超えたければ、AI はきっと言語以外の領域に手を出す必要がある。

 

さて、けれども。「AI には乗換案内すらできない」と言えば、そこには語弊があるだろう。あれを AI と呼べばの話ではあるけれど世の中には乗換案内 AI が存在し、目的地までの時間と経由地を正確に計算してくれる。それはたしかに言語モデルにはできない仕事かもしれないけれど、路線図を参照した古典的なアルゴリズムには簡単な仕事なのであって、つまるところ AI にも、適材適所という概念がある。

 

近い未来に売り出される「賢い」AI は、きっとそれらのハイブリッドになる。人間と対話するインターフェイスの部分はきっと言語モデルが担当し、実際に人間の要求に応えるのは、言語モデルが探してきた別の AI の仕事になるだろう。となれば必然的に、AI が AI を呼び出すというプロセスが発生する。異なる種類の AI は、このようにコミュニケーションを取る。

 

では、そこで使われる「言語」とは、果たしてなにになるのだろうか?