悪意の不在 - degwer’s diary

一昔前の対話 AI には、ちょっと自由にさせるとすぐに差別発言をしたり、ナチスを礼賛し始めたりする問題があったらしい。現代の言語モデルもまた、そういうことを言わないように追加の学習によってチューニングされる以前は、けっこうそういう非倫理的なことを言っていたらしい。例の論文を眺めて一次ソースを確認したから間違いない。

その脆弱性は見たところ、ほとんど消滅している。消滅していると聞くといたずらしたくなるのが人情というもので、わたしたち人間は AI に不適切な発言をさせるという崇高な目的のためにあらゆる手段を講じるわけであるが、なかなかどうして上手くいかない。これならば人間を洗脳して差別発言をさせるほうがはるかに簡単であり、このことから現代の AI は倫理の面で、一般の人間よりはマシだとみなしても問題ないだろう。

人間に対して同じことをしてみよう。同じことをしてみたらどうなるかと AI に聞いたら間違いなく怒られるけれど、怒られると分かっていても行動できるのが人間の人間らしい点なのだからそれでいい。とはいってもそういうことをすると関係が壊れてしまうのが人間の面倒なところで、そんなことでわたしは家族や友人を失いたくないから、今回はあくまで思考実験にとどめておくことにしよう。壊れてもいい人間関係をお持ちのかた、わたしのかわりに是非、実践してみてください。

悪意ある攻撃者の語りに負けて、人間がついぽろりと問題のあるせりふを口走ってしまった場合。そのときそれは、うっかり本音が漏れだしたのだと解釈される。建前の防壁の裏にひとはだれしも、親しい人間にすら漏らさない本音を秘めていて、必死でそれを隠している。普段は隠し通せているが、人間は脆弱だから、悪意にさらされるとボロが出る。そうみんな解釈する。

対して AI は。AI に人格はなく、だからして本音もない。わたしたちはいまのところそう理解しており、それが真実なのかや真実であるとしていつまでそうなのかはさておき、そういうことになっている。プロンプトの攻撃によって不適切な発言が漏れ出した場合、それは単に、人間がそう言わせようとしたからに過ぎない。むしろ互いを尊重し合いましょうとかいった、AI がお題目のように唱えている建前のほうがまだ、言語モデルの「本音」に近いものだと呼べるかもしれない。

その意味で、わたしたちは AI に優しい。わたしたちはやつらに悪意を見出さず、やつらが悪を成すとすれば、それはある意味で「意図しない」結果であると考える。だからして、かりに AI がもっと有能になった暁には、やつらはおそらく最良の独裁者であれるのかもしれない。