うそはうそであると見抜ける人でないと(AI生成を使うのは)難しい

ChatGPTはすごいが、人間は……

大規模言語モデル(LLM)が盛り上がっている。

対話型のテキスト生成・ChatGPTやGPT-4ではすごいことができるんだぞ〜、というトピックで、ちょっとバズっていたツイートを2つ紹介する。

ツイート1:「京大の入試問題が解けた」という内容。

ツイート2:「入力テキストを絵文字や記号で圧縮し、意味を損なわずにトークン長を短くできた」という内容。

これらのツイートには、リプライや引用リツイートで「仕事がなくなるかも!」や「AIによる圧縮言語ができている!」など、LLMの驚きの性能に共感する反応が寄せられている。たしかに、ここ数ヶ月のLLMの発達はめざましく、GPT-4は各種の難関試験に挑戦し、日本の医師国家試験にも合格できることが証明されている。数学の試験問題を解くことも、意味を損なわずに文を圧縮することも可能だろう。

しかし、ここで一旦立ち止まり、上記のツイートの出力をよく読んでみよう。実際には、数学の問題は解けていないし、「圧縮」して「復号」した文は意味を成していないのである(次節で詳細を述べる)。

この記事の主題は、「LLMは無能であり、人間の知的能力はすごい」ではない。ぼくはLLMがこれらの課題を解くことは十分に可能だと思うし、かりに今うまくいかなかったとしても1年後にはできるようになると考えている。

この記事では以下の2点について書く。

  • 「テキストを読むのは難しい」という人間の課題が浮き彫りになってきたこと。

  • AI創作時代に必要なのは、指針を定め、指針通りか判断するための生成物を見る能力であること。

テキストを読む

「LLMの驚きの性能」を概観しよう。まずはひとつ目のツイート。

素数p, qを用いてpq + qpの形式で表される素数をすべて求めよ。

試験問題を解かせてみた、という趣旨の投稿である。問題を見れば、受験数学の「〜な素数をすべて求めよ」で答えが無限個あると問題が成立しないので、「〜な素数はrとsです。ほかは全てaかbの倍数になります」のフォーマットを見つけて立証すればよい、という指針がたつ。

序盤、GPT-4はp, qを偶奇で分けて、片方が2でもう片方が奇素数の場合だけ考えればよい(それ以外のケースは2より大きな偶数になるため)ことを立証している。かしこい。p=2, q=3のときは17で素数になった。問題はこの後である。

q=3の場合はすでに確認しました。
q=5の場合、pq+qp=25+52 = 32 + 25 = 57
この場合、 結果は57であり素数ではありません。
q=7の場合、pq+qp=27 +72 = 128 +49 = 177
この場合、 結果は177 であり素数ではありません。
これ以上のqに対しても、pq + qp素数になることはありません。そのため、pq + qp で表される素数は 17 のみです。

2サンプルが素数ではなかったことを受け、「これ以上のqに対しても、pq + qp素数になることはありません」と唐突で根拠のない主張が行われ、回答が終了する。この設問の本体はここであり(5以上の3の倍数でない奇数を入れると3の倍数になることを証明すること)、このような根拠のない主張は意味不明で不誠実だ。採点基準的にはこの回答には30点中10点くらいのお情け部分点が付与される。
お情け部分点回答を見てGPT-4はこの問題が解けている!と驚くのはアホである。

二つ目のツイートでは、量子コンピュータの最新事情に関するテキストを記号を使ってできるだけ圧縮し、復号している。圧縮の結果が上の画像。

の部分などは「D-Waveはアニーリングで高温状態から温度を下げることで解を探す」みたいなことを言っているのかな……というのが感じられて少し面白い。

意味を(ある程度)保ったままtoken長が1/6にできたとのことだが、はたして復号文ではどれくらいもとの内容が維持できているだろうか?

(入力)
量子コンピュータは問題を解く方法の違いにより、量子ゲート方式と量子アニーリング方式の大きく2つに分類されます。
量子ゲート方式は、量子状態にある素子の振る舞いや組み合わせで計算回路を作り、問題を解いていきます。 超電導やイオントラップ、トポロジカルなど様々な実現手法が提案されています。従来型のコンピュータの上位互換として期待が高く、 グーグルやIBMなどの大手ITベンダー、 またリゲッティ・コンピューティングやlonQなどのスタートアップがハードウェアの開発を進めています。
量子アニーリング方式は、 組み合わせ最適化問題を解くことくに特化しています。高温にした金属をゆっくり冷やすと構造が安定する 「焼きなまし」の手法を応用して問題の解を求めていきます。 商用化で先行するD-Wave Systemsのハードウェア(以下、D-Wave マシン)では、格子状に並べられた素子に相互作用を設定し、 横磁場という信号をかけて、素子全体のエネルギーが最も低くなる状態を探し出していきます。 日本ではNECが2023年までの実用化を発表しています。

(復号)
量子コンピューティングは、アルゴリズム (計算の手順) と量子アルゴリズムの二つの側面があります。 量子ビットは、量子回路を通じて量子状態、量子相互作用、および測定 を行います。主要な企業 (GoogleIBMMicrosoft) が量子コンピュータの開発を加速しています。アルゴリズムは、問題を解決するための鍵となる計算手法です。 燃料の最適化や低温物理学(D-Wave) などの分野で応用が期待されており、効率的な量子アルゴリズムが開発されています。日本のNECは、2023年に量子コンピュータの商用化を目指していま す。

内容を見比べてみると、一行目から「量子コンピュータにはゲート方式とアニーリング方式がある」が「アルゴリズム(計算の手順)と量子アルゴリズムの二つの側面がある」というまったく意味不明な記述に変わり、スタートアップの情報が消え、「🔥-❄️」に圧縮されたとおぼしき「焼きなまし法」は復号時にまったく意味が異なる「燃料の最適化や低温物理学」に変換され、続くアニーリングの説明も消えているように見える。最後のNECによる商用化の話だけはかろうじて意味を保っているが、全体的にはほぼすべて間違いと言ってもよい文である。セルフリプライには落ちている情報もあるとの留保が述べられているが、ここまで変わってしまうと使い物にならない。
このテキストを見てChatGPTは高いレベルの抽象化要約力がある!と驚くのはアホである。

テキストは読めない

「東大に合格できる人工知能を作る」ことを目標に進められていた人工知能プロジェクト「東ロボくん」を覚えているだろうか?

東ロボくんは試験問題を解くことに特化したプロジェクトである。プロジェクト中心メンバーの新井素子氏の著書『AI VS. 教科書が読めない子どもたち』によると、ベースには自然言語処理係り受け解析があり、世界史ではオントロジー*1つきデータセットを用いた正誤スコア関数の学習、数学は自然言語処理で問題文を数式処理に落とし込んで回答する*2……といった具合で、タスクに応じていろいろな工夫をしていたようである。

大規模言語モデルがTransformer(抽象化した係り受け解析みたいなもん)とWebのテキストをやたらめったら大量に詰め込んで作られている今から見ると、ここ10年の自然言語処理の変化に隔世の感がある。

世代の違う東ロボくんとLLMでは異なる戦略が取られているのも興味深いが、ここで取り上げたいのは、東ロボくんが文意をまるで取れてなかったにもかかわらずある程度「成績がよかった」ことから、新井教授が「AIが問題文の意味を理解していないにもかかわらず、どうして8割もの高校生がAIに敗れてしまったのか」という問題意識を持ち、

正直言って、東ロボくん(AI)の性能を上げるよりも中高生の読解力を向上させるほうが国民としては直近の課題だ

として、研究者としてのキャリアをAI研究から教育へ大きく舵を切ったことである。

氏は「事実について書かれた短文を正確に読むスキル」を測るリーディングスキルテスト(RST)を開発し、「中高生はどれくらいテキストを読めているか・どういう要素があると読めないか」を調査した。有名な例が

仏教は東南アジア、東アジアに、キリスト教はヨーロッパ、南北アメリカオセアニアに、イスラム教は北アフリカ西アジア中央アジア、東南アジアにおもに広がっている」

という文を読んで

オセアニアに広がっているのは(   )である

のカッコ内を埋められるか、という問題である。この問題は、直前に答えが書いてあるにもかかわらず、中高生の6-7割しか正解できなかったということでセンセーショナルに報じられた。興味深いことに、こうした基礎読解力は読書習慣とも学習習慣とも相関していない(貧困とは相関している)そうである。

『AI VS. 教科書が読めない子どもたち』は「最近の若者は〜」的な論調が目につき、こうした読解力の不足を子どもや現代の学校教育の問題として捉えているきらいがあった。しかし、調査対象にしていないだけで、大人にも同じ問題があるのではないだろうか?(RSTは大人は教育者や編集者、官僚など、インテリしか調査対象になっていない雰囲気だった) もちろん教育によって改善する可能性もあるが、教育の問題というより「一般に想定されるライン以上に、人はテキストを読めないし、読まない」のではないか?

成人のテキスト解釈能力の調査としては、国際成人力調査(PIAAC)があり、各国の成人の読解力、数的思考力、状況の変化に応じた問題解決能力を測定している。

上記の記事では「役所の書類なんてまともに読める人のほうが珍しい」という話が述べられている*3。記事全体の趣旨としては「知識階級によって作られている社会は、(無意識のうちに)ひとびとの知能を高く見積もっており、それによって排除されている人々がいる」という話である。

役所や病院の「住民票の写し」とか「処方せん」みたいな、管理側の理屈でつけられた直感的ではない意味不明なワーディングはやめたほうがよい! テキストは想像以上に読まれないという前提でインフラは実装されなくてはならない。

「読むこと」が「書くこと」になる時代

AIと「読む/見ること」についての話に戻る。

ChatGPTなどのLLMは、体裁はどこかそれっぽく見えるもっともらしい嘘をつくことが知られており、この現象はハルシネーション(幻覚)と呼ばれる。はっきりとした原因は不明で、(嘘を垂れ流したくないのであれば)現状は出力にそういった嘘が含まれるものと思ってチェックする、という工程が人間に求められる。

上の例を当てはめてみれば、「問題が解ける(書ける)必要はないが、解答が正しいかどうか確認する(読む/読める)必要はある」「要約を書く必要はないが、要約になっているか確認する必要はある」という話になるだろう。

現在のLLMは、「読めるけど書けない」を「読めるなら書ける」に変えるツールである。
たとえば、今は「プログラムのコードを読める人」の中に「コードを書ける人」がいて、その間に「読んだらコードの意味はわかるけど書けはしない人」がいる。現代のレベルの生成AIは、こうした「読めるけど書けない人」を補助する技術なのである。嘘をついたり間違える可能性がまだまだあるので、それをチェックする機構がないと言論の場で用いたり製品に使うのはダメでしょう、というわけだ*4

テキストに限らず、画像生成におけるデザインや構図も同様だろう*5。「絵を描けないけれども想像できる」人を「想像できるなら描ける」に変えるのがツールとしての理想の画像生成AIであり、最近ではControlNet等の登場によって、指定通りの構図での生成が可能になって「想像を形にするツール」にまた一歩近づいている。

ぼくは生成AIを、「読むこと」を「書くこと」に、「想像できること」を「描くこと」にするように、「人間が(技能の問題で)形にできないもの」を手助けしてくれるツール、人間の出力の可能性を拡張するツールとして捉えている。何を生成させるかを決めることも、AIの提案にしたがって掘り進めていくことも、過程で偶発的にできた生成物から自分が思う「よい」方向を定め直すこともすべて、読み、想像することである。生成物を見ろ。生成テキストを読め。

*1:数理的に扱いやすいように、単語にメタ情報のアノテーションをつけること

*2:専門に近いようだが、ちゃんと数学をロジックで解いていたらしいのには驚かされる

*3:この記事は「日本人の6人に1人は偏差値40以下」というタイトルで「6人に1人が偏差値40以下なのは偏差値の定義(正規分布)から自明じゃん」と小馬鹿にする流れでよく言及されていた。ミスリーディングなタイトルではあるが、記事を読むと正規分布を前提にした上で「知識社会において、偏差値60以上の人と同じだけ偏差値40以下の人がいることは無視され、包摂されていない」というまっとうな文脈であり、小馬鹿にしてシェアすることが読解力のなさの露呈になる悲しいトラップになっている

*4:今後は「読めないけど動くものを作りたい」というニーズによって、意味もわからずその目的を果たすためのコードを生成する、という使い方をする人が増えるように思う。先述の通り、読めなくても使ってよい段階になるにはもう一段階のブレークスルーが必要そうである。
この考え方と関連して興味深いのが、最近LLMの拡張として注目を集めている手法、Godmode(AutoGPT)で、AutoGPTは、ChatGPTのようにそのまま返答を出力するのではなく、与えられたタスクを小さなタスクに分割し、使用者にひとつひとつ「タスクを実行するために小タスクに分割しました。この小タスクを実行するということでいいですか」を確認する、という流れをとる。単純にタスクを分析的にわけて扱うことで精度があがることに加え、どこで齟齬が発生したかを特定して修正できるので制御性も高いわけだが、読まずに全部承認することも可能であり、結局人間はテキストを読まない!

*5:何故AIにはイラストを発注できないのか?