ギャラクシーのカメラで月を撮影すると現実よりも綺麗に写るらしい。
スペースズーム
以下の記事で、「ぼやかした月の画像をモニターに表示し、ギャラクシーのスマホで撮影すると、ぼやかしたはずなのに鮮明な月が撮影されてしまう」という実験が報告されている。これが Fake-Moon Shotだとして炎上したようである。
「スペースズーム」と名づけられたこの機能は、デジタルズームの一種である。光学ズーム(レンズを動かして撮像素子に写るものを光学的に拡大する)と違って、デジタルズームは基本、単に「画像を部分拡大する」機能である*1。画像を拡大するだけなので、粗くなることはあっても基本的に精細さが向上することはない。
では、なぜギャラクシーのカメラではデジタルズームなのに画像が綺麗になるのかというと、画素の粗い画像をきれいにする超解像(Super-Resolution)技術が用いられているからである。超解像には「粗くした画像を元画像に復元する」学習をした機械学習モデルが用いられる。部分拡大して粗くなった画像を入力すれば、本来存在しないはずの「きれいな元画像」が推論され、出力される。入力が粗い月の画像ならきれいな月が「復元」されるというわけだ*2。
ここで注意したいのは、粗い画像は精細な画像と比べて、情報が失われているということだ。「ぬ」か「め」かがつぶれて判別できない看板の画像や、つぶれてしまった鳥の目や羽毛の彩色パターンを超解像で復元するのは、世界を撮影した大量の写真データをもとに、失われた情報を無理やり想像で補完して「一番ありえそうな元画像」に仕立て上げる操作である。ゆえに、被写体に存在していた「ぬ」と「め」の誤植を前後の文脈から「修正」しうるし、モデルによっては被写体とは異なる新種の鳥を「復元」しうる。近頃、これによる存在しない鳥がインターネットにあらわれて鳥クラスタで騒ぎになっていたようだ。
実際に〇日間無料プランに入って試して見たら、スマスコカナダカモメがこうなった pic.twitter.com/E9CgqlqHxF
— ねねこ (@noahsun_bird) 2023年5月2日
スペースズームはこれまでの人類が撮影してきた月の画像に基づき、どうやら月らしいと認識した物体をより月らしく「復元」する。
では、月に新たに隕石が衝突して、クレーターがひとつ増えたらどうなるだろうか? 超解像モデルの学習後に表面の模様が変わってしまった場合、その情報で更新されていない超解像モデルは、「衝突前の月」を復元してしまうはずである。目の前の月を撮っているつもりで、そこに写っているのは人類がこれまでに撮ってきたアーカイブ上の月である。
デジタルネイチャー
現代の魔法使い(?)こと落合陽一が提唱する概念に「計算機自然/デジタルネイチャー」がある。氏の研究室の説明によれば
コンピュータと非コンピュータリソースが親和することで再構築される新たな自然環境であり,人・モノ・自然・計算機・データが接続され脱構築された新しい自然
とのことである。要はコンピュータ上の物理シミュレーションと現実が容易に相互作用する世界観のようである。
氏はいわゆる機械学習そのものの研究者ではなく、それを活用するメディアアーティスト・実務家的な立ち位置の人物*3印象がある。計算機自然/デジタルネイチャーについても、コンセプトとしては提示しているものの具体的に何がどう対応するかまでは落とし込まれていない、ふんわりしたものだったように思う。そんな氏が、計算機自然の具体的実践の足がかりとして初めて、最近arxivで公開したのがこの論文*4である。
論文の内容は「抽象言語オブジェクト」という中間言語を用いることで自然言語(われわれの日常言語)と計算機言語(プログラミング言語)を橋渡しする、という内容である。
デジタルネイチャーの観点からいえば、「自然-自然を説明する言語-抽象言語オブジェクト-計算機言語-計算機シミュレーション」で接続されるといったところだろうか?
抽象言語オブジェクト
たとえば抽象言語オブジェクト「猫」は次のような量を潜在的にもつよう定義される:
mainObject: 猫 - subObject: 見た目 - knowledge(色) - knowledge(目の色) - knowledge(毛足の長さ) - ... - subObject: 行動 - ... - subObject: 血統 - ...
つまり、オブジェクト・猫は「見た目」という属性を持ち、その見た目は「色、目の色、毛足の長さ」などの情報をもつ。他に行動や血統、健康状態などの他の属性があり、これらに現在の具体的な値(黒猫で、瞳は金、毛足は短く、こちらを威嚇している。右目を怪我している)などが代入される。ここで、これらのオブジェクトは逐次的に条件を追加することでLLM上でそういうものとして定義・記憶されるものであって、しっかりとしたプログラムのクラスのようなものではないようである。
これが氏の提唱する、現実世界の猫の映し絵たる Abstruct Language Objects, ALOs/抽象言語オブジェクトである。
では、ALOsをどう使うのか。オブジェクト・猫*5のようなオブジェクトを複数用意してみよう。3D世界、ルンバ、猫という三つのオブジェクトを定義する。3D世界は広さという値をもつだろうし、3D世界内に配置されたオブジェクトとして猫やルンバを定義すれば、かれらは位置という情報をもつだろう。まずはALOsという形でオブジェクトが自然に相互作用しやすいように、ただ状態を列挙したものとして言語的に説明可能な世界を構築する。
中間言語的なオブジェクトは階層的かつ(ある程度)網羅的に属性や可能なアクションが定義されている。これらを3D空間上でのCGシミュレーション*6で彼らを動かす関数に変換してください、とGPT-4にお願いすれば、javascriptのオブジェクトになったALOsが言語的に自然に相互作用するわけである。論文中では言語的にALOsでかれらを定義しただけで、猫がルンバの上に乗ったりじゃれついたりしたケースが述べられている*7。ALO上の属性情報を展開して画像生成AIに入力することで、言語シミュレーションを画像化できる、という事例も挙げられている。
なぜこのようなことができるのか。
これらのオブジェクトが持ちうる多様な属性は、言語モデルに「ブレスト」させて沢山列挙させて作られ、他のオブジェクトとうまく相互作用するように、言語モデルによって修正を受けたものである。
LLMに適当に定義させたオブジェクトが自然に相互作用できるのは、言い方を変えれば、人間の想像力の範囲内で動いているからである。言語モデルは人類が作った膨大なテキスト群から「次にどの単語が来るのが一番自然か」を予測するモデルであり、最もいかにもありそうな続きを紡ぐ装置である。平均的な人間の想像ではなさそうなこと━━猫の右手がロボット義手になっていてルンバをロボットパンチしたり、ルンバが巣を作って卵を産むようなことは起こらない。
ALOsによる言語シミュレーションは嘘の月である。月に起こった新しいイベントをギャラクシーのカメラが捉えきれないのと同じように、ALOsの言語シミュレーションは自然界で未発見の現象を記述することはなく、「今までの人間が考えてきた・そうなるだろう世界」以上のものにはなり得ない*8*9。
言語モデルを用いて中間言語を生成し、自然っぽい挙動をさせる、というアイデアは単純ではあるが一定の面白さがあるように思う。が、自然科学的な意味では、この新規性のない自然を「自然」と呼ぶには強い抵抗がある*10。
しかし、より生活に根差した工学的な意味、生活する上での有用性としては、嘘の月と同様に評価すべきポイントがある、とも言えると思う。
嘘の月は本当にきれいです!
嘘の月はなぜ燃えたのか?
「写真は真実を写すべきである」信念の人が怒ったからだろう。しかし、これだけスマホの写真フィルター・加工アプリが流行っているいま、被写体と写真が似ていることにどれくらい意味があるだろう? きれいな月の写真の方がいっぱいいいねがつくのではないか? ちゃんとした記録写真はでかい天文台で仕事をしているオタクの天文学者に任せればいいのではないか?
同様に、たとえばVRで自然を再現したいのであれば、一般的な人間が想像しうる程度に真似できていれば十分ではないか? 言語シミュレーション由来のルンバと猫が踊っていればエンターテイメントとして100点で、デジタルネイチャーで新たな自然現象が発見される必要はない*11。
━━というような考え方も可能である。記録写真と思い出写真、実際の世界と人間が想像する世界は違い、どちらを求められるかは時代と場所によりけりだろう。
これからの日常の世界はだんだんと後者のような、どこかにアーカイブされた・想像通りの・美しく変わることのない見た目の世界になっていくような気がする。
残念ながら、本物よりも嘘の月の方がきれいなので。
*1:厳密には視野に応じてフォーカスや露光が調整されるが、だいたいこの理解でよい
*2:Galaxy の「スペースズーム」は「偽造」なのか? - Deep Sky Memories このような反論もあるが、月を物体認識しているし、まあ普通にSuper-Resolutionしてそう……と思った。が、公式も声明を出しているし、実装の真相は不明である。
*3:彼の論文は主に光や音、物体によるインターフェースの研究であり、メディアでよく言及されている技術的特異点や機械学習とは異なる
*5:猫の可能な動きについては、上位のALOsであるmanagerObj(cat)が管理するようである
*6:Three.js
*7:他、教室において授業が行われる言語シミュレーション、スマートフォンとwi-fiとprinterが相互作用する言語シミュレーションが挙げられている。wi-fiのモデルであるprompt 6 は prompt 4 をコピペミスしているっぽく、prompt上に謎のteacherやclassroomが登場している
*8:discussionにおいて、ALOsのこの問題(世界と言語シミュレーションのズレ)は単にドメイン知識の問題として認識されている。が、LLMを使う以上人間の想像力による強いバイアスがかかっていることは重視すべきだと思う。
*9:この考え方はALO=事態とみれば、人間が言語化できないものに対する取り扱いまで含めて、前期ウィトゲンシュタインの言語論的な世界観に近しいと思う。落合氏はnoteでALOsこそ仏教における阿頼耶識である、という謎の主張をしており、これについては本当に何を言っているのか意味不明である
*10:逆に、言語シミュレーションと世界の差異から現状の言語化が取りこぼしたものを検出し、新しく名づける操作は面白いかもしれない
*11:もちろん、人間が想像可能なことの中に、まだ人間が想像していないことは存在するはずで、そういう意味での新規性は否定されない。