エントロピーで考える 2531年佐藤さん問題問題

4/1にウソみたいな話としてマスコミ各社が報じた「夫婦同姓制度のままだと、計算上2531年には日本人が全員佐藤になってしまう!」という「2531年佐藤さん問題」。元ネタは東北大学の経済学研究科の教授、吉田浩氏が「Think Name Project(一般社団法人あすには)」の一環で出したもので、選択的夫婦別姓制度の推進を目的としたプロジェクトの研究報告である*1

think-name.jp

2531年佐藤さん問題

メディアが報じたのがエイプリルフールなのもあって冗談かガチなのかわからないが、解析レポートが3/20付だったり、いわゆるネタバラシ的な言及が皆無だったりで、「話題性のあるおもしろ解析結果」として本気で出したのではないかと思われる。マスコミ各社も真である前提で報道しているように見受けられる。

用いられている数理モデルは「佐藤姓は2022年から2023年にかけて1.0083倍になっており、このままのペースで増えれば約500年後には人口の100パーセントが佐藤になる」というもの。ツイートでは衝撃的な増加の様子のグラフも付されている。

全員佐藤になってしまう。大変だ!

2531年佐藤さん問題問題

結論から言えば、「毎年同じ率で佐藤さんが増え続ける」とするこの数理モデルは完全に誤りである。佐藤姓がこのような形で増えることはない。

解析レポートには

基本的考え方
佐藤姓と他の姓の者との結婚により、他の姓が佐藤姓を名乗ることで佐藤姓が全人口に占める比率は増加することが考えられる。

とあるが、夫婦同姓のもと、佐藤と他の姓が結婚する際、佐藤になるか佐藤以外になるかの確率は半々であるため、佐藤以外が佐藤になる確率(流入)と佐藤が佐藤以外になる確率(流出)は同じあり、期待値的には佐藤は増減しない。指数関数的に増加するという仮定はかなり変である。

当然このモデルには多くの疑義が投げかけてられており、数理的にそうはなんないよね、とツッコミが入っている。

togetter.com

「2531年佐藤さん問題」は問題のありすぎる解析である。本気で言っているなら撤回したほうがよい。選択的夫婦別姓には賛同するが、誤った理論で世論を誘導するのは不快である*2

じゃあ、どうやって統合を説明するか

しかし、現に佐藤さんはちょっと増えている、かもしれない。

解析レポートのデータは少し怪しい*3が、上記のリンクで紹介されている2022年に苗字の絶滅について簡単な数値シミュレーションでは、人口が維持される環境では、苗字の種類数がだんだんと減り、十分に長い時間(60億年!)が経つと最終的に一つに統合されるようである。統合先が佐藤になるか別の苗字になるかは試行ごとに確率で変わる*4ものの、「特定の苗字の比率が増えていく」のはどうやらそのようである。

なぜ期待値的には変動しないはずなのに特定の苗字の比率が支配的になっていくかについて、上の記事では「一度0人になった名字は復活しないから」(滅んだ苗字がもっていたシェアが残った苗字に分配される)という直感的な理解を紹介している*5

この直感をどうにか数理的に表現できないだろうか?

苗字のエントロピー

wordleを情報数学で解く回でも書いたが、各種の要素が満遍なくあるか、それとも一極に集中している(多数派のシェアが高い)かは、エントロピーという量で定量化できる。今回の場合、全ての苗字に均等に人がいる状態がエントロピー最大で、全佐藤状態など、ある苗字かしか存在しない状態がエントロピー最小となる。

エントロピーの具体的な値は次の式で計算できる。

 \displaystyle
S = -\sum_{i}^{M} \frac {n_{i}}{N} \log{\frac {n_{i}}{N}}


Nは全人口、Mは苗字の種類数、 n_{i}は苗字iの人数である。

「ある二人が結婚して片方の姓の子ども二人を産み、(その二人のみ)世代交代する」という、最もミニマムな世代交代のステップによってエントロピーがどう変動するか計算してみよう。

同じ苗字の組み合わせの結婚の場合、世代が変わっても各苗字の人数は変動しないので、エントロピーは変動しない。

別の苗字の場合、佐藤さん( n_{s}人)と勅使河原さん( n_{t}人)が結婚する場合、次世代の姓がどちらになるかの場合わけが発生する。

  • ケース1:次世代が佐藤姓:次世代は佐藤の人数が n_{s}+1, 勅使河原の人数が n_{t}-1になる

  • ケース2:次世代が勅使河原姓:次世代は佐藤の人数が n_{s}-1, 勅使河原の人数が n_{t}+1になる

ケース1になるか、ケース2になるかの確率は1/2ずつである。それぞれの場合の世代交代前後のエントロピーの差は、他の苗字の項は変わらないので、注目している二つの苗字のみについて考えればよくて、 f(x)=x \log(x)とすれば

ケース1:

 \displaystyle
\Delta S_{1} = - f(\frac {n_{s}+1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}-1}{N}) + f(\frac {n_{t}}{N})

ケース2:

 \displaystyle
\Delta S_{2} = - f(\frac {n_{s}-1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}+1}{N}) + f(\frac {n_{t}}{N})


となる。平均エントロピー差はケース1とケース2について1/2をかけた和をとればよいので、佐藤さんと勅使河原さんの結婚・世代交代によるエントロピー変化の期待値は

 \displaystyle
E[\Delta S] =  \sum_{i=(s,t)} \frac{1}{2} \big( \Delta S_{i} \big)= - \sum_{i=(s,t)} \frac{1}{2} \big( f(\frac {n_{i}+1}{N}) + f(\frac {n_{i}-1}{N}) \big) - f(\frac {n_{i}}{N})


となる。ここで、 f(x)=x \log(x)は下に凸なので、常にf(x) \lt \frac{1}{2} \big( f(x-a) + f(x+a)\big)が成立し、平均エントロピー差は n_{s}, n_{t}によらず負の値になる*6。この差は、人数が多い姓と少ない姓がマッチングしたとき、多い姓になる(一極集中する)ときの減るエントロピーのほうが、少ない姓になる(分散する)ときに増えるエントロピーよりも大きいことを意味する。

例として佐藤さんと勅使河原さんについて考えたが、どんな苗字の組み合わせでも同様に考えることができ、世代ステップの更新をするたびエントロピーは上がったり下がったりしながら期待値では減少し、最終的にそれ以上減少しない状態、つまり「全佐藤状態」や「全田中状態」になって、そこで停止する。

多い苗字が多くなる?わけではない

「世代が更新すると、苗字が満遍ない状態(エントロピー大)からだんだん一極集中(エントロピー小)の状態に移行していく」ことは上の議論から言えたわけだが、各ステップではどちらの苗字が増えやすいかの確率は平等で、多いほうが増えやすいわけではない。

では、エントロピーの期待値が負になることは何に由来するのか。上で考えたステップを繰り返し適用することで、他の苗字の数を変えずに「佐藤が増えて勅使河原が絶滅した状態」および「勅使河原が増えて佐藤が絶滅した状態」に遷移でき、それぞれのステップのエントロピー変化は、絶滅という不可逆な変化で解放されるエントロピーの分割払いと見ることができる。「一度0人になった名字は復活しないから」(滅んだ苗字がもっていたシェアが残った苗字に分配される)という直観は、絶滅によるシェアの分配を、期待値での分割払いと対応させることでエントロピーの議論と接続できそうである。

解釈が難しいが、「多い方がより増えるエントロピー減のほうが少ない方が増えるエントロピー増よりもエントロピー変化が大きい」という話は、どうやら結局は絶滅という不可逆な変化の起こりやすさ(少ない側が減った方が絶滅しやすい)の言い換えらしい…と思われる。

いずれにせよ、佐藤は指数関数的に増大しない。

*1:苗字に多様性が多い方がよいという価値観も謎ではある

*2:これで「エイプリルフールネタだよ〜ん、うっそピョーン」と言われたら憤死するかも

*3:苗字の数は電話帳と総務省のデータから推定しているデータらしく、そもそも疑わしい値なのだが、さらにそれを総務省のデータで割って比率を出しており、何かが循環している気配もある!

*4:もともと多い苗字が強いのはある

*5:上のシミュレーションは「N人の中から半分のN/2人をサンプリングし、倍にする」を世代のステップとして更新しており、これによる特定の苗字の増減は超幾何分布で表現される。現在のように姓の比率が小さい場合の近似では、n人いる苗字は次の世代では平均n、分散nの正規分布の人数になり、ランダムウォークのような挙動になる(だいたい√n人くらい)

*6:苗字を構成する人数が多いと、エントロピー差はかなり0に近い値になる

奇想同人音声評論誌「空耳2」準備号のお知らせ/1メートルの殻:主観化するメディアとコンテンツ

C103に出展します

サークル「空耳製作委員会」より、2023年12月31日(日)に開催されるコミックマーケット(C103)東地区 ヒ-08b にて、「奇想同人音声評論誌 空耳2 準備号」を頒布予定です。 「空耳2」は現在編集中で、音声作品有識者による評論やクリエイターへのインタビュー、また前作同様に変わった音声作品のレビューを掲載します(年度内を目処に発行予定です)。

今回頒布する準備号では、作品レビュー数点と、妄想研究所「テレバーチャルヘッド」を軸にした私の論考「能動的鑑賞論:「テレバーチャルヘッド」はバイノーラルをどう超克するか(仮)」を掲載します。

「テレバーチャルヘッド」は「聴取者が頭を動かしながら聞くことで、通常のバイノーラル音声作品よりもリアルな体験が得られる」というエポックメイキングな音声作品です。以下に、「空耳」第一号に掲載した「1メートルの殻:主観化するメディアとコンテンツ」を公開します。まさか「テレバーチャルヘッド」のような形式の作品が出るとは思いもしまいませんでしたが、コンテンツ聴取体験のリアリティに寄与する距離と、能動/受動について分析した2022年当時の論考です。お楽しみください。

1メートルの殻:主観化するメディアとコンテンツ

ASMR音声を聞くとき、あたかもそこに人がいて話かけてくるようなリアリティを感じることがあるだろう。多くのASMR作品はダミーヘッドマイクと呼ばれる立体音響技術で録音されており、「仮にそこに自分の頭が置かれていたらどう聞こえるか」を忠実に再現された音になっている。

リアリティと同時に強く認知されるのが、聴取者たる自分が、録音された環境である「そこにいる」主観的感覚である。ASMR音声の前では、聴取者は映画のような俯瞰の視座ではなく、録音環境内で語りかけられる主体の視座を強制的に与えられる。リアルの空間で話しかけられるのと同じ音刺激を与えられながら、「話しかけられている主体は自分ではなく、自分と同じ位置にいる作中の登場人物である」と認知するのは困難である。この感覚は視覚のVRにも共通のものでもある。

本稿では、刺激のリアリティやメディアの特徴が、コンテンツの作中での記録者(音ならマイク、映像ならカメラなど)と鑑賞者にどのような感覚の関係を生じさせるのか、そして、その感覚によって作られるコンテンツがどのように変容するかを論じる。

まずはVR立体視やダミーヘッドマイクの立体音響はなぜ「リアル」なのか、そしてどういうときに特に「リアル」なのか、技術的な面から考えてみよう。

現実と仮想の感覚刺激

視覚刺激のリアリティ

VR立体視について考える前に、2Dでの状況をおさらいしておこう。モニタやプロジェクターの品質を決める5つの要素としてよく挙げられるものに、「画面解像度・フレームレート・ビット深度・色域・輝度/コントラスト」がある。

画面解像度は4KであるとかフルHDであるとかの、画面上に並ぶ画素の数である。4Kディスプレイであれば3840×2160個、フルHDであれば1920×1080個の素子が並んで画像を表現している。1インチあたりの画素数がdpi(dots per inch)で、画面のきめ細やかさを表現する量になっている。ある程度以上きめ細やかになると画素同士が区別できなくなるはずで、たとえばAppleが謳っている「Retina*1ディスプレイ」は、想定視聴距離(スマホなら20cm、ノートPCなら40-50cm程度)から見たときに画素が区別できない、という定義になっている。画面解像度という点では、すでにリアルと変わらない体験が再現できる状況になっているのだ。フレームレートやビット深度についても同様、認知の限界に達していると言ってよい状況である。色域については今日多くのモニタがすべての色を表示できるわけではないものの、液晶におけるバックライトの進化や有機ELディスプレイの登場によって大きな改善がみられている。コントラストについてもHDR*2搭載の機器が増えるなど、肉眼で見たときと近い表現が進歩している。

このように、近年、映像については既に現実とほぼ変わらない像を作ることができるようになってきている。市販のVRバイスでは残念ながら画像自体がここまでの高精細なものはまだない(描画の計算コストも大きい)が、視覚のリアリティが現実と区別できなくなるのは時間の問題に過ぎないだろう。

ここで、VRゴーグルによって実現されている、両眼視差(左右で見える像の差)による立体視という現象について考えてみる。いったい我々は、肉眼でどれくらい「立体視」をしているのだろうか?

両眼視差がどの程度あるのか、簡単な実験をしてみよう。人差し指を顔のすぐ前に置いて、片目ずつ瞑って指の見え方がどう変わるか試してみる。指が顔に近いときは、目によって位置が大きく変わる(最大で眼球間の距離分)一方で、腕を前に伸ばして同じことを試すと、指の見え方はほとんど変わらなくなる。対象の距離が離れると左右の像がほぼ同じになるという単純な話である。対象物までの距離を測る場合、両眼視差が重要なのはせいぜい10m程度までといわれている。片目ずつ目を瞑ってものを見るとき、立体感に違いが感じられるのは、せいぜい1mの範囲内のものではないだろうか?

昔、NHK技術研究所で展示されていた8Kテレビについて書いた記事*3および記事中の動画を見て驚いたのが、2Dの8Kテレビで映される高精細な祭の動画が、立体的に見える(現地でもそうだし、その様子を撮影したビデオですらそう)現象である。記事中では「原因は謎」と書かれているが、この物体の3D感を演出している要素の中で考えられるのは、画像が高精細であることと、対象が動くことによる運動視差(運動によって見え方が変わること)だろう。数メートル以上離れたものの立体感の認知において、もはや左右の眼の視差はあまり重要ではない。巨大なオブジェクトが映像の中で動いていれば、その運動視差が立体感を生じるし、数十メートル離れて風景になってしまえば視差はないため画像が高精細でありさえすれば現実と区別がつかない。

最近、映画やCMなどの映像制作において「インカメラVFX」と呼ばれる新技術がたびたび使われるようになってきたが、これは巨大なディスプレイに背景(時間変化したり、カメラワークに応じて動いたりする)を表示し、その前で役者が演技するという「書き割り2.0」とでも呼ぶべきものである。 リアルで演劇の舞台を見て立体を感じても、それは必ずしも両目で見ているからというわけではない。両眼視差によって生み出される「立体感」はせいぜい1m程度の手の届く範囲のものであり、遠方のリアリティは2D的な画質のよさにほかならない。そういう意味で、両眼視差による立体視が効能をもつ空間は、眼球を中心とした1mの球体の中にあると言える。

聴覚刺激のリアリティ

聴覚刺激においてモニタの5要素に対応するのはサンプリング周波数とビット深度(どのくらいの周期で信号の強さを測定するか・信号の強さをどれくらいの階調で表現するか)だろうが、CDの規格(44.1kHz/16bit:1秒間に44100回測定し、65536階調で各測定時の強さを表現)より高音質になったところで耳で区別できる人は少ないだろうし、保存・再生の規格としては、かなり昔から音のリアリティは限界まで突き詰められていたといえる*4だろう。そういうわけで、立体音響の技術は音質の改善の文脈ではなく、「耳で聞こえる音に近い音にする」コンセプトに基づいて発達したものである。

耳で聞こえる音に近いとはどういうことだろうか。立体音響以前の録音は、通常のステレオマイクで行われていたが、これは耳の比喩で言えば、むきだしにした鼓膜をふたつ並べることに対応する。マイクによる録音と、人が音を認知するときの鼓膜の振動の性質を大きく隔てているのが、頭と耳の存在である。

人間が音がどこから聞こえているか判別する(音源定位という)要素としては、主に両耳間時差(interaural time difference: ITD)と、両耳間音圧差(interaural level difference: ILD)が重要だといわれている。簡単にいうと、前者は「左耳と右耳でどのくらい時間差があったか」、後者は「左耳と右耳でどれくらい音量差があったか」に対応する。

空気中の音速を340メートル毎秒、耳間距離を20センチメートルとすれば、真横から聞こえてきた音が両耳に入る両耳間時差は0.20[m] / 340[m/s] ≒ 0.0006秒となる*5。脳には音の位相差からこのミリ秒以下の差を検出する回路があると言われており*6、特に1.5kHz以下の音の領域(だいたい人の出せる声の範囲)において音源位置を特定する手がかりとして用いられている。「右耳と左耳が20cm程度離れていること」が単一のマイクでは得られない立体感を作り出す。

音量差は単純に音源に近いほうが音が大きいことに由来する音源定位である。音量自体が距離の逆二乗で減衰することに加え、「頭という障害物によって音が止まる」ことが大きな手がかりになっている。低い音であれば回折して頭の反対側まで伝わるのだが、1.5kHz以上の高音は波長が頭のサイズの20cmを下回って反対側の耳にあまり届かなくなり、左右に大きな音圧差が生じる。

このように、耳に対応するマイクがある程度離れていること・その間に障害物の頭があることが左右の音源定位への重要な意味を持っており、音がどこから聞こえているか判断する大きな手がかりになっている*7。さらに言えば、入ってくる角度によって耳の複雑な形が原因で音が変化すること(耳介効果)を用いて、よく聞く音との比較で音源の上下・前後の定位を行っているという話もあり、そういうわけで、バイノーラル録音は頭の形のマネキンにわざわざ耳をつけて録音するという珍奇な形式になっているのである*8

視覚と同様に、音源距離と音のリアリティについて考えてみると、距離による音の減衰は逆二乗ではたらくため、音源が近いことの影響が非常に大きいことがわかる。物体(見ているもの/音源)が移動する場合も、近い方が運動の角距離が大きくなるため、よりダイナミックに感じるはずだ。

1メートルの殻

ここまでの話は、近くにあるものほどステレオ感が強くはたらき、立体的に感じるということを、くどくどと理由づけしながら語ったものである。我々の認知のシステムは遠方よりも近くで動いているものをより立体的に感じるようにできており、両眼視差によるVRバイノーラル録音の立体音響が扱う題材もまた、ほとんどがカメラやマイクにほど近い、「より立体を感じられる」ものになっている。このような刺激はほとんど(仮想的に)身体から手の届く範囲に発生源があるので、この範囲を1メートルの殻と呼ぶことにしよう。

コンテンツ制作が、コンテンツが乗るメディアが得意とする(リアリティを発揮する)領域にフォーカスするのは自然な流れだろう。ここで、真のリアリティはわれわれの主観を再現する刺激なのは確かだが、主観性を強く感じさせる1メートルの殻の中の刺激(立体視や立体音響など、目や耳に近かったり、左右性が強いもの)が、必ずしもリアルの生活の中によくある刺激とは限らず、逆にしばしば不自然になっていることに注目したい。日常生活での私たちは、ASMR動画のようにわざわざ耳元でマッチ箱を振らないのである。

ここで、ひとつの仮説を提案する。

仮説:VRやASMRなど、リアリティが高いメディアのコンテンツは、メディアに特有の刺激性を高めるため、鑑賞者にごく近い領域(1メートルの殻)内で展開される。この傾向により、コンテンツは映画のような俯瞰の視点ではなく、不可避的に鑑賞者=主観の存在を前提とした「視聴者参加型」の性格を帯びるようになる。

主観化するコンテンツ

前節で、人に立体感をもよおす仮想的な刺激の発生源は、目や耳からせいぜい手の届く範囲、1メートルの殻の範囲内にあるのではないか、と書いた。今節では5つのトピックについて、上の仮説に基づいた、刺激と距離がもたらす主観感覚が鑑賞体験やコンテンツ制作に及ぼす影響を考える。

1. 3D映画

過去には何度も3D映画のブーム(?)が訪れては衰退を繰り返している。両眼視差による3D映画が普及しなかった理由としては、メガネをつける億劫さ、設備投資の必要性、コンテンツの不足……さまざまな要因が考えられているが、本質的な理由が何かと言えば、映画の主人公はあなたではないからだろう。

ほとんどの映画はPOV(主人公の一人称視点のこと)ではない*9。観客が感情移入する主人公たちはカメラのこちら側ではなく向こう、被写体の側にいる。主人公や主人公の視界にあるオブジェクトはどちらもカメラから1mの範囲内(視差による立体感が強く感じられる)にはなく、視点は被写体からある程度離れた引きの位置にある。リアリティの演出として両眼視差を使おうというのに、既存の映画撮影の距離感は両眼視差が立体感の主要因ではないという本末転倒な構造がある。

鳴り物入りで3D映画として作られたヒット作に2009年の「アバター」があるが、アバターはアップの多用、奥行きから手前への移動を伴うアクション、カメラや被写体の回転による運動視差などを駆使しており、3D映画というメディアにかなりアジャストして作られているように見える。これらは新しいメディアの過渡期特有の実験的な演出であると同時に、3D映画というメディアは、既存の映画とは異なる距離・カメラワークが求められるだろうことに自覚的であったことのあらわれのようにも思われる。

カメラが被写体に近いことは、主観的なリアリティを生み出すのと同時に、それが主観(私)ではない場合の「この視点は何なのか」の感覚を生じるおそれがある。主観に近い視覚刺激をもたらす視点は(黒澤明ではないが)カメラの意図とでも言うべきものに近く、うまく扱わなければ空中に理由もなく存在する気持ち悪さ、違和感になりうる。

逆に言えば、POVなどで視点に意味付けがなされるのであればこの気味の悪さは存在しない。一人称視点のVR映像として大きく花開き今なお発展を続けているのが、アダルトVR、そう、ポルノの市場である。

2. アダルトVR

VRゲームなど、3Dモデルをレンダリングして表示するような専用のゴーグルやGPU計算を必要とする敷居の高いVR(頭を動かすと視点の位置が変わる)と比べて、スマホにアタッチメントをつけるタイプの視点固定のVR映像コンテンツ(固定したステレオカメラで撮影されており、頭を平行移動しても像が変化しない)は廉価であり、2015年以後に流行し、今日でも人気作品ランキングに必ず数点は食い込むなど、一定の安定した地位を築いている。

両眼視差による立体視とポルノは非常に相性がよい。というのも、セックスはほぼ立体認知が最も強い領域、1mの殻の中で行われるからだ。VRのポルノに特徴的なのが、視点人物が行為者である、いわゆる「ハメ撮り」のケースが非常に多いことである。男性向けの作品では、基本的に男の頭に近い部分にカメラ(専用のもので、眼球と同じ距離離したレンズ、ダミーヘッドマイクのような耳つきマイク、女優を照らす照明で構成される)が置かれ、女優はさもカメラが男の頭であるかのように演技する。カメラは固定されており、したがって男が能動的に動くこともない。カメラが動くのは、体位が変更される際にフェード演出が入って視界が切り替わったときに再配置されている、という程度である。

アダルトAVにおけるカメラが固定されているのは、生理的制約によるものと考えられる。VR空間で「自分が動いていないのに視界が動く」と、視界は加速度を感じているのに身体は感じていない不整合が起き、激しい乗り物酔いのような症状を催すためである。3Dモデルを構築しているわけではなく「ある二点での見え方」を録画している映像であること(鑑賞者が能動的に視点移動することはできない)、酔わないようその二点も動かさずに撮影されること、当然、録画でありインタラクションができないことなどの理由により、基本的に「受け身」の作品が多いのもアダルトVRの大きな特徴だ。

珍しい例として、主観視点ではない二人がセックスする様子を透明人間の視点から見るVR作品があるが*10心理的には行為者と違って頭を自由に動かせるはずなためか、撮影場所の一点に視点を固定されることに強い窮屈さ感じた。いかに近いところにいるとはいえ、第三者の視点は1メートルの殻の境界ぎりぎりであり、刺激の立体感が希薄だったのも印象深い。

2019年のアダルトVRメーカーのインタビュー記事 に「特にお客様に喜ばれる演出がキスと囁き」とあるのは象徴的で、これはまさに、VRというメディア特有の高刺激が得られる至近距離、1メートルの殻の領域である。

3. ASMR

本誌「空耳」がテーマとしている音のリアリティであるが、これも本質的にポルノと相性がいい。繰り返すが、セックスは1mの殻の中で行われるからである。視覚と違うのは、聴覚は前後・上下の情報に乏しいことで、「左右どちらかに強く振られている」のが高刺激になることである。

左右どちらかに振られている音の極北が、ASMRで人気のジャンルの「耳舐め」や「ささやき」、「耳かき」音声だろう。耳の穴まで舌をいれて舐めまわすという体裁の「耳舐め」は同人音声作品ではさも当たり前のように行われているが、一般には少々特殊性癖と呼ばれる部類に属するものだろう*11

逆に、バイノーラル立体音響はフェラチオのリアリティを苦手としている。ペニスが身体の中央にありかつ耳から少し離れているために、ステレオが振られていることに由来する高刺激が期待できないからである。

この問題に自覚的な作品に、ベレス解部「バイノーラルの妹とバイノーラルじゃない妹に左右からオナサポしてもらう音声」がある。この作品は、バイノーラル録音された妹に左から、ただのステレオ録音の妹に右から責められるという設定で、双子がエロさを競うのだが、途中に「ダミーヘッドマイクで録音したオナホでしごく本当の音よりも、音声を加工して作り出したヌチョヌチョとした不自然な音のほうがエロい」という展開がある。そのメディアが得意としない(立体音響録音が高刺激である領域は左右性にあり、身体の中央にあるペニスエロさを取り出すのが難しい)要素を補完するまったく別のアプローチをとるのは優れたアイデアと言えるだろう。

ペニスが中央にあるのが高刺激性と両立しない、という課題から導き出され得るもうひとつの解法は、奇妙な話であるが、中央のペニスを左右のどちらかに持ってきてしまうことである。サークル「おほおほ庵」の作品には(ペニスではないが)左右の睾丸を右耳と左耳に対応させ、耳舐めを玉舐めとして扱うというという革新的な手法が使われているものが存在する。作中には「おもしろい位置にキンタマついてる」とのセリフがあり、どうなっているのかは謎である(公式サイトの漫画イラストでも見切れている男の耳付近のモザイクのかかった謎の物体を舐めている)が、「玉舐め」を行っているという性的な興奮をもたらすストーリーテリングと、(現実の身体とは対応しないが音源定位できる)立体感のあるステレオのきいた音が両立(?)している。

市場全体の傾向として極度に左右のどちらかに振られた音が好まれること、またそのような高刺激を志向するあまりにときには身体地図まで書き換えられてしまうことを考えると、ASMRにおける1メートルの殻、超正常刺激の傾向が見えてくる。

4. アニメ「180秒で君の耳を幸せにできるか?」

「180秒で君の耳を幸せにできるか?」は、2021年10月から12月にかけて放送された、ASMRを題材にした5分アニメ作品である(同名でDLSite上に音声作品のシリーズも展開されている)。ASMR沼にハマった幼馴染の少年の気をひくためにダミーヘッドマイク・KU100を手にいれたヒロイン・ゲッコーちゃんが、いろいろ試しているうちにASMRの魅力に気付き……といった流れの作品なのだが、作中に幼馴染本人が登場するこoとはなく、常にダミーヘッドマイクに相対するヒロインという構図がとられる。

ASMRをテーマにしたこの作品ASMRをテーマにしたこの作品の特徴はもちろん、全編がバイノーラル録音で収録されていることである。マイクの位置はアニメ作中に登場するダミーヘッドマイクと同期が行われている(作中のKU100の右耳に息を吹きかけられたら、視聴者の右耳でそれが再生される)。

「180秒で〜」は、ここまで議論してきた主観性の観点において、かなり不思議な違和感のあるつくりになっている。というのも、カメラワーク(視点)はいろいろな角度からダミーヘッドマイクやキャラクターを描写するのに、音を聞いている位置・角度(聴点と呼ぶことにする)は常にそのダミーヘッドマイクのものなのである!

どういうことだろうか。たとえば、左にダミーヘッドマイク、右にゲッコーちゃんが正対して座っている状況を考えてみよう。一般的なアニメでは、この配置のとき、ゲッコーちゃんのしゃべった声は右にウェイトがかかったステレオで再生されるはずである(カメラワークの右側に配置されているため)。ところが「180秒で〜」では正面から聞こえる(ゲッコーちゃんはダミーヘッドマイクの正面にいるため)。この視界と音界の不一致が、奇妙な違和感となって訪れるのである。 ゲッコーちゃん視点で耳かきをするこのカットで左の耳からガサゴソ音がすると認知の不協和が生じる。作品中には耳かき時に「耳の奥から耳かきを見る」異常なカットもあった

「180秒で〜」における主観性の奇妙さはこれだけではない。ヒロインたちはヘッドホンを着用しており、ダミーヘッドマイクが聴いた音のループバックを聴きながらマイクへ働きかけているのである。ダミーヘッドマイクの右耳に息を吹きかけたヒロインはループバックで右耳に返ってきた自分の吐息を聞いて「ひゃっ」と言う。ダミーヘッドマイク・ヒロイン・視聴者の三つのレイヤにそれぞれ視点と聴点があり、ループバックなどで複雑に絡み合いながらも一致しないのが主観性の違和感の源泉なのだろう*12

アニメ放送という形でバイノーラル音声が流れることには(Vtuberの ASMR配信などにも共通するが)、本来は「その場所にいる個人」にしか体験できないはずの感覚刺激が、複製・共有されることで偏在化するようになることも意識させられる。

5. Project LUX

われわれがVR作品でどうしても主観性を持ってしまうことと、とはいえ我々は作中の視点の人物そのものではないこと、この二つの微妙なズレの構造を演出に昇華した作品として、VRゲームの黎明期に作られたVR映像作品、「Project LUX」も論じておきたい。

Project LUX は、〈狼と香辛料〉の作家、支倉凍砂をライターとして、インディーゲームサークル「Spicy Tails」がVRアニメとして発表したSF作品である。海辺の家にひとりで住んでいる少女のもとに、全身義体の男がある依頼をもってやってくる——ところからはじまる、プレイ時間およそ90分の(少しだけインタラクションがある)VR映像になっている。

Project LUX は次の導入からはじまる。

これより陪審員の皆様に、被告の記憶を追体験していただきます。 被告は事件当時、リモート義体に全感覚をリンクさせて行動していたため、その時の記憶データが証拠として提出されています。 なお、過度の記憶への没入を防ぐため、いくつかの感覚記憶は再現されませんが、十分に被告の当時の様子を追体験できるでしょう。 その上で、被告への評決を下してください。 ——被告の罪状。 殺人。

「殺人容疑の被告人はサイボーグで、事件当時に見ていたものはすべて録画・録音されている。プレイヤーは陪審員として被告の有罪・無罪を判定するために、その記録を閲覧(追体験)する」という設定である。この設定はVRと非常に親和性が高く、VRヘッドセットとイヤホンによって視覚・聴覚が本当に「再現される」ので、「被告の行動を追体験している」きれいな対応関係がとれる。

物語の終盤、少女が被疑者の「男」の義体に触れるシーンがあり、以下のようなやりとりがある。

少女:あなたの記憶を追体験する誰かが、今のこの感覚を再現したら、ちょっと嫌だな。
少女:うわこいつ胸ちっせえ、とか抱き心地から思われてたらすごい嫌。
男:……この記憶を再現するとしたら。きっと現場検証か、私の処分を決める際の証拠として記憶を追体験するでしょう。ならば、視覚と聴覚だけだと思います。

続いて、物語の終盤でも「実は、視覚・聴覚の追体験で調査する人にわからない方法(触覚)での情報伝達していた(後からくるであろう調査員(陪審員)を欺くため少女と「男」が動いていた)」というトリックが用いられる。

要するに、これはプレイヤーと作中の「男」の癒着を引きはがす意地の悪い構図である。この手の手法は映像的にも一人称で物語が進行するノベルゲームのジャンルで多く試みられてきた歴史があり、Project LUXもその系譜上にあると考えられるが、VRで主観的な感覚刺激のリアリティが極まってきている中で、「しかし、それはお前ではない」のを演出に用いるのは、VR史におけるひとつの大きな達成であるように思う。

リアリティの現在と未来

ここまで、われわれの日常の感覚刺激に近い刺激を与えることができる「リアル」なメディア——VRバイノーラル録音は、リアリティーを高めるために「1メートルの殻」の中でコンテンツを展開するようになる(そういう作中がユーザーに好まれる)のではないか、そうしたコンテンツは既存の映画(俯瞰視点に近い)よりもどうしても主観性を帯びて「その作品を見ている自分」を意識せざるを得ないものになってきているのではないか、という仮説について、例をあげて解説した。

リアリティーを追求すること、そこにいるかのような感覚刺激を突き詰めるとはどういうことか。それは現実を再現することに他ならず、主観性を帯びていくのは自然な流れかもしれない。おそらく、未来のコンテンツは現在以上に、「その作品を見ている「わたし」」とは何かの意味づけを行う(鑑賞行為にスタンスを与えるか、主体としてコンテンツに介入可能にするか)と思われる。

今後、この主観性が大きな変化をもたらしそうな要素としては、インタラクティブ性(見ている人の行動がコンテンツに影響を与える要素)や体験の同時性(現実界では一人しか体験できないはずの感覚刺激を、大量の人が同時に体験できること)などについてはまだ未開拓な部分が多く、これから大きな発展の余地があると感じている。

そのとき、既存の俯瞰的なメディアはどうなっていくのだろうか? 現実との違いはどういう点に見出されるのだろうか?

新しいメディアの過渡期には自然と「180秒で〜」や「Project LUX」のような、メディアの特質に着目した不思議な作品が現れるものである。今後もそうしたコンテンツの誕生を目撃し、語り、新しい可能性を模索していきたい。

もう一度

サークル「空耳製作委員会」より、2023年12月31日(日)に開催されるコミックマーケット(C103)東地区 ヒ-08b にて、「奇想同人音声評論誌 空耳2 準備号」を頒布予定です!

*1:Retinaは網膜を意味する単語であり、肉眼で区別できないディスプレイの命名としておもしろい。

*2:規格としてのHDR(ハイ・ダイナミック・レンジ)は、単純に画面の明るさの階調表現の深度を増やすもので、コントラスト比の高いディスプレイで表示することでその効力を実感できる。一方、iPhoneのカメラなどに搭載されているのは「HDR合成」技術であり、素子やディスプレイに保存・表示できる明るさの範囲内で、人間の認知できる明るさの幅(ずっと大きい)での見え方に近くなるよう画像を表現するための画像合成技術である。後者の画像が前者の説明のイメージ画像として使われることが多く、両者の混同が非常に多い。HDR合成では、明るいところに合わせた露出での画像と暗いところに合わせた露出の画像を合成し、白飛び・黒飛びしていない人間の視覚に近い画像が得ることができる一方、映像表現としての白飛びや黒飛びへの影響も危惧されている。

*3:https://www.1101.com/news/2013-05-29.html

*4:DLsiteで販売されている音声作品は高音質・可逆圧縮ハイレゾ志向が強く、数ギガバイトの巨大なファイルになっていることが多い。軽量版のmp3が同梱されていることもあるが、基本的に巨大なので筆者はダウンロードするのがめんどくさく、DLsite上のストリーミングで聞いていることが多い。また、 近年、ハイレゾ音源と呼ばれる、高サンプリングレート・高ビット深度(詳述しないが、ビット深度としてはバイナリであるDSDという異なる保存方式も用いられている)の高音質音源・再生機器がトレンドになっているが、高級オーディオの常で、人の耳で差を聞き分けられるかどうかには疑わしさがある。

*5:厳密には音の伝播についてもろもろ考える必要があるが、だいたいこんな感じの桁の数字になる。

*6:Jeffressモデルが有名。現象を説明する神経回路モデルの常で、人の耳に本当にそれがあるのか・それが支配的なのかはよくわかっていない。

*7:ステレオマイクによる録音は耳のように20cm程度離したマイクを平行にならべるAB方式のほか、より耳に近づけるため平行ではなく角度を開いて録音するORTF・NOS方式、マイクを離さずある点での方向性の違いを録音するXY方式、単指向性マイクと双指向性マイクを組み合わせ、極性反転によってステレオ感を出すMS方式などが用いられているらしい。MS方式は謎、XY方式は音圧差のみ、AB・ORTF・NOSは位相差と音圧差の両方によって音の奥行きが与えられる原理となっている。が、多くの商業音楽の録音では楽器ごとにモノラルマイクで録音したマルチマイク音源をミックスし、編集で左右に振ることで作られているらしい。

*8:総合的に、身体の存在によって場の音がどのように聴取されるかは、頭部伝達関数というモデルで説明される。ダミーヘッドマイクは頭部伝達関数をよく再現する録音方法である。

*9:一人称視点の映像をさしてPOVと呼ぶならわしがあるが、POVはPoint of Viewの略であり、本来は一人称を意味しない。

*10:【1万字インタビュー】SODが語った、アダルトVRのイマ 根強く人気が続く理由https://www.moguravr.com/sod-vr-4/ 通常のアダルトビデオとは違った演技のうまさ(VRカメラによって撮影されるリアリティ)が評価される、という話もおもしろい。記事中にはプールの中で見た映像を追体験できるヒット作品「プールの時間VR」も紹介されている。類例としては(記事には載っていないが)側溝の中からの覗きを擬似体験できる「側溝VR」も有名。のぞき部屋のガラス越しに卑猥なポーズをとる女を見る作品などもあり、ポルノVR映像のインタラクティブ性のなさ、実像との遠さを考えさせる批評性がある。

*11:耳の至近距離で何かの音を鳴らすバリエーションのひとつとして、「炭酸耳かき」というエポックメイキングな架空の耳かき法が発明されている。炭酸耳かき音声ではシュワシュワパチパチと音のなる棒を耳に入れられ、リラックスした気持ちになれるというものだが、そんな棒はない。

*12:一人称視点のアニメといえば、「One Room」や「セラフィムコール」の伝説の奇想回「マーガリン危機一髪」を思い出す。

想像力と嘘の月:アーカイブされた世界の時代

ギャラクシーのカメラで月を撮影すると現実よりも綺麗に写るらしい。

スペースズーム

以下の記事で、「ぼやかした月の画像をモニターに表示し、ギャラクシーのスマホで撮影すると、ぼやかしたはずなのに鮮明な月が撮影されてしまう」という実験が報告されている。これが Fake-Moon Shotだとして炎上したようである。

gigazine.net

「スペースズーム」と名づけられたこの機能は、デジタルズームの一種である。光学ズーム(レンズを動かして撮像素子に写るものを光学的に拡大する)と違って、デジタルズームは基本、単に「画像を部分拡大する」機能である*1。画像を拡大するだけなので、粗くなることはあっても基本的に精細さが向上することはない。

では、なぜギャラクシーのカメラではデジタルズームなのに画像が綺麗になるのかというと、画素の粗い画像をきれいにする超解像(Super-Resolution)技術が用いられているからである。超解像には「粗くした画像を元画像に復元する」学習をした機械学習モデルが用いられる。部分拡大して粗くなった画像を入力すれば、本来存在しないはずの「きれいな元画像」が推論され、出力される。入力が粗い月の画像ならきれいな月が「復元」されるというわけだ*2

ここで注意したいのは、粗い画像は精細な画像と比べて、情報が失われているということだ。「ぬ」か「め」かがつぶれて判別できない看板の画像や、つぶれてしまった鳥の目や羽毛の彩色パターンを超解像で復元するのは、世界を撮影した大量の写真データをもとに、失われた情報を無理やり想像で補完して「一番ありえそうな元画像」に仕立て上げる操作である。ゆえに、被写体に存在していた「ぬ」と「め」の誤植を前後の文脈から「修正」しうるし、モデルによっては被写体とは異なる新種の鳥を「復元」しうる。近頃、これによる存在しない鳥がインターネットにあらわれて鳥クラスタで騒ぎになっていたようだ。


スペースズームはこれまでの人類が撮影してきた月の画像に基づき、どうやら月らしいと認識した物体をより月らしく「復元」する。

では、月に新たに隕石が衝突して、クレーターがひとつ増えたらどうなるだろうか? 超解像モデルの学習後に表面の模様が変わってしまった場合、その情報で更新されていない超解像モデルは、「衝突前の月」を復元してしまうはずである。目の前の月を撮っているつもりで、そこに写っているのは人類がこれまでに撮ってきたアーカイブ上の月である。

デジタルネイチャー

現代の魔法使い(?)こと落合陽一が提唱する概念に「計算機自然/デジタルネイチャー」がある。氏の研究室の説明によれば

コンピュータと非コンピュータリソースが親和することで再構築される新たな自然環境であり,人・モノ・自然・計算機・データが接続され脱構築された新しい自然

とのことである。要はコンピュータ上の物理シミュレーションと現実が容易に相互作用する世界観のようである。

氏はいわゆる機械学習そのものの研究者ではなく、それを活用するメディアアーティスト・実務家的な立ち位置の人物*3印象がある。計算機自然/デジタルネイチャーについても、コンセプトとしては提示しているものの具体的に何がどう対応するかまでは落とし込まれていない、ふんわりしたものだったように思う。そんな氏が、計算機自然の具体的実践の足がかりとして初めて、最近arxivで公開したのがこの論文*4である。

arxiv.org

論文の内容は「抽象言語オブジェクト」という中間言語を用いることで自然言語(われわれの日常言語)と計算機言語(プログラミング言語)を橋渡しする、という内容である。
デジタルネイチャーの観点からいえば、「自然-自然を説明する言語-抽象言語オブジェクト-計算機言語-計算機シミュレーション」で接続されるといったところだろうか?

抽象言語オブジェクト

たとえば抽象言語オブジェクト「猫」は次のような量を潜在的にもつよう定義される:

mainObject: 猫
- subObject: 見た目
  - knowledge(色)
  - knowledge(目の色)
  - knowledge(毛足の長さ)
  - ...
- subObject: 行動
  - ...
- subObject: 血統
  - ...

つまり、オブジェクト・猫は「見た目」という属性を持ち、その見た目は「色、目の色、毛足の長さ」などの情報をもつ。他に行動や血統、健康状態などの他の属性があり、これらに現在の具体的な値(黒猫で、瞳は金、毛足は短く、こちらを威嚇している。右目を怪我している)などが代入される。ここで、これらのオブジェクトは逐次的に条件を追加することでLLM上でそういうものとして定義・記憶されるものであって、しっかりとしたプログラムのクラスのようなものではないようである。
これが氏の提唱する、現実世界の猫の映し絵たる Abstruct Language Objects, ALOs/抽象言語オブジェクトである。

では、ALOsをどう使うのか。オブジェクト・猫*5のようなオブジェクトを複数用意してみよう。3D世界、ルンバ、猫という三つのオブジェクトを定義する。3D世界は広さという値をもつだろうし、3D世界内に配置されたオブジェクトとして猫やルンバを定義すれば、かれらは位置という情報をもつだろう。まずはALOsという形でオブジェクトが自然に相互作用しやすいように、ただ状態を列挙したものとして言語的に説明可能な世界を構築する。

中間言語的なオブジェクトは階層的かつ(ある程度)網羅的に属性や可能なアクションが定義されている。これらを3D空間上でのCGシミュレーション*6で彼らを動かす関数に変換してください、とGPT-4にお願いすれば、javascriptのオブジェクトになったALOsが言語的に自然に相互作用するわけである。論文中では言語的にALOsでかれらを定義しただけで、猫がルンバの上に乗ったりじゃれついたりしたケースが述べられている*7。ALO上の属性情報を展開して画像生成AIに入力することで、言語シミュレーションを画像化できる、という事例も挙げられている。

なぜこのようなことができるのか。

LLM(言語モデル)は人類が作った膨大なテキスト群から「次にどの文字が来るのが一番自然か」を予測するモデルであり、最もいかにもありそうな物語の続きを紡ぐ装置である。適当に属性を定義させた抽象言語オブジェクトをつくり、オブジェクト間の相互作用の関数を生成する行為は、「こういう物体とこういう物体があったら、どういうインタラクションをすると思いますか?というブレストをするのに近い。猫はルンバに乗る、という物語は人間にとって紡ぎやすい物語なので、LLMもそのような展開をおこす相互作用を作るのである。

言い方を変えれば、LLMは人間の想像力の範囲内で動く。平均的な人間の想像ではなさそうなこと━━猫の右手がロボット義手になっていてルンバをロボットパンチしたり、ルンバが巣を作って卵を産むようなことは起こらない。

ALOsによる言語シミュレーションは嘘の月である。月に起こった新しいイベントをギャラクシーのカメラが捉えきれないのと同じように、ALOsの言語シミュレーションは自然界で未発見の現象を記述することはなく、「今までの人間が考えてきた・そうなるだろう世界」以上のものにはなり得ない*8*9

言語モデルを用いて中間言語を生成し、自然っぽい挙動をさせる、というアイデアは単純ではあるが一定の面白さがあるように思う。が、自然科学的な意味では、この新規性がなく、言語化できるものに限られた世界を「nature」と呼ぶには強い抵抗がある*10

しかし、嘘の月と同様に、一見したところ人間の想像通りの「きれいな」世界を作る方法としては、便利な発明であると言えるかもしれない。

嘘の月は本当にきれいです!

嘘の月はなぜ燃えたのか?

「写真は真実を写すべきである」信念の人が怒ったからだろう。しかし、これだけスマホの写真フィルター・加工アプリが流行っているいま、被写体と写真が似ていることにどれくらい意味があるだろう? きれいな月の写真の方がいっぱいいいねがつくのではないか? ちゃんとした記録写真はでかい天文台で仕事をしているオタクの天文学者に任せればいいのではないか?

同様に、たとえばVRで自然を再現したいのであれば、一般的な人間が想像しうる程度に真似できていれば十分ではないか? 言語シミュレーション由来のルンバと猫が踊っていればエンターテイメントとして100点で、デジタルネイチャーで新たな自然現象が発見される必要はない*11

━━というような考え方も可能である。「記録写真」と「思い出の写真」、「実際の世界」と「人間が想像する世界」は違い、どちらを求めるかは目的に応じて変わる。

残念ながら、本物よりも嘘の月の方がきれいなので、これからの日常の世界は、だんだんと後者のような、想像通りで、美しく変わることのない、どこかにアーカイブされた世界になっていくような気がする。

*1:厳密には視野に応じてフォーカスや露光が調整されるが、だいたいこの理解でよい

*2:Galaxy の「スペースズーム」は「偽造」なのか? - Deep Sky Memories このような反論もあるが、月を物体認識しているし、まあ普通にSuper-Resolutionしてそう……と思った。が、公式も声明を出しているし、実装の真相は不明である。

*3:彼の論文は主に光や音、物体によるインターフェースの研究であり、メディアでよく言及されている技術的特異点機械学習とは異なる

*4:プレプリント

*5:猫の可能な動きについては、上位のALOsであるmanagerObj(cat)が管理するようである

*6:Three.js

*7:他、教室において授業が行われる言語シミュレーション、スマートフォンwi-fiとprinterが相互作用する言語シミュレーションが挙げられている。wi-fiのモデルであるprompt 6 は prompt 4 をコピペミスしているっぽく、prompt上に謎のteacherやclassroomが登場している

*8:discussionにおいて、ALOsのこの問題(世界と言語シミュレーションのズレ)は単にドメイン知識の問題として認識されている。が、LLMを使う以上人間の想像力による強いバイアスがかかっていることは重視すべきだと思う。

*9:この考え方はALO=事態とみれば、人間が言語化できないものに対する取り扱いまで含めて、前期ウィトゲンシュタインの言語論的な世界観に近しいと思う

*10:逆に、言語シミュレーションと世界の差異から現状の言語化が取りこぼしたものを検出し、新しく名づける操作は面白いかもしれない

*11:もちろん、人間が想像可能なことの中に、まだ人間が想像していないことは存在するはずで、そういう意味での新規性は否定されない。