2025-03-16

「20分でわかるエマ・リーランド」と切り抜きの魔法

映画構造アニメ

実在しない切り抜き映画の考察

2025年2月24日の夜、渋谷ユーロスペースの上映イベントで映画「20分でわかるエマ・リーランド」を観た。大変面白かった。しいて分類するなら短編アニメ映画……になるのだろうか？　映画はほぼ全編、Live2Dで動くVTuberの生配信動画を編集して字幕をつけたもの━━つまり、VTuberの切り抜き動画である。

20分でわかるエマ・リーランド

「20分でわかるエマ・リーランド」は、西暦1320年ごろにイギリスで活動をはじめたニンゲンVTuber、エマ・リーランドによる、700年以上にわたる配信の歴史を20分に切り抜いた（フェイク）ドキュメンタリー映画である。

youtu.be www.youtube.com 予告

kirinuki.booth.pm BDが販売されているので買って観てください。

「(実在しない)切り抜きチャンネル」とは何か？

「20分でわかるエマ・リーランド」は、YouTubeチャンネル「(実在しない)切り抜きチャンネル*1」の劇場版である。

(実在しない)切り抜きチャンネルとは何かというと、これが少々ややこしい。普段はVTuberの切り抜き動画を公開しているチャンネルなのだが、チャンネル名で謳っているように、切り抜き元の動画も、切り抜かれているVTuberも現実には存在しない。このチャンネルにある切り抜き動画は、アニメーション作家・沼田友による切り抜き動画の体裁をとった、架空のVTuberを主人公としたオリジナル映像作品である。ぼくは監督が文学フリマに出展していたのをきっかけにチャンネルの存在を知ったのだが、ここでさらにややこしいことに、(実在しない)切り抜きチャンネルは、即売会では「(実在しない)切り抜き動画の切り抜き前の音声素材」のCDを販売している。

どの動画も配信の切り抜きのフォーマットで、時間もの・パラレルワールドもの・ファンタジー・ホラーなど、現実のVTuberではとても起こり得ないような奇想的なしかけを試みている。

youtu.be 海老名あるくの凸待ち配信中に「未来の自分」が凸してきて……という作品。

youtu.be ゲーム配信中に大きな地震が発生した瞬間、豪徳寺にゃにゃの雰囲気が一変し……という作品。

そんな(実在しない)切り抜きチャンネルが、文化庁メディア芸術クリエイター育成支援事業に採択されて製作したのが、「20分でわかるエマ・リーランド」である。

上映イベント

上映イベントは、前半部が

(実在しない)切り抜きチャンネルのセレクション（+新作）の上映
沼田監督と「(実在しない)切り抜きチャンネル」演者VTuberのトーク

で、休憩を挟んで後半部が

20分でわかるエマ・リーランド
沼田監督、やみえん、エマ・リーランドのトーク
あいさつ

の構成で行われた。イベントが機材トラブルでなかなかはじまらなかったので、実はこのイベントも実在しないのでは……？と少し不安もあったが、本編がはじまると後は特にトラブルもなく、大変楽しめた。

上映イベントは演者VTuberのトークゾーンと最後のあいさつの瞬間を除き、700年間活動しているVTuber・エマが実在しているメタレベルで進行した*2。特に前半のはじめのはじめに流された動画が、映画の起源ともいわれるマイブリッジの「動く馬」モチーフのものだったのには、これから気合の入った虚構の世界が展開されるぞ……！とワクワクさせられた。

映画本編については後述する。映画本編のあとのトークゾーンでは生配信でイギリスのエマ・リーランド本人と中継がつながり（映画と同じメタレベルなので監督は「切り抜いた人」扱いである）、監督とやみえん、エマによる制作秘話や妖精の伝承、歴史の話が展開された。エマが監督に対して「本当はもっと日常的な配信が多いのに、感動的に見える部分だけ切り取っていて偏向報道だ！」という旨のクレームを言うのはセルフでドキュメンタリー批判をやっている感じで面白かった。また、エマがやみえんの黒歴史 *3を暴く、という形式で「ずっとニンゲンを見てきた隣人（グッドフェロー）がそこにいる」という映画のテーマを生で実演していたのもよかった。

切り抜きの魔法

そのメディアであることに自覚的な作品は、そのメディアの特性を浮き彫りにする。特にこの性質が顕著なのは、メディアの黎明期の実験的な作品や、メタフィクション、モキュメンタリーといったジャンルである。では、(実在しない)切り抜きチャンネルによって浮き彫りにされる、「VTuberの配信切り抜き動画」の特性とは何か？

「架空のVTuberの」「配信の」「切り抜き動画」であるという三点について、それぞれの特性を検討してみよう。

VTuberのレイヤーは背景の現実を曖昧化する

架空のVTuberを用いることによって浮き彫りになるのは、VTuberは一般に人間を虚構の存在にするが、その虚構のレイヤーによって「その先が虚構か現実か」を曖昧にし、無意味化する作用がある、ということだ。卑近な言い方だと「中の人などいない」というやつである。

映像としての虚構のレイヤを一枚かぶせることでその先を想像しにくくする／想像の余地を残す点では、アニメもそうだといえるが、キャラクター性にまつわる状況を加速させたのがFaceRigやモーションキャプチャといった、演者の感情をリアルタイムにキャラクターへと反映させる技術の発展だろう。

以前、3Dモデルをステージ上に投影するタイプのアイドルマスターのMRライブに行ったときに感じたのが、それまではシナリオとして収録された音声を話すのみだったゲームのキャラクターが「モーションキャプチャと声でリアルタイムに反応する」だけでこんなにも生き生きとして見えるのかという驚きだった。動きと声の対話的応答によって（演者によるアドリブ性は強まっているはずなのにかかわらず）背景の演者の存在は意識から離れ、キャラクターとしての実在性が高まってしまう。この現象は、動きと声の対話的応答こそが本コンテンツであるVTuber（の配信）により顕著と言えるだろう*4。

現実世界における妖精を説得力のある映像的で描写することは困難である。ここで、VTuberというレイヤの存在は、「中の妖精」を直接描写することを回避しながら生き生きとした妖精を描くことを可能にする。「直接描写しない」ことは、ある意味で最もリアルな妖精の描写の方法と言えるだろう。

配信画面は観客との対話を内蔵した一人称視点の語りである

配信というフォーマットは、演者が観客に一人称視点で語りかけるメディアの形式である。配信画面と語り口の似たメディアとしては、一人称視点の一人コントや音声作品の形式が近いだろうか。

お笑い芸人のルシファー吉岡は、一人コントの強みとは「周りが見えないこと」であり、見えないことによって二人コントや三人コントよりも客に想像させる自由度が大きい利点があるという*5。

www.youtube.com

この動画では、「自分がお父さんで、息子が自分にどうしても聞きたいことがある」設定のコントで、息子の質問が「お父さんってオネエなの？」だとしたとき、この（発声されない）息子の声を父のセリフでどう説明するかが重要で、「え？お父さんがオネエだって？」とオウム返しするのは筋が悪く「うん、うん、うん、うん、なるほど　あの～、質問を質問で返すようで悪いけどさ、なんでお父さんのことをオネエと思ったんだい？」のほうがウケるという例で、セリフによって周囲の空間を想像させることや、会話の流れの自然さの重要性について言及している。*6

一人コントや音声作品と違って、配信画面というメディアは視聴者コメントの中から気になるものを拾って読み上げることがあるので、形式的にはオウム返し的な「コメント読み上げ」に不自然さがないのは面白い違いだろう。また、配信画面は「選ばれた視聴者のコメントを配信者が代読する」フォーマットで対話を進めるため、我々は「コメントをしていない／読み上げられなかった視聴者」の気持ちで（時間を超えて）そこにいるかのような空気で配信を聞くことができるのである。上述のVTuberというレイヤが「妖精を描かないことによってリアルに妖精を描写している」とすれば、こちらの架空の配信画面は「観客を描かないことによってリアルに観客を描写している」と言えそうである。

切り抜きとは編集による価値の創造である

本題、切り抜きとは何だろうか？

ぼくはこのメインビジュアルが好きだ。手前から奥に向かって、森、古城、田園、煙突のたくさんある工場地帯、高層ビルという順に並べた景色は、エマという妖精の700年の（時間軸上の）活動を空間的に配置したものと解釈でき、歴史を俯瞰する構成になっている。

長大な時間の出来事をダイジェスト化して俯瞰できるようにする切り抜きの営みは歴史と呼ばれる。歴史の語りはダイジェスト化される前の長大な実時間を想像させるが、今作は歴史と同じ「700年を20分に切り抜いた」体裁を用いることで、切り抜かれなかった部分である（実在しない）原典の長大さを感じさせる*7。

切り抜きの魔法

まとめると、この映画は

（VTuberのレイヤーによって）配信者の妖精を直接描かない
（コメント読み上げによって）視聴者の人間を直接描かない
（切り抜きによって）配信の歴史そのものを直接描かない

という三重の間接性によって、実在の形式をとりながら想像の余地を最大限に広げることで、逆説的にエマ・リーランドに実在を与えることに成功しているように思う。

（ここから作品の解題）

「20分でわかるエマ・リーランド」はVTuberの配信画面なのか？

(実在しない)切り抜きチャンネルの動画は、多くが「導入部は普通の切り抜き動画に見えるが、見ているうちにだんだんと異質性がわかってくる」演出で構成されている。

　と考えると、この映画は外観の時点ですでに虚構のレベルが高い、セオリーから外れた建て付けであるとも言える。（常識の想像力では）700年前にYoutubeはないし、700年活動し続けている不死の配信者もいないわけで、「700年活動しているVTuberの切り抜きまとめ」は設定の時点で異質そのものに思える*8。しかし、本当にそうなのだろうか？

映画は暗闇のなか、次のセリフから始まる：

ハロー、私の声が聞こえるんだろ？　お気の毒さま　お前もそっち側の人間ってことだな？
嘘つき、怠け者、お人好し、夢想家
変わり者、見栄っ張り、悲しみに耐えきれない弱っちいやつ…
そういう人間じゃないと　私の声は聞こえないはずなんだ
ほら、私を見てみろよ
どんな姿だと思う？
（ここではじめてエマ・リーランドの立ち絵が表示される）

エマ・リーランドの声を聞くこと（＝生配信の視聴≒映画の鑑賞）の適格条件を「嘘つき、怠け者、お人好し、夢想家、変わり者、見栄っ張り、悲しみに耐えきれない弱っちいやつ…」、つまり現実におけるはみ出し者であることとして定義し、「どんな姿だと思う？」という問いをトリガーにして映画の本編であるVTuberの配信画面を表示する。この構成は、配信画面こそが「妖精のささやき」であることを暗示する。

この配信画面（映画）は妖精のささやきを現代の我々が聞くときの観念的な形式であるという導入を汲むと、そもそも14世紀〜のイギリスという設定なのに中英語ではなく日本語で話しているという飛躍も、700年前にYoutubeはないというツッコミも棄却される。実は、この映画はエマ・リーランドという妖精がいるという前提（ここが一番大きいのだが）を置くだけでよいようにエクスキューズされているのである。ある意味でこれはVTuberの配信画面であり、ある意味でこれは「そういう形で認知しているだけ」という理屈である。

エマ・リーランドの配信

エマ・リーランドの配信（妖精のささやき）は、ほぼ現代のVTuber配信に則った形式で行われる。tale/雑談配信、musike/音楽、study/勉強、inn/飲み、morning/朝枠、play/ゲーム配信（バックギャモンやナイン・メンズ・モリス、チェスなど）、newe garnement/新衣装お披露目などは初期から行われているのに加えて、スパチャのような形で牛乳がプレゼントされるし、メディアが発達した後半はfan talk/ファンとの通話企画、ジャックザリッパーの正体の考察配信、appreciate fan arts/ファンアート鑑賞、radio hear along/ラジオ同時視聴、モンティ・パイソンや女王の戴冠式、結婚式を見るwatch along/テレビ同時視聴など……

これらの配信が行われるうちに、エマの背景の「庭」には謎のタペストリーや肖像画、お墓の落書き、ゲーム盤、盾、ティーセット、黒板など、過去の配信にまつわるのであろう、思い出のアイテムが増えていく。庭に置かれる数々のアイテムは映画では特に経緯が語られることなくいつのまにか増えていて、切り抜かれなかった部分（＝本チャンネルの配信）の存在を強烈に暗示する。

中でも印象的なアイテムは、妖精パックをあしらった木製の青い盾飾りだろう。エマが「他の妖精が姿を消すなか、なぜ私だけが生かされているのか？」を自問自答するシーンで、なぜかこの盾が動くのである。VTuberの配信においては、配信ソフトウェア上に配置したオブジェクトが勝手に動くことは考えられない。では、なぜ盾は動くのか？

なぜ盾は動くのか？

言うまでもなく、チャンネル登録者数が10万人に達すると銀の盾、100万人に到達すると金の盾が贈られるように、盾とはYouTubeの象徴であり、また視聴者がいることの象徴である。

また、青い盾飾りはテート・ブリテン美術館にある妖精パックの彫像の構図をもとにデザインしたもののようだ（エンディングでオフィーリアの絵とともにこの像が映っている）。

www.tate.org.uk

テートの解説によると、この彫像はThomas Woolnerによるもので、妖精パックが腹ペコなヘビから寝ているカエルを助けようとしているシーンで、パックの”想像上の伝記”の一場面として作られたという。

（先述したように観念的な形式ともとれるとはいえ）本来は配信画面に置かれた物体が自然に動くということはあり得ないが、盾が動くことの象徴的な意味を考えることはできるだろう。
まず、この盾飾りは、元となった彫像が「パック（＝エマ）の想像上の伝記の一場面を切り取った作品」という点で作品そのもののシンボルともとれる。
また、「食べられそうなカエルを助けるために今にも足でつっつこうとしている妖精の像」は、危機的な状況にあるものを妖精的ないたずらごころ助けるシンボルでもあり、この像が実際に動き、消えそうになっていたエマ（＝カエル）に気づきを与えるのは道理とも言えそうである。

まとめると、像を象った盾飾りには

エマ自身のシンボル（妖精パック）
トリックスターが危機を救うことのシンボル（ウールナーの彫像）
これまでニンゲンと交流してきた歴史の蓄積のシンボル（Youtubeの盾）

といった多重の意味がこもっており、盾が動くことは、「これまで配信してきた歴史が形づくった自分自身によって、自分自身の存在理由（ニンゲンを知るのが楽しいから続けられること）に気づかされる」ことを意味する。
「観ている人がいるから」ではなく「楽しいから」ニンゲンと交流する妖精として存在しつづけられているのだ、と自分自身で気づくシーンは、妖精としてのあり方であると同時に、配信者やクリエイターとしてのあり方を問う創作論としても読める非常にいいシーンであると思う。

隣人《グッドフェロー》というテーマ

長々とオタクみたいなことを書いたが、結局のところ、ずっと人間を眺めてどうしようもないやっちゃな～と思いながらもどんなにどうしようもないやつでも見捨てずに面白がり続けてくれる不滅の隣人《グッドフェロー》、という存在は直球で好みである。自分の一部に人類代表みたいな謎の自我があって、ものを忘れることのない存在が数百年も人間を眺めてなお諦めないでいてくれることの救いって絶大というか、人類ってまだいていいんだみたいな気持ちになって、いいよね

落穂拾い

おまけ：「20分でわかるエマ・リーランド」のここがすごい！
- 実は30分ある
切り抜き動画が存在すること自体が、その原典の面白さを発信したいファンがいる事実を示している、というのは面白いかも
メタレベルの高いトークゾーンのあと、最後の最後のあいさつで実際の演者（赤咲アタリ）のクレジットが明かされて、演者が報われてよかった……という安心もあった*9。
しなりき動画第一号の船乗ちとせの銀河鉄道回、最後サーバーに繋がらないし、作中に言及のある一人ラジオの発展で、「銀河鉄道で孤独に耐えかねて存在しない視聴者に語りかけているVTuber」と解釈できて、（現実に）存在しないVTuberが（架空に）存在しない視聴者に語りかけているのが第一号なのだな……と思った。
↑のように思っていたら、続編で元気にマイクラ実況していて元気そうだったのでよかった━━と思いきや、読み上げる長文コメントが、孤独すぎて無機物に恋する話、一人坑道を掘り進める話、認知症の話……という感じで全然安心できないのだった。
しなりき動画、コメント欄で「元動画を見ていた」視聴者がなりきりコメントしている面白みがある。

en.wikipedia.org

画像は(実在しない)切り抜きチャンネルのBOOTHから引用しました

*1:しなりき、と略すらしい。

*2:幕間に流れていた麻雀トークは実在のVTuberとエマの存在が同居している特殊なメタレベルだった気がする

*3:破壊神ケットシーとしての活動

*4:アドリブ性の裁量が大きい一方で認知されるキャラクターとしての実在性は高くなってしまうことは、演者にとっては必ずしも歓迎すべきことではなく、強いストレスの原因にもなっていると思う

*5:ここで注意したいのが、周りを想像させる自由度の利点を使えるのはあくまで「架空の配信」というメディアであって、現実の配信では周りは実在する。

*6:『プロよりもうまくなるためのバイノーラル音声作品文章教室』にて、音声作品ライター・毛ガニは「基本、バイノーラル音声作品は聴き手のキャラクターに対してしゃべるのに、聴き手のキャラクターは発話できません。かといって、一方通行的にしゃべりかけられるだけですと、それはそれで違和感がありますし、展開も進めにくくなってしまいます。ですから、聴き手以外のキャラクターの発話だけで、聴き手も含めた会話が成り立っている必要があります」という文脈で、この最も簡単な方法としてオウム返しがあるが、日常の会話ではオウム返しはほとんどないため、不自然で違和感のある文になってしまう、と奇しくもルシファー吉岡と似た批判をしている。

*7:切り抜き動画は演出過剰になることを許されるメディアである、と見てみるのも面白いかもしれない。切り抜き動画は元動画の特徴的な部分を恣意的に切り取るので、世には失敗シーンや絶叫シーン、感傷的になるシーンなど、ある特定の方向性に限定して編集するので、動画単体では演出過剰に見える傾向がある。

*8:設定の類似性としては、NHKの番組「義経のスマホ」を思い出す。平安時代にスマホやインターネットがあったものとして歴史の流れを翻案したもの。

*9:もちろん映画のスタッフロールでもちゃんとクレジットはされていた

2024-04-05

エントロピーで考える　2531年佐藤さん問題問題

雑学

4/1にウソみたいな話としてマスコミ各社が報じた「夫婦同姓制度のままだと、計算上2531年には日本人が全員佐藤になってしまう！」という「2531年佐藤さん問題」。元ネタは東北大学の経済学研究科の教授、吉田浩氏が「Think Name Project（一般社団法人あすには）」の一環で出したもので、選択的夫婦別姓制度の推進を目的としたプロジェクトの研究報告である*1。

think-name.jp

2531年佐藤さん問題

メディアが報じたのがエイプリルフールなのもあって冗談かガチなのかわからないが、解析レポートが3/20付だったり、いわゆるネタバラシ的な言及が皆無だったりで、「話題性のあるおもしろ解析結果」として本気で出したのではないかと思われる。マスコミ各社も真である前提で報道しているように見受けられる。

用いられている数理モデルは「佐藤姓は2022年から2023年にかけて1.0083倍になっており、このままのペースで増えれば約500年後には人口の100パーセントが佐藤になる」というもの。ツイートでは衝撃的な増加の様子のグラフも付されている。

全員佐藤になってしまう。大変だ！

2531年佐藤さん問題問題

結論から言えば、「毎年同じ率で佐藤さんが増え続ける」とするこの数理モデルは完全に誤りである。佐藤姓がこのような形で増えることはない。

解析レポートには

基本的考え方
佐藤姓と他の姓の者との結婚により、他の姓が佐藤姓を名乗ることで佐藤姓が全人口に占める比率は増加することが考えられる。

とあるが、夫婦同姓のもと、佐藤と他の姓が結婚する際、佐藤になるか佐藤以外になるかの確率は半々であるため、佐藤以外が佐藤になる確率（流入）と佐藤が佐藤以外になる確率（流出）は同じあり、期待値的には佐藤は増減しない。指数関数的に増加するという仮定はかなり変である。

当然このモデルには多くの疑義が投げかけてられており、数理的にそうはなんないよね、とツッコミが入っている。

togetter.com

「2531年佐藤さん問題」は問題のありすぎる解析である。本気で言っているなら撤回したほうがよい。選択的夫婦別姓には賛同するが、誤った理論で世論を誘導するのは不快である*2。

じゃあ、どうやって統合を説明するか

しかし、現に佐藤さんはちょっと増えている、かもしれない。

解析レポートのデータは少し怪しい*3が、上記のリンクで紹介されている2022年に苗字の絶滅について簡単な数値シミュレーションでは、人口が維持される環境では、苗字の種類数がだんだんと減り、十分に長い時間（60億年！）が経つと最終的に一つに統合されるようである。統合先が佐藤になるか別の苗字になるかは試行ごとに確率で変わる*4ものの、「特定の苗字の比率が増えていく」のはどうやらそのようである。

「将来、名字って減る一方なんじゃないの？」という長年の疑問を解決すべく、非常に単純化された婚姻-出生-世代交代モデルによる乱数シミュレーションを実行したところ、

　約61億年後、日本人は全員 #佐藤になる

という結論が得られた。
全国の佐藤さん、おめでとうございます。 pic.twitter.com/rZpH1gmuaU
— としゅきー™ (@toshchy) 2022年6月18日

なぜ期待値的には変動しないはずなのに特定の苗字の比率が支配的になっていくかについて、上の記事では「一度０人になった名字は復活しないから」（滅んだ苗字がもっていたシェアが残った苗字に分配される）という直感的な理解を紹介している*5。

この直感をどうにか数理的に表現できないだろうか？

苗字のエントロピー

wordleを情報数学で解く回でも書いたが、各種の要素が満遍なくあるか、それとも一極に集中している（多数派のシェアが高い）かは、エントロピーという量で定量化できる。今回の場合、全ての苗字に均等に人がいる状態がエントロピー最大で、全佐藤状態など、ある苗字かしか存在しない状態がエントロピー最小となる。

エントロピーの具体的な値は次の式で計算できる。

$\displaystyle S = -\sum_{i}^{M} \frac {n_{i}}{N} \log{\frac {n_{i}}{N}}$

Nは全人口、Mは苗字の種類数、 $n_{i}$ は苗字iの人数である。

「ある二人が結婚して片方の姓の子ども二人を産み、（その二人のみ）世代交代する」という、最もミニマムな世代交代のステップによってエントロピーがどう変動するか計算してみよう。

同じ苗字の組み合わせの結婚の場合、世代が変わっても各苗字の人数は変動しないので、エントロピーは変動しない。

別の苗字の場合、佐藤さん（ $n_{s}$ 人）と勅使河原さん（ $n_{t}$ 人）が結婚する場合、次世代の姓がどちらになるかの場合わけが発生する。

ケース1：次世代が佐藤姓：次世代は佐藤の人数が $n_{s}$ +1, 勅使河原の人数が $n_{t}$ -1になる
ケース2：次世代が勅使河原姓：次世代は佐藤の人数が $n_{s}$ -1, 勅使河原の人数が $n_{t}$ +1になる

ケース1になるか、ケース2になるかの確率は1/2ずつである。それぞれの場合の世代交代前後のエントロピーの差は、他の苗字の項は変わらないので、注目している二つの苗字のみについて考えればよくて、 $f(x)=x \log(x)$ とすれば

ケース1：

$\displaystyle \Delta S_{1} = - f(\frac {n_{s}+1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}-1}{N}) + f(\frac {n_{t}}{N})$

ケース2：

$\displaystyle \Delta S_{2} = - f(\frac {n_{s}-1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}+1}{N}) + f(\frac {n_{t}}{N})$

となる。平均エントロピー差はケース1とケース2について1/2をかけた和をとればよいので、佐藤さんと勅使河原さんの結婚・世代交代によるエントロピー変化の期待値は

$\displaystyle E[\Delta S] = \sum_{i=(s,t)} \frac{1}{2} \big( \Delta S_{i} \big)= - \sum_{i=(s,t)} \frac{1}{2} \big( f(\frac {n_{i}+1}{N}) + f(\frac {n_{i}-1}{N}) \big) - f(\frac {n_{i}}{N})$

となる。ここで、 $f(x)=x \log(x)$ は下に凸なので、常に $f(x) \lt \frac{1}{2} \big( f(x-a) + f(x+a)\big)$ が成立し、平均エントロピー差は $n_{s}, n_{t}$ によらず負の値になる*6。この差は、人数が多い姓と少ない姓がマッチングしたとき、多い姓になる（一極集中する）ときの減るエントロピーのほうが、少ない姓になる（分散する）ときに増えるエントロピーよりも大きいことを意味する。

例として佐藤さんと勅使河原さんについて考えたが、どんな苗字の組み合わせでも同様に考えることができ、世代ステップの更新をするたびエントロピーは上がったり下がったりしながら期待値では減少し、最終的にそれ以上減少しない状態、つまり「全佐藤状態」や「全田中状態」になって、そこで停止する。

多い苗字が多くなる？わけではない

「世代が更新すると、苗字が満遍ない状態（エントロピー大）からだんだん一極集中（エントロピー小）の状態に移行していく」ことは上の議論から言えたわけだが、各ステップではどちらの苗字が増えやすいかの確率は平等で、多いほうが増えやすいわけではない。

では、エントロピーの期待値が負になることは何に由来するのか。上で考えたステップを繰り返し適用することで、他の苗字の数を変えずに「佐藤が増えて勅使河原が絶滅した状態」および「勅使河原が増えて佐藤が絶滅した状態」に遷移でき、それぞれのステップのエントロピー変化は、絶滅という不可逆な変化で解放されるエントロピーの分割払いと見ることができる。「一度０人になった名字は復活しないから」（滅んだ苗字がもっていたシェアが残った苗字に分配される）という直観は、絶滅によるシェアの分配を、期待値での分割払いと対応させることでエントロピーの議論と接続できそうである。

解釈が難しいが、「多い方がより増えるエントロピー減のほうが少ない方が増えるエントロピー増よりもエントロピー変化が大きい」という話は、どうやら結局は絶滅という不可逆な変化の起こりやすさ（少ない側が減った方が絶滅しやすい）の言い換えらしい…と思われる。

いずれにせよ、佐藤は指数関数的に増大しない。

*1:苗字に多様性が多い方がよいという価値観も謎ではある

*2:これで「エイプリルフールネタだよ〜ん、うっそピョーン」と言われたら憤死するかも

*3:苗字の数は電話帳と総務省のデータから推定しているデータらしく、そもそも疑わしい値なのだが、さらにそれを総務省のデータで割って比率を出しており、何かが循環している気配もある！

*4:もともと多い苗字が強いのはある

*5:上のシミュレーションは「N人の中から半分のN/2人をサンプリングし、倍にする」を世代のステップとして更新しており、これによる特定の苗字の増減は超幾何分布で表現される。現在のように姓の比率が小さい場合の近似では、n人いる苗字は次の世代では平均n、分散nの正規分布の人数になり、ランダムウォークのような挙動になる（だいたいn±√n人くらい）

*6:苗字を構成する人数が多いと、エントロピー差はかなり0に近い値になる

2023-12-26

奇想同人音声評論誌「空耳２」準備号のお知らせ／1メートルの殻：主観化するメディアとコンテンツ

C103に出展します

サークル「空耳製作委員会」より、2023年12月31日（日）に開催されるコミックマーケット（C103）東地区ヒ-08b にて、「奇想同人音声評論誌　空耳２　準備号」を頒布予定です。「空耳２」は現在編集中で、音声作品有識者による評論やクリエイターへのインタビュー、また前作同様に変わった音声作品のレビューを掲載します（年度内を目処に発行予定です）。

今回頒布する準備号では、作品レビュー数点と、妄想研究所「テレバーチャルヘッド」を軸にした私の論考「能動的鑑賞論：「テレバーチャルヘッド」はバイノーラルをどう超克するか（仮）」を掲載します。

「テレバーチャルヘッド」は「聴取者が頭を動かしながら聞くことで、通常のバイノーラル音声作品よりもリアルな体験が得られる」というエポックメイキングな音声作品です。以下に、「空耳」第一号に掲載した「1メートルの殻：主観化するメディアとコンテンツ」を公開します。まさか「テレバーチャルヘッド」のような形式の作品が出るとは思いもしまいませんでしたが、コンテンツ聴取体験のリアリティに寄与する距離と、能動／受動について分析した2022年当時の論考です。お楽しみください。

1メートルの殻：主観化するメディアとコンテンツ

ASMR音声を聞くとき、あたかもそこに人がいて話かけてくるようなリアリティを感じることがあるだろう。多くのASMR作品はダミーヘッドマイクと呼ばれる立体音響技術で録音されており、「仮にそこに自分の頭が置かれていたらどう聞こえるか」を忠実に再現された音になっている。

リアリティと同時に強く認知されるのが、聴取者たる自分が、録音された環境である「そこにいる」主観的感覚である。ASMR音声の前では、聴取者は映画のような俯瞰の視座ではなく、録音環境内で語りかけられる主体の視座を強制的に与えられる。リアルの空間で話しかけられるのと同じ音刺激を与えられながら、「話しかけられている主体は自分ではなく、自分と同じ位置にいる作中の登場人物である」と認知するのは困難である。この感覚は視覚のVRにも共通のものでもある。

本稿では、刺激のリアリティやメディアの特徴が、コンテンツの作中での記録者（音ならマイク、映像ならカメラなど）と鑑賞者にどのような感覚の関係を生じさせるのか、そして、その感覚によって作られるコンテンツがどのように変容するかを論じる。

まずはVRの立体視やダミーヘッドマイクの立体音響はなぜ「リアル」なのか、そしてどういうときに特に「リアル」なのか、技術的な面から考えてみよう。

現実と仮想の感覚刺激

視覚刺激のリアリティ

VRの立体視について考える前に、2Dでの状況をおさらいしておこう。モニタやプロジェクターの品質を決める５つの要素としてよく挙げられるものに、「画面解像度・フレームレート・ビット深度・色域・輝度／コントラスト」がある。

画面解像度は4KであるとかフルHDであるとかの、画面上に並ぶ画素の数である。4Kディスプレイであれば3840×2160個、フルHDであれば1920×1080個の素子が並んで画像を表現している。1インチあたりの画素数がdpi（dots per inch）で、画面のきめ細やかさを表現する量になっている。ある程度以上きめ細やかになると画素同士が区別できなくなるはずで、たとえばAppleが謳っている「Retina *1ディスプレイ」は、想定視聴距離（スマホなら20cm、ノートPCなら40-50cm程度）から見たときに画素が区別できない、という定義になっている。画面解像度という点では、すでにリアルと変わらない体験が再現できる状況になっているのだ。フレームレートやビット深度についても同様、認知の限界に達していると言ってよい状況である。色域については今日多くのモニタがすべての色を表示できるわけではないものの、液晶におけるバックライトの進化や有機ELディスプレイの登場によって大きな改善がみられている。コントラストについてもHDR *2搭載の機器が増えるなど、肉眼で見たときと近い表現が進歩している。

このように、近年、映像については既に現実とほぼ変わらない像を作ることができるようになってきている。市販のVRデバイスでは残念ながら画像自体がここまでの高精細なものはまだない（描画の計算コストも大きい）が、視覚のリアリティが現実と区別できなくなるのは時間の問題に過ぎないだろう。

ここで、VRゴーグルによって実現されている、両眼視差（左右で見える像の差）による立体視という現象について考えてみる。いったい我々は、肉眼でどれくらい「立体視」をしているのだろうか？

両眼視差がどの程度あるのか、簡単な実験をしてみよう。人差し指を顔のすぐ前に置いて、片目ずつ瞑って指の見え方がどう変わるか試してみる。指が顔に近いときは、目によって位置が大きく変わる（最大で眼球間の距離分）一方で、腕を前に伸ばして同じことを試すと、指の見え方はほとんど変わらなくなる。対象の距離が離れると左右の像がほぼ同じになるという単純な話である。対象物までの距離を測る場合、両眼視差が重要なのはせいぜい10m程度までといわれている。片目ずつ目を瞑ってものを見るとき、立体感に違いが感じられるのは、せいぜい1mの範囲内のものではないだろうか？

昔、NHK技術研究所で展示されていた8Kテレビについて書いた記事*3および記事中の動画を見て驚いたのが、2Dの8Kテレビで映される高精細な祭の動画が、立体的に見える（現地でもそうだし、その様子を撮影したビデオですらそう）現象である。記事中では「原因は謎」と書かれているが、この物体の3D感を演出している要素の中で考えられるのは、画像が高精細であることと、対象が動くことによる運動視差（運動によって見え方が変わること）だろう。数メートル以上離れたものの立体感の認知において、もはや左右の眼の視差はあまり重要ではない。巨大なオブジェクトが映像の中で動いていれば、その運動視差が立体感を生じるし、数十メートル離れて風景になってしまえば視差はないため画像が高精細でありさえすれば現実と区別がつかない。

最近、映画やCMなどの映像制作において「インカメラVFX」と呼ばれる新技術がたびたび使われるようになってきたが、これは巨大なディスプレイに背景（時間変化したり、カメラワークに応じて動いたりする）を表示し、その前で役者が演技するという「書き割り2.0」とでも呼ぶべきものである。リアルで演劇の舞台を見て立体を感じても、それは必ずしも両目で見ているからというわけではない。両眼視差によって生み出される「立体感」はせいぜい1m程度の手の届く範囲のものであり、遠方のリアリティは2D的な画質のよさにほかならない。そういう意味で、両眼視差による立体視が効能をもつ空間は、眼球を中心とした1mの球体の中にあると言える。

聴覚刺激のリアリティ

聴覚刺激においてモニタの５要素に対応するのはサンプリング周波数とビット深度（どのくらいの周期で信号の強さを測定するか・信号の強さをどれくらいの階調で表現するか）だろうが、CDの規格（44.1kHz／16bit：1秒間に44100回測定し、65536階調で各測定時の強さを表現）より高音質になったところで耳で区別できる人は少ないだろうし、保存・再生の規格としては、かなり昔から音のリアリティは限界まで突き詰められていたといえる*4だろう。そういうわけで、立体音響の技術は音質の改善の文脈ではなく、「耳で聞こえる音に近い音にする」コンセプトに基づいて発達したものである。

耳で聞こえる音に近いとはどういうことだろうか。立体音響以前の録音は、通常のステレオマイクで行われていたが、これは耳の比喩で言えば、むきだしにした鼓膜をふたつ並べることに対応する。マイクによる録音と、人が音を認知するときの鼓膜の振動の性質を大きく隔てているのが、頭と耳の存在である。

人間が音がどこから聞こえているか判別する（音源定位という）要素としては、主に両耳間時差（interaural time difference: ITD）と、両耳間音圧差（interaural level difference: ILD）が重要だといわれている。簡単にいうと、前者は「左耳と右耳でどのくらい時間差があったか」、後者は「左耳と右耳でどれくらい音量差があったか」に対応する。

空気中の音速を340メートル毎秒、耳間距離を20センチメートルとすれば、真横から聞こえてきた音が両耳に入る両耳間時差は0.20[m] / 340[m/s] ≒ 0.0006秒となる*5。脳には音の位相差からこのミリ秒以下の差を検出する回路があると言われており*6、特に1.5kHz以下の音の領域（だいたい人の出せる声の範囲）において音源位置を特定する手がかりとして用いられている。「右耳と左耳が20cm程度離れていること」が単一のマイクでは得られない立体感を作り出す。

音量差は単純に音源に近いほうが音が大きいことに由来する音源定位である。音量自体が距離の逆二乗で減衰することに加え、「頭という障害物によって音が止まる」ことが大きな手がかりになっている。低い音であれば回折して頭の反対側まで伝わるのだが、1.5kHz以上の高音は波長が頭のサイズの20cmを下回って反対側の耳にあまり届かなくなり、左右に大きな音圧差が生じる。

このように、耳に対応するマイクがある程度離れていること・その間に障害物の頭があることが左右の音源定位への重要な意味を持っており、音がどこから聞こえているか判断する大きな手がかりになっている*7。さらに言えば、入ってくる角度によって耳の複雑な形が原因で音が変化すること（耳介効果）を用いて、よく聞く音との比較で音源の上下・前後の定位を行っているという話もあり、そういうわけで、バイノーラル録音は頭の形のマネキンにわざわざ耳をつけて録音するという珍奇な形式になっているのである*8。

視覚と同様に、音源距離と音のリアリティについて考えてみると、距離による音の減衰は逆二乗ではたらくため、音源が近いことの影響が非常に大きいことがわかる。物体（見ているもの／音源）が移動する場合も、近い方が運動の角距離が大きくなるため、よりダイナミックに感じるはずだ。

1メートルの殻

ここまでの話は、近くにあるものほどステレオ感が強くはたらき、立体的に感じるということを、くどくどと理由づけしながら語ったものである。我々の認知のシステムは遠方よりも近くで動いているものをより立体的に感じるようにできており、両眼視差によるVRやバイノーラル録音の立体音響が扱う題材もまた、ほとんどがカメラやマイクにほど近い、「より立体を感じられる」ものになっている。このような刺激はほとんど（仮想的に）身体から手の届く範囲に発生源があるので、この範囲を1メートルの殻と呼ぶことにしよう。

コンテンツ制作が、コンテンツが乗るメディアが得意とする（リアリティを発揮する）領域にフォーカスするのは自然な流れだろう。ここで、真のリアリティはわれわれの主観を再現する刺激なのは確かだが、主観性を強く感じさせる1メートルの殻の中の刺激（立体視や立体音響など、目や耳に近かったり、左右性が強いもの）が、必ずしもリアルの生活の中によくある刺激とは限らず、逆にしばしば不自然になっていることに注目したい。日常生活での私たちは、ASMR動画のようにわざわざ耳元でマッチ箱を振らないのである。

ここで、ひとつの仮説を提案する。

仮説：VRやASMRなど、リアリティが高いメディアのコンテンツは、メディアに特有の刺激性を高めるため、鑑賞者にごく近い領域（1メートルの殻）内で展開される。この傾向により、コンテンツは映画のような俯瞰の視点ではなく、不可避的に鑑賞者＝主観の存在を前提とした「視聴者参加型」の性格を帯びるようになる。

主観化するコンテンツ

前節で、人に立体感をもよおす仮想的な刺激の発生源は、目や耳からせいぜい手の届く範囲、1メートルの殻の範囲内にあるのではないか、と書いた。今節では５つのトピックについて、上の仮説に基づいた、刺激と距離がもたらす主観感覚が鑑賞体験やコンテンツ制作に及ぼす影響を考える。

1. 3D映画

過去には何度も3D映画のブーム（？）が訪れては衰退を繰り返している。両眼視差による3D映画が普及しなかった理由としては、メガネをつける億劫さ、設備投資の必要性、コンテンツの不足……さまざまな要因が考えられているが、本質的な理由が何かと言えば、映画の主人公はあなたではないからだろう。

ほとんどの映画はPOV（主人公の一人称視点のこと）ではない*9。観客が感情移入する主人公たちはカメラのこちら側ではなく向こう、被写体の側にいる。主人公や主人公の視界にあるオブジェクトはどちらもカメラから1mの範囲内（視差による立体感が強く感じられる）にはなく、視点は被写体からある程度離れた引きの位置にある。リアリティの演出として両眼視差を使おうというのに、既存の映画撮影の距離感は両眼視差が立体感の主要因ではないという本末転倒な構造がある。

鳴り物入りで3D映画として作られたヒット作に2009年の「アバター」があるが、アバターはアップの多用、奥行きから手前への移動を伴うアクション、カメラや被写体の回転による運動視差などを駆使しており、3D映画というメディアにかなりアジャストして作られているように見える。これらは新しいメディアの過渡期特有の実験的な演出であると同時に、3D映画というメディアは、既存の映画とは異なる距離・カメラワークが求められるだろうことに自覚的であったことのあらわれのようにも思われる。

カメラが被写体に近いことは、主観的なリアリティを生み出すのと同時に、それが主観（私）ではない場合の「この視点は何なのか」の感覚を生じるおそれがある。主観に近い視覚刺激をもたらす視点は（黒澤明ではないが）カメラの意図とでも言うべきものに近く、うまく扱わなければ空中に理由もなく存在する気持ち悪さ、違和感になりうる。

逆に言えば、POVなどで視点に意味付けがなされるのであればこの気味の悪さは存在しない。一人称視点のVR映像として大きく花開き今なお発展を続けているのが、アダルトVR、そう、ポルノの市場である。

2. アダルトVR

VRゲームなど、3Dモデルをレンダリングして表示するような専用のゴーグルやGPU計算を必要とする敷居の高いVR（頭を動かすと視点の位置が変わる）と比べて、スマホにアタッチメントをつけるタイプの視点固定のVR映像コンテンツ（固定したステレオカメラで撮影されており、頭を平行移動しても像が変化しない）は廉価であり、2015年以後に流行し、今日でも人気作品ランキングに必ず数点は食い込むなど、一定の安定した地位を築いている。

両眼視差による立体視とポルノは非常に相性がよい。というのも、セックスはほぼ立体認知が最も強い領域、1mの殻の中で行われるからだ。VRのポルノに特徴的なのが、視点人物が行為者である、いわゆる「ハメ撮り」のケースが非常に多いことである。男性向けの作品では、基本的に男の頭に近い部分にカメラ（専用のもので、眼球と同じ距離離したレンズ、ダミーヘッドマイクのような耳つきマイク、女優を照らす照明で構成される）が置かれ、女優はさもカメラが男の頭であるかのように演技する。カメラは固定されており、したがって男が能動的に動くこともない。カメラが動くのは、体位が変更される際にフェード演出が入って視界が切り替わったときに再配置されている、という程度である。

アダルトAVにおけるカメラが固定されているのは、生理的制約によるものと考えられる。VR空間で「自分が動いていないのに視界が動く」と、視界は加速度を感じているのに身体は感じていない不整合が起き、激しい乗り物酔いのような症状を催すためである。3Dモデルを構築しているわけではなく「ある二点での見え方」を録画している映像であること（鑑賞者が能動的に視点移動することはできない）、酔わないようその二点も動かさずに撮影されること、当然、録画でありインタラクションができないことなどの理由により、基本的に「受け身」の作品が多いのもアダルトVRの大きな特徴だ。

珍しい例として、主観視点ではない二人がセックスする様子を透明人間の視点から見るVR作品があるが*10、心理的には行為者と違って頭を自由に動かせるはずなためか、撮影場所の一点に視点を固定されることに強い窮屈さ感じた。いかに近いところにいるとはいえ、第三者の視点は1メートルの殻の境界ぎりぎりであり、刺激の立体感が希薄だったのも印象深い。

2019年のアダルトVRメーカーのインタビュー記事に「特にお客様に喜ばれる演出がキスと囁き」とあるのは象徴的で、これはまさに、VRというメディア特有の高刺激が得られる至近距離、1メートルの殻の領域である。

3. ASMR

本誌「空耳」がテーマとしている音のリアリティであるが、これも本質的にポルノと相性がいい。繰り返すが、セックスは1mの殻の中で行われるからである。視覚と違うのは、聴覚は前後・上下の情報に乏しいことで、「左右どちらかに強く振られている」のが高刺激になることである。

左右どちらかに振られている音の極北が、ASMRで人気のジャンルの「耳舐め」や「ささやき」、「耳かき」音声だろう。耳の穴まで舌をいれて舐めまわすという体裁の「耳舐め」は同人音声作品ではさも当たり前のように行われているが、一般には少々特殊性癖と呼ばれる部類に属するものだろう*11。

逆に、バイノーラル立体音響はフェラチオのリアリティを苦手としている。ペニスが身体の中央にありかつ耳から少し離れているために、ステレオが振られていることに由来する高刺激が期待できないからである。

この問題に自覚的な作品に、ベレス解部「バイノーラルの妹とバイノーラルじゃない妹に左右からオナサポしてもらう音声」がある。この作品は、バイノーラル録音された妹に左から、ただのステレオ録音の妹に右から責められるという設定で、双子がエロさを競うのだが、途中に「ダミーヘッドマイクで録音したオナホでしごく本当の音よりも、音声を加工して作り出したヌチョヌチョとした不自然な音のほうがエロい」という展開がある。そのメディアが得意としない（立体音響録音が高刺激である領域は左右性にあり、身体の中央にあるペニスエロさを取り出すのが難しい）要素を補完するまったく別のアプローチをとるのは優れたアイデアと言えるだろう。

ペニスが中央にあるのが高刺激性と両立しない、という課題から導き出され得るもうひとつの解法は、奇妙な話であるが、中央のペニスを左右のどちらかに持ってきてしまうことである。サークル「おほおほ庵」の作品には（ペニスではないが）左右の睾丸を右耳と左耳に対応させ、耳舐めを玉舐めとして扱うというという革新的な手法が使われているものが存在する。作中には「おもしろい位置にキンタマついてる」とのセリフがあり、どうなっているのかは謎である（公式サイトの漫画イラストでも見切れている男の耳付近のモザイクのかかった謎の物体を舐めている）が、「玉舐め」を行っているという性的な興奮をもたらすストーリーテリングと、（現実の身体とは対応しないが音源定位できる）立体感のあるステレオのきいた音が両立（？）している。

市場全体の傾向として極度に左右のどちらかに振られた音が好まれること、またそのような高刺激を志向するあまりにときには身体地図まで書き換えられてしまうことを考えると、ASMRにおける１メートルの殻、超正常刺激の傾向が見えてくる。

4. アニメ「180秒で君の耳を幸せにできるか?」

「180秒で君の耳を幸せにできるか？」は、2021年10月から12月にかけて放送された、ASMRを題材にした5分アニメ作品である（同名でDLSite上に音声作品のシリーズも展開されている）。ASMR沼にハマった幼馴染の少年の気をひくためにダミーヘッドマイク・KU100を手にいれたヒロイン・ゲッコーちゃんが、いろいろ試しているうちにASMRの魅力に気付き……といった流れの作品なのだが、作中に幼馴染本人が登場するこoとはなく、常にダミーヘッドマイクに相対するヒロインという構図がとられる。

ASMRをテーマにしたこの作品ASMRをテーマにしたこの作品の特徴はもちろん、全編がバイノーラル録音で収録されていることである。マイクの位置はアニメ作中に登場するダミーヘッドマイクと同期が行われている（作中のKU100の右耳に息を吹きかけられたら、視聴者の右耳でそれが再生される）。

「180秒で〜」は、ここまで議論してきた主観性の観点において、かなり不思議な違和感のあるつくりになっている。というのも、カメラワーク（視点）はいろいろな角度からダミーヘッドマイクやキャラクターを描写するのに、音を聞いている位置・角度（聴点と呼ぶことにする）は常にそのダミーヘッドマイクのものなのである！

どういうことだろうか。たとえば、左にダミーヘッドマイク、右にゲッコーちゃんが正対して座っている状況を考えてみよう。一般的なアニメでは、この配置のとき、ゲッコーちゃんのしゃべった声は右にウェイトがかかったステレオで再生されるはずである（カメラワークの右側に配置されているため）。ところが「180秒で〜」では正面から聞こえる（ゲッコーちゃんはダミーヘッドマイクの正面にいるため）。この視界と音界の不一致が、奇妙な違和感となって訪れるのである。ゲッコーちゃん視点で耳かきをするこのカットで左の耳からガサゴソ音がすると認知の不協和が生じる。作品中には耳かき時に「耳の奥から耳かきを見る」異常なカットもあった

「180秒で〜」における主観性の奇妙さはこれだけではない。ヒロインたちはヘッドホンを着用しており、ダミーヘッドマイクが聴いた音のループバックを聴きながらマイクへ働きかけているのである。ダミーヘッドマイクの右耳に息を吹きかけたヒロインはループバックで右耳に返ってきた自分の吐息を聞いて「ひゃっ」と言う。ダミーヘッドマイク・ヒロイン・視聴者の三つのレイヤにそれぞれ視点と聴点があり、ループバックなどで複雑に絡み合いながらも一致しないのが主観性の違和感の源泉なのだろう*12。

アニメ放送という形でバイノーラル音声が流れることには（Vtuberの ASMR配信などにも共通するが）、本来は「その場所にいる個人」にしか体験できないはずの感覚刺激が、複製・共有されることで偏在化するようになることも意識させられる。

5. Project LUX

われわれがVR作品でどうしても主観性を持ってしまうことと、とはいえ我々は作中の視点の人物そのものではないこと、この二つの微妙なズレの構造を演出に昇華した作品として、VRゲームの黎明期に作られたVR映像作品、「Project LUX」も論じておきたい。

Project LUX は、〈狼と香辛料〉の作家、支倉凍砂をライターとして、インディーゲームサークル「Spicy Tails」がVRアニメとして発表したSF作品である。海辺の家にひとりで住んでいる少女のもとに、全身義体の男がある依頼をもってやってくる——ところからはじまる、プレイ時間およそ90分の（少しだけインタラクションがある）VR映像になっている。

Project LUX は次の導入からはじまる。

これより陪審員の皆様に、被告の記憶を追体験していただきます。被告は事件当時、リモート義体に全感覚をリンクさせて行動していたため、その時の記憶データが証拠として提出されています。なお、過度の記憶への没入を防ぐため、いくつかの感覚記憶は再現されませんが、十分に被告の当時の様子を追体験できるでしょう。その上で、被告への評決を下してください。 ——被告の罪状。殺人。

「殺人容疑の被告人はサイボーグで、事件当時に見ていたものはすべて録画・録音されている。プレイヤーは陪審員として被告の有罪・無罪を判定するために、その記録を閲覧（追体験）する」という設定である。この設定はVRと非常に親和性が高く、VRヘッドセットとイヤホンによって視覚・聴覚が本当に「再現される」ので、「被告の行動を追体験している」きれいな対応関係がとれる。

物語の終盤、少女が被疑者の「男」の義体に触れるシーンがあり、以下のようなやりとりがある。

少女：あなたの記憶を追体験する誰かが、今のこの感覚を再現したら、ちょっと嫌だな。
少女：うわこいつ胸ちっせえ、とか抱き心地から思われてたらすごい嫌。
男：……この記憶を再現するとしたら。きっと現場検証か、私の処分を決める際の証拠として記憶を追体験するでしょう。ならば、視覚と聴覚だけだと思います。

続いて、物語の終盤でも「実は、視覚・聴覚の追体験で調査する人にわからない方法（触覚）での情報伝達していた（後からくるであろう調査員（陪審員）を欺くため少女と「男」が動いていた）」というトリックが用いられる。

要するに、これはプレイヤーと作中の「男」の癒着を引きはがす意地の悪い構図である。この手の手法は映像的にも一人称で物語が進行するノベルゲームのジャンルで多く試みられてきた歴史があり、Project LUXもその系譜上にあると考えられるが、VRで主観的な感覚刺激のリアリティが極まってきている中で、「しかし、それはお前ではない」のを演出に用いるのは、VR史におけるひとつの大きな達成であるように思う。

リアリティの現在と未来

ここまで、われわれの日常の感覚刺激に近い刺激を与えることができる「リアル」なメディア——VRやバイノーラル録音は、リアリティーを高めるために「１メートルの殻」の中でコンテンツを展開するようになる（そういう作中がユーザーに好まれる）のではないか、そうしたコンテンツは既存の映画（俯瞰視点に近い）よりもどうしても主観性を帯びて「その作品を見ている自分」を意識せざるを得ないものになってきているのではないか、という仮説について、例をあげて解説した。

リアリティーを追求すること、そこにいるかのような感覚刺激を突き詰めるとはどういうことか。それは現実を再現することに他ならず、主観性を帯びていくのは自然な流れかもしれない。おそらく、未来のコンテンツは現在以上に、「その作品を見ている「わたし」」とは何かの意味づけを行う（鑑賞行為にスタンスを与えるか、主体としてコンテンツに介入可能にするか）と思われる。

今後、この主観性が大きな変化をもたらしそうな要素としては、インタラクティブ性（見ている人の行動がコンテンツに影響を与える要素）や体験の同時性（現実界では一人しか体験できないはずの感覚刺激を、大量の人が同時に体験できること）などについてはまだ未開拓な部分が多く、これから大きな発展の余地があると感じている。

そのとき、既存の俯瞰的なメディアはどうなっていくのだろうか？　現実との違いはどういう点に見出されるのだろうか？

新しいメディアの過渡期には自然と「180秒で〜」や「Project LUX」のような、メディアの特質に着目した不思議な作品が現れるものである。今後もそうしたコンテンツの誕生を目撃し、語り、新しい可能性を模索していきたい。

もう一度

サークル「空耳製作委員会」より、2023年12月31日（日）に開催されるコミックマーケット（C103）東地区ヒ-08b にて、「奇想同人音声評論誌　空耳２　準備号」を頒布予定です！

*1:Retinaは網膜を意味する単語であり、肉眼で区別できないディスプレイの命名としておもしろい。

*2:規格としてのHDR（ハイ・ダイナミック・レンジ）は、単純に画面の明るさの階調表現の深度を増やすもので、コントラスト比の高いディスプレイで表示することでその効力を実感できる。一方、iPhoneのカメラなどに搭載されているのは「HDR合成」技術であり、素子やディスプレイに保存・表示できる明るさの範囲内で、人間の認知できる明るさの幅（ずっと大きい）での見え方に近くなるよう画像を表現するための画像合成技術である。後者の画像が前者の説明のイメージ画像として使われることが多く、両者の混同が非常に多い。HDR合成では、明るいところに合わせた露出での画像と暗いところに合わせた露出の画像を合成し、白飛び・黒飛びしていない人間の視覚に近い画像が得ることができる一方、映像表現としての白飛びや黒飛びへの影響も危惧されている。

*3:https://www.1101.com/news/2013-05-29.html

*4:DLsiteで販売されている音声作品は高音質・可逆圧縮のハイレゾ志向が強く、数ギガバイトの巨大なファイルになっていることが多い。軽量版のmp3が同梱されていることもあるが、基本的に巨大なので筆者はダウンロードするのがめんどくさく、DLsite上のストリーミングで聞いていることが多い。また、近年、ハイレゾ音源と呼ばれる、高サンプリングレート・高ビット深度（詳述しないが、ビット深度としてはバイナリであるDSDという異なる保存方式も用いられている）の高音質音源・再生機器がトレンドになっているが、高級オーディオの常で、人の耳で差を聞き分けられるかどうかには疑わしさがある。

*5:厳密には音の伝播についてもろもろ考える必要があるが、だいたいこんな感じの桁の数字になる。

*6:Jeffressモデルが有名。現象を説明する神経回路モデルの常で、人の耳に本当にそれがあるのか・それが支配的なのかはよくわかっていない。

*7:ステレオマイクによる録音は耳のように20cm程度離したマイクを平行にならべるAB方式のほか、より耳に近づけるため平行ではなく角度を開いて録音するORTF・NOS方式、マイクを離さずある点での方向性の違いを録音するXY方式、単指向性マイクと双指向性マイクを組み合わせ、極性反転によってステレオ感を出すMS方式などが用いられているらしい。MS方式は謎、XY方式は音圧差のみ、AB・ORTF・NOSは位相差と音圧差の両方によって音の奥行きが与えられる原理となっている。が、多くの商業音楽の録音では楽器ごとにモノラルマイクで録音したマルチマイク音源をミックスし、編集で左右に振ることで作られているらしい。

*8:総合的に、身体の存在によって場の音がどのように聴取されるかは、頭部伝達関数というモデルで説明される。ダミーヘッドマイクは頭部伝達関数をよく再現する録音方法である。

*9:一人称視点の映像をさしてPOVと呼ぶならわしがあるが、POVはPoint of Viewの略であり、本来は一人称を意味しない。

*10:【1万字インタビュー】SODが語った、アダルトVRのイマ根強く人気が続く理由https://www.moguravr.com/sod-vr-4/ 通常のアダルトビデオとは違った演技のうまさ（VRカメラによって撮影されるリアリティ）が評価される、という話もおもしろい。記事中にはプールの中で見た映像を追体験できるヒット作品「プールの時間VR」も紹介されている。類例としては（記事には載っていないが）側溝の中からの覗きを擬似体験できる「側溝VR」も有名。のぞき部屋のガラス越しに卑猥なポーズをとる女を見る作品などもあり、ポルノVR映像のインタラクティブ性のなさ、実像との遠さを考えさせる批評性がある。

*11:耳の至近距離で何かの音を鳴らすバリエーションのひとつとして、「炭酸耳かき」というエポックメイキングな架空の耳かき法が発明されている。炭酸耳かき音声ではシュワシュワパチパチと音のなる棒を耳に入れられ、リラックスした気持ちになれるというものだが、そんな棒はない。

*12:一人称視点のアニメといえば、「One Room」や「セラフィムコール」の伝説の奇想回「マーガリン危機一髪」を思い出す。