エントロピーで考える 2531年佐藤さん問題問題

4/1にウソみたいな話としてマスコミ各社が報じた「夫婦同姓制度のままだと、計算上2531年には日本人が全員佐藤になってしまう!」という「2531年佐藤さん問題」。元ネタは東北大学の経済学研究科の教授、吉田浩氏が「Think Name Project(一般社団法人あすには)」の一環で出したもので、選択的夫婦別姓制度の推進を目的としたプロジェクトの研究報告である*1

think-name.jp

2531年佐藤さん問題

メディアが報じたのがエイプリルフールなのもあって冗談かガチなのかわからないが、解析レポートが3/20付だったり、いわゆるネタバラシ的な言及が皆無だったりで、「話題性のあるおもしろ解析結果」として本気で出したのではないかと思われる。マスコミ各社も真である前提で報道しているように見受けられる。

用いられている数理モデルは「佐藤姓は2022年から2023年にかけて1.0083倍になっており、このままのペースで増えれば約500年後には人口の100パーセントが佐藤になる」というもの。ツイートでは衝撃的な増加の様子のグラフも付されている。

全員佐藤になってしまう。大変だ!

2531年佐藤さん問題問題

結論から言えば、「毎年同じ率で佐藤さんが増え続ける」とするこの数理モデルは完全に誤りである。佐藤姓がこのような形で増えることはない。

解析レポートには

基本的考え方
佐藤姓と他の姓の者との結婚により、他の姓が佐藤姓を名乗ることで佐藤姓が全人口に占める比率は増加することが考えられる。

とあるが、夫婦同姓のもと、佐藤と他の姓が結婚する際、佐藤になるか佐藤以外になるかの確率は半々であるため、佐藤以外が佐藤になる確率(流入)と佐藤が佐藤以外になる確率(流出)は同じあり、期待値的には佐藤は増減しない。指数関数的に増加するという仮定はかなり変である。

当然このモデルには多くの疑義が投げかけてられており、数理的にそうはなんないよね、とツッコミが入っている。

togetter.com

「2531年佐藤さん問題」は問題のありすぎる解析である。本気で言っているなら撤回したほうがよい。選択的夫婦別姓には賛同するが、誤った理論で世論を誘導するのは不快である*2

じゃあ、どうやって統合を説明するか

しかし、現に佐藤さんはちょっと増えている、かもしれない。

解析レポートのデータは少し怪しい*3が、上記のリンクで紹介されている2022年に苗字の絶滅について簡単な数値シミュレーションでは、人口が維持される環境では、苗字の種類数がだんだんと減り、十分に長い時間(60億年!)が経つと最終的に一つに統合されるようである。統合先が佐藤になるか別の苗字になるかは試行ごとに確率で変わる*4ものの、「特定の苗字の比率が増えていく」のはどうやらそのようである。

なぜ期待値的には変動しないはずなのに特定の苗字の比率が支配的になっていくかについて、上の記事では「一度0人になった名字は復活しないから」(滅んだ苗字がもっていたシェアが残った苗字に分配される)という直感的な理解を紹介している*5

この直感をどうにか数理的に表現できないだろうか?

苗字のエントロピー

wordleを情報数学で解く回でも書いたが、各種の要素が満遍なくあるか、それとも一極に集中している(多数派のシェアが高い)かは、エントロピーという量で定量化できる。今回の場合、全ての苗字に均等に人がいる状態がエントロピー最大で、全佐藤状態など、ある苗字かしか存在しない状態がエントロピー最小となる。

エントロピーの具体的な値は次の式で計算できる。

 \displaystyle
S = -\sum_{i}^{M} \frac {n_{i}}{N} \log{\frac {n_{i}}{N}}


Nは全人口、Mは苗字の種類数、 n_{i}は苗字iの人数である。

「ある二人が結婚して片方の姓の子ども二人を産み、(その二人のみ)世代交代する」という、最もミニマムな世代交代のステップによってエントロピーがどう変動するか計算してみよう。

同じ苗字の組み合わせの結婚の場合、世代が変わっても各苗字の人数は変動しないので、エントロピーは変動しない。

別の苗字の場合、佐藤さん( n_{s}人)と勅使河原さん( n_{t}人)が結婚する場合、次世代の姓がどちらになるかの場合わけが発生する。

  • ケース1:次世代が佐藤姓:次世代は佐藤の人数が n_{s}+1, 勅使河原の人数が n_{t}-1になる

  • ケース2:次世代が勅使河原姓:次世代は佐藤の人数が n_{s}-1, 勅使河原の人数が n_{t}+1になる

ケース1になるか、ケース2になるかの確率は1/2ずつである。それぞれの場合の世代交代前後のエントロピーの差は、他の苗字の項は変わらないので、注目している二つの苗字のみについて考えればよくて、 f(x)=x \log(x)とすれば

ケース1:

 \displaystyle
\Delta S_{1} = - f(\frac {n_{s}+1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}-1}{N}) + f(\frac {n_{t}}{N})

ケース2:

 \displaystyle
\Delta S_{2} = - f(\frac {n_{s}-1}{N}) + f(\frac {n_{s}}{N}) - f(\frac {n_{t}+1}{N}) + f(\frac {n_{t}}{N})


となる。平均エントロピー差はケース1とケース2について1/2をかけた和をとればよいので、佐藤さんと勅使河原さんの結婚・世代交代によるエントロピー変化の期待値は

 \displaystyle
E[\Delta S] =  \sum_{i=(s,t)} \frac{1}{2} \big( \Delta S_{i} \big)= - \sum_{i=(s,t)} \frac{1}{2} \big( f(\frac {n_{i}+1}{N}) + f(\frac {n_{i}-1}{N}) \big) - f(\frac {n_{i}}{N})


となる。ここで、 f(x)=x \log(x)は下に凸なので、常にf(x) \lt \frac{1}{2} \big( f(x-a) + f(x+a)\big)が成立し、平均エントロピー差は n_{s}, n_{t}によらず負の値になる*6。この差は、人数が多い姓と少ない姓がマッチングしたとき、多い姓になる(一極集中する)ときの減るエントロピーのほうが、少ない姓になる(分散する)ときに増えるエントロピーよりも大きいことを意味する。

例として佐藤さんと勅使河原さんについて考えたが、どんな苗字の組み合わせでも同様に考えることができ、世代ステップの更新をするたびエントロピーは上がったり下がったりしながら期待値では減少し、最終的にそれ以上減少しない状態、つまり「全佐藤状態」や「全田中状態」になって、そこで停止する。

多い苗字が多くなる?わけではない

「世代が更新すると、苗字が満遍ない状態(エントロピー大)からだんだん一極集中(エントロピー小)の状態に移行していく」ことは上の議論から言えたわけだが、各ステップではどちらの苗字が増えやすいかの確率は平等で、多いほうが増えやすいわけではない。

では、エントロピーの期待値が負になることは何に由来するのか。上で考えたステップを繰り返し適用することで、他の苗字の数を変えずに「佐藤が増えて勅使河原が絶滅した状態」および「勅使河原が増えて佐藤が絶滅した状態」に遷移でき、それぞれのステップのエントロピー変化は、絶滅という不可逆な変化で解放されるエントロピーの分割払いと見ることができる。「一度0人になった名字は復活しないから」(滅んだ苗字がもっていたシェアが残った苗字に分配される)という直観は、絶滅によるシェアの分配を、期待値での分割払いと対応させることでエントロピーの議論と接続できそうである。

解釈が難しいが、「多い方がより増えるエントロピー減のほうが少ない方が増えるエントロピー増よりもエントロピー変化が大きい」という話は、どうやら結局は絶滅という不可逆な変化の起こりやすさ(少ない側が減った方が絶滅しやすい)の言い換えらしい…と思われる。

いずれにせよ、佐藤は指数関数的に増大しない。

*1:苗字に多様性が多い方がよいという価値観も謎ではある

*2:これで「エイプリルフールネタだよ〜ん、うっそピョーン」と言われたら憤死するかも

*3:苗字の数は電話帳と総務省のデータから推定しているデータらしく、そもそも疑わしい値なのだが、さらにそれを総務省のデータで割って比率を出しており、何かが循環している気配もある!

*4:もともと多い苗字が強いのはある

*5:上のシミュレーションは「N人の中から半分のN/2人をサンプリングし、倍にする」を世代のステップとして更新しており、これによる特定の苗字の増減は超幾何分布で表現される。現在のように姓の比率が小さい場合の近似では、n人いる苗字は次の世代では平均n、分散nの正規分布の人数になり、ランダムウォークのような挙動になる(だいたい√n人くらい)

*6:苗字を構成する人数が多いと、エントロピー差はかなり0に近い値になる