回心誌

日々是回心

「桜を見る会・虚偽答弁に関する質疑」の文字起こし(2020年12月25日官房長官会見)

www.sankei.com

この件、どういうやりとりでこういう回答が出てくるんだろうか、と気になったので、動画を実際に見て、せっかくなので文字起こししてみた。

www.kantei.go.jp

上の動画の28:12くらいから

加藤官房長官
(質問者を指名)

毎日新聞・佐藤:
毎日新聞、佐藤です。
桜を見る会の)関連でお伺いします。
安倍前総理は昨日の会見で「答弁の中には事実に反するものがあった」と発言され、総理も昨日「事実と異なる答弁に私自身もなってしまった」と述べられました。
野党は両氏の国会答弁を「虚偽答弁」と批判しておりますが、両氏は虚偽答弁との言葉は使われておりません。
政府としては、お二人は虚偽答弁を行ったとの御認識なのか、国会答弁における虚偽の定義と併せてお聞かせ下さい。

加藤官房長官
何をもって虚偽答弁と言うかについては必ずしも固定した定義が国会の中にあるとは承知はしておりませんので、使われる文脈によって判断されているんだと思います。
辞書を開けばですね、それぞれ、例えば、広辞苑の中では、「真実でないこと、また、真実のように見せかけること、嘘、偽り、そらごと。」と言った言葉が並んでいるところであります。

虚偽の定義を聞かれたから、それについて答えただけ、という側面も、まあ一応ある。
ただ、今更驚きはしないけど、聞かれたこと(お二人は虚偽答弁を行ったとの御認識なのか)には答えてないんだよね。国語のテストだったら0点…かは分からないけど、半分以下に減点されるよね。

あえて広辞苑を引いて、「真実でないこと」……etcと答えてるということは、辞書的に言えば虚偽には当たるよね、という見解を示唆しているようにも見えるけど、いわゆる霞が関文学ってやつなんかね。よく分からんけど。

誰にでも分かるように答えてほしいわ。

コロナの日別感染者数がベンフォードの法則に従うか

ベンフォードの法則とは、自然界や社会活動から測定される各数値の最大桁の数字(1〜9)(少数の場合は0は無視。0.02の場合は2)を取得すると、その分布は、一様とはならず、「1」がおよそ30%、「2」がおよそ17%、「3」がおよそ12%………「9」が5%となる、というもの。

ja.wikipedia.org



元の計測値がべき乗則に従うのであれば、必然的に最大桁の数字もそのような分布になる、というだけの話じゃね?と思ってて、なぜこんなに使われてるのか分からん。会計監査で用いられることもあるらしい。けど、元の分布をみた方がいいんじゃないかと思っちゃうんだけど。

実際、どんなもんかなーと思って、新型コロナウィルスの日別感染者数を使ってやってみた。


実際やってみると、こんな感じ。
4〜6が多いせいで、ちょっと歪な感じになっている。赤色の折れ線は、ベンフォードの法則に完全に従う場合の分布。

f:id:interferobserver:20201222134408p:plain
新型コロナウィルスPCR検査陽性者数(日本、日別)から最大桁の数の分布をプロット

元データは以下(厚生労働省のオープンデータ)
https://www.mhlw.go.jp/content/pcr_positive_daily.csv

第2波収束から第3波までの期間(9〜10月)で500前後のデータが多かったことが起因してそう。

f:id:interferobserver:20201222134945p:plain
新型コロナウィルスPCR検査陽性者数の推移(日本、日別)

第1波以前の停滞期は別として、ほとんどの期間で数百〜3000で推移しており、分布が偏っていると、ベンフォードの法則通りにはならない、ということが確認できる。


次に、都道府県別のデータでもやってみた。

元データは以下だが、累積の値しかなかったので、整形して新規増加分を作成した後に各値の最大桁の数を取得している。

github.com

f:id:interferobserver:20201222135532p:plain
新型コロナウィルスPCR検査陽性者数(日本の都道府県別、日別)から最大桁数値の分布をプロット

上に示した日本全体の感染者数データを比較すると、綺麗な階段状にはなっている。単純に、大数の法則的に、サンプルが多いほど滑らかになりそう。また、各都道府県の人口規模自体もある程度冪乗に分布しているため、都道府県別に分割することによってベンフォードの法則に近くなる効果もありそう。

1、2がベンフォードの法則より多い。べき乗則に完全に従うのであれば、ベンフォードの法則通りになるはずで、そうでないというのは、べき乗則と比較して少なめに分布していることを示唆していそう。

もし感染拡大が指数関数的であれば、べき乗則に従うはずであるが、緊急事態宣言であるとかソーシャルディスタンスだとかで軽減策が実施され、指数関数的にはならない。そのために少なめに偏るんではないかと思われる。

ま、元のデータの分布を分析すれば分かることではあるんだけど……。


次に、全世界の新規感染者数の日別推移でみてみる。

元データはこちらを使用。

github.com

location列がWorldとなっているものを抽出して推移をみてみる。

f:id:interferobserver:20201222142122p:plain
新型コロナウィルス感染者数の推移(世界、日別)

明らかに異常な値が紛れ込んでしまっているが、放置。最大桁の数の分布をみるだけであれば大きく影響することはないし、面倒なので。

f:id:interferobserver:20201222141344p:plain
新型コロナウィルス感染者数(世界、日別)から最大桁の数の分布をプロット

ガッタガタっすね……。


同じデータソースで、国別の新規感染者数もあったので、同様に最大桁の数の分布をみてみる。

f:id:interferobserver:20201222142803p:plain
新型コロナウィルスPCR検査陽性者数(世界、国別・日別)から最大桁の数の分布をプロット

かなり綺麗になった。