「データとファクトで考える」とは

土井勉(一般社団法人グローカル交流推進機構)

時々、公共交通の存廃について、データとファクトで考えるということを聞きます。実際にはどんなことでしょうか?

往々にしてデータは数字ですから、そこに息を吹きかけて様々なファクトを語るようにすることです。

先ず、「考える」とは何でしょうか?

 「考える」とは、神戸大学の小池淳司先生によると、何か既にある答え(正解)を探すことではなく「推論」をすること1)だとされています。

 推論とはモノやコトの関係性を把握することです。

 ここでは、モノやコトの間に何かの関係があるのかを既存のデータ(数字)やファクト(事象)をみながら整理をしていくことを「考える」=推論をする、ということにしています。

 データ(数字)があるから、重要な事実が明らかになる、ということは普通はありません。いくつかの仮説を設定して、それに基づいてデータを集計したり、関係性を見たりすることで、これまで「勘」で思っていたことを定量的に表現することができるようになります。定量化すると、可視化ができ、また他のものとの比較が容易になります。

 AとBを比べると、「Aの方が200多い」というようなことです。これなら、いろんな考えを持つ人たちと、意見の交換を行い、意識を共有することが可能となります。

 ここで是非、注意してほしいことは推論をする際に仮説をつくることです。往々にして、当初の仮説通りにならずに、仮説を組み立てなおすことがあります。この繰り返しを通じて推論=考えが深くなっていくのです。

ここで大事なことはデータの信頼性

 データとは私たちの社会の状況や活動の実態を数字で示すものです。人口やバスの利用者数などが該当します。

 また、ファクトとは、事実やデータに関連づけられた事柄のことで、バス路線の歴史的な経緯や、通学の利用が多い路線など様々なものが該当します。

 ここでは、データの重要性について考えたいと思います。データがきちんとしていないと、これをもとに考えたことが砂上の楼閣になってしまうからです。

 データで問題点を可視化する際に、そのデータはほんとに信頼できるのかを確認しておくことが重要です。

 例えば、ある会議で専門家の方が、海外の都市でLRTの税金投入について調査をしたところ、市民の60%が賛同している、というプレゼンをされました。

そうか、なるほど、と思って聞き流してしまいそうになりますが、ちょっと待ってください。ここでいう市民って、具体的には誰のことでしょうか?市民全体から年齢階層や男女などを考慮して、無作為に抽出して調査した結果の60%であれば、説得力があるといえます。

しかし、例えば、LRTを日常的に利用している人たちだけを対象として調査をした結果の60%なら、どうでしょうか?これでは市民全体の意見ではなく、LRT利用者の意見というべきですね。さらに、日常的に自動車利用をしている人を対象にLRTの評価を聞くと、また全然違った結果になることが想像できます。

この発表をされた学識経験者の方にこの件を質問しても、あまり明快な回答がありませんでした。ご発表が他の研究・調査からの引用だったからですね。

 データを収集する際には、母集団(データを収集する際に想定する母体となる集合)は何かを明確にする必要があります。またデータの集計結果の発表などの際にも、データの収集方法について明らかにする必要があります。これらが明確でないとデータを見ている人たちをミスリードする恐れがあるからです。また、こうしたことが明記されていないデータには注意が必要です。

 私たちもデータとファクトで語る際に、こうしたミスリードがないように十分に注意する必要があります。

データの見方、どれを代表する値にするのか:平均値、中央値、最頻値


 平均値、中央値、最頻値という言葉は中学か高校の授業に出てきているので、皆様も聞いたことはあると思います。でも、授業では意外にあっさりと通り過ぎている気もします。

 そして私たちは何気なく平均値が集団を代表する値だと考えがちです。集団が正規分布(図ー2を参考にしてください。正規分布が何かについては別の機会に譲ります)しているのであれば、平均値が集団を代表する値であることには間違いがありません。ただし、集団は正規分布しているものばかりではありません。

図-1 所得金額階層別世帯数の相対度数分布:国民生活基礎調査(2022年度調査)

 さて、ここで図―1は、厚生労働省が実施している「国民生活基礎調査」(2022年度)による、わが国の世帯の所得金額の分布を表しています。

 平均値(平均世帯所得金額)は546万円/年ですから、感覚的にはまずまずの所得を我々は得ているなあ、ということになります。平均値は総所得を総世帯数で割り算して算出できます。

一方で世帯所得の中央値は423万円/年。中央値は、ずらっと所得別に世帯を並べて、その真ん中の値ですね。平均値は総所得を総世帯数で割り算して出しますが、中央値は所得を順番に並べるという違いにご注意下さい。その中央値が423万円/年になります。そうするとわが国の世帯の半分は年収423万円/年以下ということになります。この中から税金や社会保険などを支払うのですから、手取りはもっと少なくなりますので、世帯所得としてはかなり厳しい状況であることがわかります。

さらに最頻値について。14.6%と最も多くの世帯が含まれる所得階層は200~300万円/年になります。

 以前、「公共交通トリセツ」にバスの運転士不足の一因に年収が低いことを書きました。その金額が400万円/年(2021年度、厚生労働省調べ)2)でした。わが国の世帯所得の中央値は423万円/年、最頻値は200~300万円/年ですから、バスの運転士の所得だけが低いということではなさそうです(と、あっさり通り過ぎても良い訳ではない問題ですが)。

 こうして世帯所得の中央値や最頻値をみると、平均値だけではわからない、わが国の世帯所得の問題に気づくことになります。

 世帯所得の平均値と中央値(や最頻値)との差はどこからでてきたのでしょうか?

 これは、図ー1の右側にある少数の高額所得者が平均値を引き上げているからです。世帯所得の分布形は真ん中に大きな山があり、左右に分布が広がる正規分布ではなかったのです。日本でも少数のお金持ちと圧倒的多くのそれ以外の人々が存在する社会になってきたようです。

このように平均値だけで世帯収入を議論すると、日本の世帯収入を代表するのは500万円/年ではなく、400万円/年あたりだという重要な示唆に気づかない恐れがあります。

 

 通常のアンケート調査の結果は、正規分布する場合が多いですが、お店の売り上げや消費金額、それに年収などは、図-1と同様の右側に長く延びる分布形になることがあります。その場合は平均値だけでなく、中央値や最頻値なども確認をしておくことが望ましいと思います。

 参考として、正規分布の図を下に示します。図-1の形や平均値、中央値、最頻値の場所の違いをご確認下さい。

図-2 正規分布

相関関係と因果関係

 データでファクトを考える場合に、私たちが時々間違うのが、相関関係と因果関係です。

 公共交通の意義を語る際にも、高齢者の移動を支えることで「健康」を維持することができる、ということはよく言われています。高齢者の移動と健康は相関関係にあると言えるでしょう。

 ただ、移動することができるから健康なのか、健康だから移動をすることができるのか、については諸説様々な状況だと思います。つまり、どちらが原因でどちらが結果なのか、は(少なくとも現時点では)ハッキリとはわからないため、因果関係があるとまでは言えないでしょう。

 「移動」と「健康」の2つ指標だけでなく、その間に「美味しい食事」「友人との会話」などの指標を挟んでみると、もう少し奥深い分析ができるかも知れません。

 ここでは、かなりあっさりとデータとファクトについて書いてみました。読者の皆さんがデータに向き合う際に、少しでも参考なれば幸甚です。

 なお、小池淳司先生が神戸大学の職員の皆様を対象にした連続講義、「職員との教養講座」には多くの重要な気づきが含まれています。今回のトリセツも多くの刺激を小池先生からいただいたものです。YouTubeに公開されていますので、こちらもご参考にして下さい。

■参考資料

1)小池淳司:職員との教養講座「第3回思考とは何か」

YouTubeは↑をご覧ください

2)公共交通トリセツ:バスの運転士不足について考える

バスの運転士不足について考える
担当:土井 勉(一般社団法人グローカル交流推進機構) 運転士不足の問題への対応策は無いのでしょうか? 運転士不足キャンペーンがさらに人材不足を助長している可能性があります。さらに、人材確保のための様々な取組がはじまっています。 バス運転士の...