ちょき☆ぱたん お気に入り紹介 (chokipatan.com)
第1部 本
数学・統計・物理
データ分析の力 因果関係に迫る思考法(伊藤公一朗)
『データ分析の力 因果関係に迫る思考法 (光文社新書)』2017/4/18
伊藤 公一朗 (著)
(感想)
ビッグデータが存在するだけでは、「因果関係」の見極めはできません。データの扱い、分析、解釈においては人間の判断が重要な役割を担うのです……因果関係分析に焦点を当てたデータ分析について、数式を使わずに具体例を用いて解説してくれる入門書で、内容は次の通りです。
第1章 なぜデータから因果関係を導くのは難しいのか
第2章 現実の世界で「実際に実験をしてしまう」――ランダム化比較試験(RCT)
第3章 「境界線」を賢く使うRDデザイン
第4章 「階段状の変化」を賢く使う集積分析
第5章 「複数期間のデータ」を生かすパネル・データ分析
第6章 実践編:データ分析をビジネスや政策形成に生かすためには?
第7章 上級編:データ分析の不完全性や限界を知る
第8章 さらに学びたい方のために:参考図書の紹介
*
「第1章 なぜデータから因果関係を導くのは難しいのか」では、「世の中は怪しいデータ分析結果で溢れている」として、いくつかの具体例が紹介されています。
例えば、2005年頃から多くの国で始まった子供たちへのノートパソコンの無償支給は、受け取った学校の子供たちの成績が、それ以外の子供たちの成績より高かった(相関関係があった)ために効果があると信じられてきましたが、2009年に行われたランダム化実験によって、ノートパソコンの無償支給が子どもの成績に与える影響は、ほぼ皆無だということが明らかになったそうです。
……これには驚いてしまいました。個人的に「ノートパソコンを自由に使えることは子供の頭を良くする(成績を上げる)」ことに直結しそうな気がしていたからです。……そうだったんだ……。
伊藤さんは、「ビジネスの現場にしろ政策決定の過程にしろ、物事を決定するさいに鍵になるのは多くの場合「因果関係」であり、相関関係ではないのです。」と言っていますが、相関関係と因果関係の違いを見きわめることって、とても大事なんですね!
しかも最近は、インターネットなどからビッグデータを容易に得やすいので、大量のデータを分析すること(しかもAIに分析してもらうこと)が正しい分析につながると勘違いしやすいですが、本書には「この問題はビッグデータのようにデータの観測数が増えることだけでは解決しない」ときっちり書いてありました……確かに……評価対象に合うデータを正しく分析できなければ、大量データがいくらあっても「有効な分析結果」になるわけがありませんよね……。
そして、正しい因果関係を見つけるための方法については、「第2章 現実の世界で「実際に実験をしてしまう」――ランダム化比較試験(RCT)」で具体的に教えてもらえます。
「因果関係をデータ分析によって明らかにする最良の方法はRCT(ランダム化比較試験)」で、その鉄則1は、「分析で明らかにしたい因果関係を測定できるような適切なグループ作りをする。比較グループを設けることは不可欠である」。鉄則2は、「グループ分けは必ずランダムに行う」、鉄則3は、「各グループに十分なサンプル数を振り分ける」ことだそうです。
RCTには、「因果関係が科学的に示せる」、「分析手法や結果に透明性がある」という強みがありますが、「実験の実施にあたって費用・労力・時間・各機関の協力が必要」だというが弱みもあります。残念ながら、これを行うには、かなりの費用がかかってしまうのです。
そこで「第3章 「境界線」を賢く使うRDデザイン」では、あたかも実験が起こったかのような状況を用いて因果関係を分析する手法の「自然実験」が紹介されています。これは、例えば「70歳で医療費の自己負担額が3割から1割に減少すること」を利用して、この自己負担額の変化で、患者の病院への態度に変化があるかを分析するというような方法だそうです。
その鉄則は次の2つ。
・RDデザインの鉄則1:「境界線」を境に1つの要素(X)のみが「非連続的」に変化する状況を見つけ出す
・RDデザインの鉄則2:境界線付近でX以外の要素が非連続的に変化していないかのチェックを行う
そして次のような3つの強み、2つの弱みがあるそうです。
・RDデザインの強み1:仮定が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる
・RDデザインの強み2:主要な結果を図を用いて示せることで、分析者以外に対しても理解がしやすく、透明性のある分析ができる
・RDデザインの強み3:RDデザインを利用できる「境界線」はビジネスや政策の様々な場所・場面に存在するため、RCTが実施できない際に有効な分析手法の一つである
・RDデザインの弱み1:RDデザインに必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできず、この点はRCTに比べて大きな弱点である
・RDデザインの弱み2:RDデザインは、境界線付近のデータに対しての因果関係しか主張できないため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある
*
なるほど……この方法には確かに「弱み」はありますが、既存のデータを使って分析できるので、RCTに比べて格段に費用がかからない「強み」は大きいと思います。
続いて「第4章 「階段状の変化」を賢く使う集積分析」では、「燃費規制が階段状に変わる」などの「階段状の変化」を用いる分析法で、第3章の「境界線」が「階段状」になった、という感じでした。
さらに「第5章 「複数期間のデータ」を生かすパネル・データ分析」は、複数のグループに対し、複数期間のデータが入手できる場合の分析法ですが、これは条件がかなり難しいので、実際には成り立たない状況も多いようです。
そして「第6章 実践編:データ分析をビジネスや政策形成に生かすためには?」では、「アメリカを始めとする諸外国では、RCTなどを用いた因果関係分析を企業や政府の意思決定に生かす動きが加速している」そうで、例えばアメリカでは、オバマ大統領がエビデンス(証拠)に基づく政策形成を提唱し、エビデンスに基づく政策評議会が作られたようです。
これは本当に有効な政策かどうかを評価する上で、偏見や、有力者のごり押しなどを排除できそうな気がするので、とても良いことだと思います。この動きは日本にも起こっているそうで、今後に期待したいです。
さらに「第7章 上級編:データ分析の不完全性や限界を知る」では、「どのようなデータ分析手法にも不完全性や限界があることを認識しておくことが重要である」という注意事項が書かれていました。
ここでは根本的なデータの問題例として、次のものがあげられています。
1)データ測定に問題があり、数値が正しく記録されていない。
2)観測値に大量の欠損値が見られる。
3)本来はあらゆる世帯から取得すべきデータが、非常に偏ったサンプルからしか取れていない。
……確かに。たとえRCTを使って実験・分析したとしても、正しいデータがとれていなければ、意味のない分析しかできません。
ここでは他にも、「データ分析の結果には「出版バイアス」や「パートナーシップ・バイアス」という問題が出てくることがある」とか、「介入グループに施した介入が比較グループへも「波及効果」を持つ場合は注意が必要」とかの、さまざまな問題点が指摘されていました。
『データ分析の力 因果関係に迫る思考法』……データ分析を行う上で、とても重要なことを分かりやすく教えてもらえて、とても参考になりました。数式をほとんど使っていないので、文系の人にとっても読みやすいと思います。(なお数式による説明に興味がある方のために、巻末に「数字付録」もついています)。
データ分析力は、すべてのビジネスマンにとって重要な能力だと思います。みなさんも、ぜひ読んでみてください。
* * *
なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。
Amazon商品リンク
興味のある方は、ここをクリックしてAmazonで実際の商品をご覧ください。(クリックすると商品ページが新しいウィンドウで開くので、Amazonの商品を検索・購入できます。)