「Garbage in , garbage out (ゴミを入れればゴミが出てくる)」
いかにすごい分析手法だとしても、データがゴミであれば結果もゴミである。
こんにちは、たやちです。
今回は江崎貴裕さん著「分析者のためのデータ解釈学入門 -データの本質を捉える技術」を読んで良かった点をまとめたいと思います。
冒頭に書いた「Garbage in , garbage out (ゴミを入れればゴミが出てくる)」という表現はこれからデータ分析をする人間にとってはいつまでも心に留めておきたい言葉だなと感じました。
本書の感想を3つの要点にまとめてお伝えします。
私の感想をご覧になられて興味があれば是非読んでみてください。
感想のまとめ
データ分析は心構えや準備が非常に重要であり、それを意識させてくれるきっかけとなる本でした。データ分析における注意すべき知識を網羅的に体系立てて説明してくれてとてもわかりやすいです。
データ解釈をする上で、データの性質や結果の解釈の仕方、データ活用の注意点など気を付けるポイントを様々な視点で網羅的にまとめられた内容となります。
本書は3部構成でその中から私が興味をもった3つの内容について感想を書きます。
1.大前提、観測したデータが全てではない
データ観測には歪み(バイアス)が発生する、かつ情報も欠落するので全てを表したデータは存在しない
これを大前提にデータ分析を進めなければ結果ゴミを生み出してしまう原因となります。
観測データが目的に則したものなのかを正確に判断して分析を行う必要があります。
「Garbage in , garbage out (ゴミを入れればゴミが出てくる)」の言葉通り観測したデータや分析のために用意したデータの中にはゴミが存在します。
これは集めたデータが正解ではないということを揶揄した表現なのです。
観測データには必ず歪み(バイアス)が生じます。
例えば、学生に数学が好きかどうかYes/No形式でアンケートを取ったとします。
もし、ある生徒がたまたま数学のテストで良い点数を取った直後にこのアンケートに回答したら「数学は苦手だけれど今回は好きと回答しておくか」といった歪みが発生します。
こういったものが観測における歪みです。こういった歪みが発生することを理解してデータを収集・分析する必要があるわけです。
また情報の欠落も常に発生します。
先程の数学アンケートの例で言えば、好きor嫌いの情報しか判断できません。
どれくらい数学が好きなのか(毎日勉強するくらい好き、なんとなく好きetc…)といった情報の欠落が発生します。
データの観測には歪み(バイアス)が発生する、かつ情報の欠落も発生するので全てを表したデータは存在しないということです。
2.データ分析における数理モデルとは?
理解志向型モデルと応用志向型モデル
ここで言うモデル=数理モデルのことを示しています。
数理モデルを本書の言葉を引用して言い表すと以下とのことです。
データにおける変数の振る舞いや関係性を数理的な表現で模擬したもの
そしてデータ分析において2種類のモデルがあります。
データ分析には様々な手法がありますが、大きく分けると2つに分類できる点はとてもわかりやすかったです。
それが理解志向型モデルと応用志向型モデルです。
理解志向型モデル
ある目的に対してデータから構造の背景を理解することを目指した考え方のモデルです。
例えば、動画コンテンツの視聴履歴や顧客属性データを使ってどのような人がどのような動画コンテンツに興味があるのかを理解するための分析などがこれにあたります。
モデルにおける変数がどのように影響を理解するための考え方なので、重回帰分析や確率分布を指定した統計解析モデルなどを利用することが多いようです。
応用志向型モデル
ある目的に対してデータから予測やデータ生成の精度をより良くすることを目指した考え方のモデルです。
例えば、動画コンテンツを顧客ごとに興味がありそうなものをレコメンドできる仕組みを作るためのモデルなどがこれに当たります。
いわゆる深層学習(ディープラーニング)などが応用志向型モデルになります。
モデルがとても複雑なためデータを解釈することは難しくなりますが、結果の精度を高くすることが第一優先事項ということです。
データを理解するよりもレコメンドの精度を上げで動画コンテンツをより多く見てもらう方が企業的にも良いですもんね。
(もちろんデータの解釈ができて精度も良いのがベストだと思います)
数理モデルを活用する上では以下が大切なんだなと感じました。
- 課題に対して、理解志向なのか応用志向なのかを整理する。
- 数理モデルはあくまで模擬にすぎない。それを前提にモデルを分析する。
- 目的に応じたモデルを選択する。
3.バイアスがあることを念頭にデータと向き合う
観測方法や人の思い込みがデータ分析をゴミにする
データを取り扱うのは全て人が介在します。そのため、データ収集の対象から観測者のどちらにもバイアスが発生します。
バイアスとは「人間の思考や判断に特定の思い込みや偏向などによって起こる認識の歪み」のことです。
このセクションでは本書で取り扱われていたデータ分析をする際に注意が必要なバイアスについて備忘録的に書いていきたいと思います。
データ観測時に発生するバイアス
- 測定基準に関するバイアス
観測するデータが一定の条件を満たしたり、同一環境下で観測されていない事による歪み。
例えば、体感温度のインタビューを行うのに野外だけでなく屋内でもアンケートを行ったことで解答にばらつきが出てしまうなど。
- 選択バイアス
全体のデータから一部のデータを選択したことによる歪み。
例えば、コーヒーの美味しさを苦味だけで判断しようとするなど。(実際は酸味や産地、焙煎方法など様々な因子が美味しさを決めているかもしれない)
選択バイアスの中でも、採用された(生き残った)ものを生存バイアスという。
- 観測介入に起因するバイアス
アンケートの質問方法や解答方式など観測対象者の印象からくる影響による歪み。
例えば、好きor嫌いの解答方式だと肯定的な好きを選択しやすくなってしまうなど。
人がデータを解釈する時に起こるバイアス
- パターン化
人は事象に対して何らかのパターンを見出そうとする性質から発生する歪み。
「101000101001」から左から10の次に1000が来ているので、次の数値は0ではないかと予測するなど。(私が適当に入力した入力した値です)
- 前後即因果の誤謬
「ある事象Aが起きた後にBが起きた」のように考えてしまう歪み。
例えば、朝にコーヒーを飲んだら仕事がうまくいった。だから、朝にコーヒーを飲むことは仕事に良い影響を与えると考えたなど。
(誤謬とは誤った推論をすること)
- ギャンブラーの誤謬
ある独立した確率の事象でも同じ事象が連続して発生した場合、次の事象の確率が低くなっていると考えてしまう歪み。
例えば、サイコロを降って連続10回1の目が出ると11回目は1は来ないだろうと考えてしまうなど。
- 利用可能バイアス
人間は頭に浮かびやすい事象を過大評価してしまう性質からくる歪み。
車と飛行機の事故確率を比べると飛行機の方が低いのに、飛行機に乗る時に落下の想像をしてしまい怖くなってしまうなど。
- 確証バイアス
自分の仮説を証明するために、それに有利な情報を集めたり環境を作ってしまうことからくる歪み。
- 楽観主義バイアス
リスクを過小評価して、自分にとって都合の良いこと想定してしまうこと。
例えば、友人が競馬で勝ったことを聞いて自分も当たるのではないかと考えてしまうこと。
終わりに
本書はデータ分析の手法はそれほど深く触れられている訳ではありません。
その前段のデータをどのように取り扱って解釈するかを理由と方法を丁寧に説明してくれているので、データ分析初学者である私は非常にためになりました。
「データは欠落やバイアスがあるという」前提で分析に挑むことで、より正確な判断ができるように心がけようと思います。
また、データ分析をしていると無意識のうちに分析しやすい情報を意識してしまい「問題を解決するために何を知ることがベストか」を忘れてしまうことがあるそうです。
優先するべきはデータ分析はあくまで手段、データ分析をせずに課題を解決できることも忘れないようにすることが大切とのことでした。
次は姉妹書である「データ分析のための数理モデル入門 -本質を捉えた分析のために -」を読んでみようと思っています。
コメント