原因と結果を見極めるスキル

因果関係と相関関係の違い
世の中にあふれる様々な統計結果を元に、百家争鳴の体で様々な議論が取り交わされているのを見ることが多いかと思います。ビジネスの場でもデータを元に打つべき手の判断をしなければいけない時代になってきました。ところが、中には「原因」と「結果」を混同していたり、きちんと切り分けられていない分析もあり、このような分析に基づいてしまうと判断を大きく誤りかねません。
それでは、分析の段階においてどのようなスキルを身につけて行えばよいのでしょうか。
株式会社アイズファクトリー データサイエンス部山崎氏のエントリーです。

「因果関係」と「相関関係」

はじめに

分析をする際には、変数間の関係を見ることが多いですが、その関係を適切に見るためにはいくつか注意事項があります。例えば、相関関係と因果関係とはイコールではないことや、相関があっても疑似相関であるといったことが挙げられます。

これらの点については、きちんと考慮しないと変数間の関係を正しく推定できません。その結果、適切ではない分析結果によって誤った結論を導いてしまう可能性があるので注意が必要です。今回は、因果関係をとらえるために気を付ける点について説明します。

因果関係とは

冒頭でも書きましたが、2つの変数間の関係性を見る際に相関関係を見ることが多いですが、この相関関係と因果関係は混同されやすいため、まずはその違いについて説明します。
相関関係とは、片方の変数が変化すれば、もう一方の変数も変化するという、2つの変数間の関係性を意味しています。一方、因果関係とは2つの変数の間に原因と結果の関係があることを意味しています。因果関係にも、当然2つの変数間に関係性は存在しますが、関係性に方向がある点が相関関係と大きく異なる点です。そのため、相関関係は因果関係であるための必要条件ではありますが、十分条件ではないと言えます。

因果関係を明らかにする方法

さて、因果関係はどのように明らかにすればよいのでしょうか。因果関係判定のガイドライン 1) に従うと、因果関係があると主張するためには、いくつかの基準を満たしている必要があります。代表的なものを挙げると、「原因と結果の間に相関関係があること」や、「原因の後に結果が生じるという時間的な先行性などの基準」があります。

これらを考慮し厳密に因果関係を明らかにできる方法として、ランダム化比較実験(RCT:Randomized Controlled Trial)という方法が知られています。これは、原因と考えられる変数以外がランダムになるように対象を抽出することで、結果の変数が原因の変数からのみ影響を受けている状況を作り出すことで因果関係を明らかにするという方法です。ただし、実際に分析対象となるデータはRCTの前提である対象がランダム抽出されているという条件を満たしていないデータ(以降、「観察データ」と呼ぶ)であることが多いため、この方法を適用できる場合は限られています。

因果効果を適切に推定するための変数選択 ~重回帰分析の例~

観察データの因果関係を分析する手法はいくつかありますが、ここでは、重回帰分析を用いて要因分析を行う際に、因果関係をきちんと考慮するための方法について説明します。
因果関係を考慮しないで重回帰分析を行うと、説明変数が目的変数に与える効果(以降、「因果効果」と呼ぶ)がきちんと推定できない場合があります。具体的には以下の4つのケースがあります。

1.因果の流れが逆のケース 
購買数量と売上の関係は原因と結果の関係ですが、回帰係数は説明変数と目的変数の関係性しか表していないため、売上(結果)が変わると購買数量(原因)が変化するように見えてしまいます。
2.因果の上流側に共通の要因が存在するケース(「交絡」)
購買数量と売上の両方に影響を与える価格という要因が存在した場合、この要因を説明変数に入れずに推定された回帰係数は価格による影響を含んでおり、購買数量と売上の因果効果を適切に表せていない可能性があります。
因果の上流側に共通の要因が存在するケース「交絡」の図
3.因果の合流点において選別されているケース(「選択バイアス」)
商品Aの購買金額と商品Bの購買金額の合計値を優良顧客か否かの判定の基準とした場合、優良顧客のみのデータを見ると商品Aと商品Bの購買金額に負の相関がみられる場合がありますが(回帰係数は負の値)、一般的にヘビーユーザであればどの商品も多めに購買する傾向があるのでこれは適切ではありません。
因果の合流点において選別されているケース「選択バイアス」の図
4.因果の間に要因が存在するケース(「中間変数」)
購買数量の他に1人当たりの平均購買数量という説明変数を入れていた場合に、購買数量が売上に及ぼす因果効果が、購買数量が売上に及ぼす効果と1人当たりの購買数量という説明変数を介して売上に及ぼす効果の2つの効果に分かれて推定されてしまうため、購買数量と売上の回帰係数はこれらの因果効果とずれてしまいます。
因果の間に要因が存在するケース「中間変数」

★バックドア基準★

追加した説明変数(共変量Z)が以下の条件を満たすとき、原因(説明変数X)から結果(目的変数Y)の因果効果の推定値と回帰係数が一致するとみなすことが妥当となります。
前提: Xの下流側に矢印をたどったときにYに繋がる経路がある

  1. ZはXの下流側にない
  2. Xから出る矢印を除いたときの因果構造において、Zにより、(XとYの)上流側の共通要因からXとYの両方に影響を与える流れがすべて遮断されている

i.の条件については、前述の4つのケースのうち、3. 「選択バイアス」および4. 「中間変数」が該当します。このケースでは、Zを説明変数に追加してはいけないということを言っています。一方、(ⅱ)の条件については、前述のケース2.「交絡」が該当します。このケースでは、Zを説明変数に追加する必要があるということを言っています。

バックドア基準により選定した変数を用いて重回帰分析により要因分析を行うことで、前述の4つの問題を回避することができると考えられています。

終わりに

重回帰分析をする目的として、要因の分析と予測という2つがあります。今回は、要因分析を精緻に行うために、バックドア基準に基づき選定した説明変数を用いた分析をすることで、因果関係をきちんととらえることができることをご紹介しました。一方、予測という観点では、必ずしも因果効果を精緻にする必要はないため、変数選択の基準として例えばAIC(Akaike’s Information Criterion、赤池情報量基準)などを用いる場合もあります。目的によって、変数選択の基準が異なるので、状況に応じて使い分けが必要です。

1. Hill, A. B., The Environment and Disease: Association or Causation?, Proc. R. Soc. Med., 58, 295-300, 1965.

データサイエンス部
山崎(株式会社アイズファクトリー)

この記事は株式会社アイズファクトリーが提供しています。

株式会社アイズファクトリー

株式会社アイズファクトリーは、理学博士が中心となり設立されました。
「全ての人に成功確率UPを届ける」をキャッチフレーズに、科学を活用してより良い社会に貢献すること、その後のシステム開発を通じて、お客様企業の業務効率向上に貢献すること、を目指しております。

 近年、ビッグデータ活用の必要性が高まっており、データマイニングがより注目されています、過去300超のプロジェクトで培った解析力と実ビジネスへの応用力は、グルメ情報提供サイト、ECサイト、広告関連企業、教育関連企業、自動車メーカー、公官庁、といった幅広い業界の大手企業・団体様から高い評価を得ております。

データサイエンスの概要を無料配信中!無料セミナーの動画と講義レジュメを配信!

通勤講座は今すぐ無料で受講できます。
まずはお試しください!

登録すると無料で試せます

  • 無料セミナー
    「データサイエンスの入口」
  • 講義レジュメ(PDF)
    無料セミナーのスライドがダウンロードできます!

※無料講座の内容は予告なく変更される場合があります。
あらかじめご了承ください。