相関関係と因果関係の違いを例を交えてわかりやすく説明

2021年7月13日火曜日

Engineer

昨今因果関係が認められないといった文言を良く見聞きしますね。
本記事では、混同されやすい相関関係や因果関係のそれぞれの定義、及び、違いを紹介します。

アイキャッチ


定義

始めに本記事で紹介する言葉の定義を見ていきます

相関関係

「二つの事柄において、一つの事柄が増えているときに、もう一つの事柄が増えている、または、減っている傾向にある二つの事柄の関係」
を言います。

このとき、
一つの事柄が増えており、もう一つの事柄も増えている場合は正の相関であり、
一つの事柄が増えており、もう一つの事柄は減っている場合は負の相関がある
といいます。

因果関係

「ある事象と他の事象の関係が原因と結果の関係である、または、ある事象によって、引き起こされた他の事象の関係性」
を言います。

この定義から見ると相関は、数学的事実のみを対象としており、二つの変数の量の関係性を定義していると言えます。

対して因果は、ある一つの事柄を原因として、また別の事柄という結果が引き起こされたという関係性を定義しており、関係成立となる条件は定義されていません。

例えば、Aさんが月ごとにジムに行った日数の合計を横軸に、月ごとの筋肉増加量を縦軸にしてデータを表に表します。
なお、話を簡単にするためジムに行くことは、筋力トレーニングを実施することと同義とします

正の相関を表す図
この時、より多くジムに行った月は、より多くの筋肉が増加しているため、相関としては正の相関があると言えます。

因果関係では、ひと月あたりの筋肉増加が多く見られる結果は、その月に多くジムに行っていることが原因であるという関係性を見いだすことになります。

相関関係が数学的な関係を見出すとしているのに対し、因果関係は、推論によって関係性が見出される点が異なる点となります

因果推論の根本問題

先ほどジムに行くことと、筋肉が増加することを例に、ひと月あたりの筋肉増加が多く見られる結果は、その月に多くジムに行っていることが原因であるという因果を見出しました

しかしながら、この因果関係が本当に正しいのか?という疑問が残ります
例えば、Aさんはある月に合計1回しかジムに行きませんでしたが、
薬物投与により、その月の筋肉増加量は著しいものになっていたとします。

この時、ジムに行くことと、筋肉が増加することに因果関係はあるのでしょうか?
正確に、ジムに行くことと、筋肉が増加することに因果関係があると判断するためには、ジムに行くまたは、ジムに行かないという点以外全く同じ生活を送るAさんが同時期に2人存在しなければいけません。

でなければ、ジムに行くこと以外の原因で筋肉が増加した可能性を排除できないためです。
しかしながら、自明ではありますが、そのようなAさんを用意することは現実的には不可能です。
因果関係の根本問題を表す図
このように、両方のケースを同時に観測することが現実的に不可能であるため
本質的に、因果関係が正しいことを証明できないことを因果推論の根本問題といいます

この話を聞くと関係性の立証が非常に難しく思います。
観測対象が一つである場合、上記問題に直面し関係性を立証できません。
このことから、観測対象を一つではなく集団に拡大することによって問題解決を図ります。

無作為に選択した集団における因果関係

この因果推論の根本問題に対してどのような解決方法が存在するのか見てみます

始めに、100人の実験協力者を集めます。
次に50人は、週に5回ジムに行き、残りの50人はジムに行かないこととします。
この時、この2グループは無作為(意図的に分類しない)に分類します。また、ジムに行くこと以外は極力同じ生活を送ってもらうものとします。

重要な点は、グループ分けを意図的に分類しないという点です。

作為的な分類なくにグループに属する人々を抽出することにより、グループ分けされた人々の性質に偏りが発生しないようにします。もし、何かしらの意図をもってグループ分けを実施した場合、5回ジムに行ったことが筋肉増加の原因であるのか、グループの性質の偏りが筋肉増加の原因であるのかの判断ができなくなってしまうからです。

こうして、グループに意図的な差はない状態でジムに行くグループと、ジムに行かないグループを作り出し、疑似的に先ほどのジムに行くAさんと、ジムに行かないAさんを同時期に観測可能な状態を作り上げるのです。
こうして、因果関係が確からしいということを導き出します

因果関係とAI

AIは大量のデータの中から指定のアルゴリズムを用いて、相関を導き出します。

このためデータマイニングの有効性を説明する場合によく用いられる『おむつとビール』のように、人間の経験則や先入観を排除し相関から有効なデータの組み合わせを提示することが可能になっています。

AI自体はデータの羅列から相関を見出すことに特化しており因果関係を導き出すことはできません。

だからこそ、人間が無意識に排除してしまうようなデータの組み合わせからも相関を見出し予測を導きます。
このためデータマイニング時に「経験則に基づいてデータの要、不要」を判断し
データを排除してしまうとそのデータが貴重な相関を導くデータであるかもしれません。

人間の経験則により入力データを狭めたことが原因で、導かれなかった相関が実は有益な情報かもしれません。

一方で大量のデータを保持し、AIに学習させると当然コストがかかります。
無尽蔵に資金があれば問題ありませんが、現実問題そうはいきません。

AIの学習に利用するコストを考慮しながら、最適な入力データを最大限選択することもマイニングの重要な要素です。

まとめ

相関関係と因果関係の違いを紹介させて頂きました。
「パンは危険な食べ物」という誤った因果関係を導くことを揶揄したジョークが存在するように因果関係の正しらしさを説明することは難しい課題です。

ややもすると、個人や組織の考えによってこじつけともとれる因果関係が導かれることがあります。

このため、原因と定義した事柄によってのみ、引き起こされた結果であるかを論理的に説明できることが重要です。

社内で調査したデータを用いて、一つの意見を報告したとします。
この時周りの人々の同意を得られなかった時、原因となるデータと導いた結果となる意見に妥当性が感じられなかったのかもしれません。

都合の良いデータのみを集めていなかったか?など導いた結果に妥当性があるか疑ってみるとまた別の視点が得られるかもしれません。

AIで副業ならココから!

まずは無料会員登録

プロフィール

メーカーで研究開発を行う現役エンジニア
組み込み機器開発や機会学習モデル開発に従事しています

本ブログでは最新AI技術を中心にソースコード付きでご紹介します


Twitter

カテゴリ

このブログを検索

ブログ アーカイブ

TeDokology