数学が苦手でもわかる!AIを理解するための「データの関係性」入門(相関)
はじめに:AIは「データの関係性」を見つけている
AIが私たちの生活やビジネスに浸透し、データ分析や意思決定を支援する場面が増えてきました。AIは、膨大なデータから何かを「学習」していると言われますが、具体的に何を学習しているのでしょうか?
AIが行っていることの一つに、データとデータの間の「関係性」を見つけ出すということがあります。例えば、過去の顧客データから「このタイプのお客様は、Aという商品を買った後にBという商品も買う傾向がある」といった関係性を見つけ出し、次に類似のお客様が現れた際にB商品を推奨するといった具合です。
このデータ間の「関係性」を理解するための最も基本的な考え方が、「相関」と呼ばれるものです。統計学の世界では非常によく使われる言葉ですが、難しい数式を抜きにしても、その概念を理解することはAIがどのようにデータを扱っているのかを知る上で非常に役立ちます。
この記事では、「相関」とは何か、そしてそれがAIやビジネスにどう関わるのかを、数式を使わずに分かりやすくご説明します。数学が苦手だと感じている方も、ご安心ください。概念とイメージで捉えることを目指しましょう。
「相関」とは?二つのデータの「連動性」を見る考え方
「相関」を一言でいうと、「二つのデータが、それぞれどのように連動して動くか」を示すものです。
例えば、以下のような二つのデータがあったとします。
- データ1: 広告にかけた費用
- データ2: その後の商品の売上
もし、広告費をたくさんかけた月に売上も増える傾向があるなら、この二つのデータには「関係性」があると言えます。逆に、広告費を増やしても減らしても売上がまったく変わらないなら、この二つのデータの間にはほとんど「関係性」がないと言えるでしょう。
この「関係性」の強さと、それが同じ方向に動くのか、逆方向に動くのかを示すのが「相関」という考え方です。
相関の種類:正の相関、負の相関、無相関
相関には主に以下の3つのパターンがあります。具体的な例で見てみましょう。
-
正の相関(同じ方向に動く関係)
- 例:「気温」と「アイスクリームの販売数」
- 気温が上がるとアイスクリームの販売数も増える傾向があります。このように、一方が増えると他方も増える、あるいは一方が減ると他方も減る、という同じ方向への動きがある場合を「正の相関がある」と言います。
- ビジネス例:「従業員の研修時間」と「生産性」など。
-
負の相関(逆の方向に動く関係)
- 例:「商品の価格」と「販売数」
- 一般的に、商品の価格を上げると販売数は減る傾向があります。このように、一方が増えると他方は減る、という逆方向への動きがある場合を「負の相関がある」と言います。
- ビジネス例:「競合の数」と「自社の売上」など。
-
無相関(関係性がほとんどない)
- 例:「身長」と「数学のテストの点数」
- 身長が高いからといって数学の点数が高い、あるいは低い、という傾向は一般的にありません。このように、二つのデータの間に特に決まった連動性が見られない場合を「無相関である」と言います。
- ビジネス例:「従業員の血液型」と「営業成績」など(おそらく関係ないでしょう)。
これらの相関の強さは、「相関係数」という0から+1、または0から-1までの間の数値で表されることがありますが、ここでは「+1に近いほど強い正の相関」「-1に近いほど強い負の相関」「0に近いほど無相関」という概念的な理解で十分です。
最も重要な注意点:「相関」は「因果関係」ではない
相関を理解する上で、最も、そして最も重要な注意点があります。それは、「相関がある」ことと「因果関係がある」ことは全く違うということです。
- 相関関係: 二つのデータが一緒に動く傾向がある、という事実。
- 因果関係: 一方のデータが原因となって、もう一方のデータが結果として生じる、という関係。
先ほどの「気温が上がるとアイスクリームの販売数が増える」という例は、強い正の相関があります。そして多くの場合、「気温が上がる」ことが原因で「アイスクリームが売れる」という因果関係も成り立っています。
しかし、「ビールの販売数」と「海水浴場での水難事故件数」の間にも、夏場に強い正の相関が見られることがあります。しかし、これは「ビールが売れると事故が増える」という因果関係があるわけではありません。どちらも「気温が上がる」という共通の原因によって引き起こされた結果である可能性が高いのです(暑いからビールも売れるし、海水浴客も増えて事故のリスクも上がる)。
AIはデータの中からこのような「相関」を見つけ出すのは非常に得意です。しかし、その相関が本当に因果関係によるものなのか、それとも別の隠れた原因による見せかけの相関(疑似相関)なのかを判断することはできません。
ビジネスにおいて、AIが「AとBには強い相関があります」と示した場合、私たちはすぐに「ではAを増やせばBが増えるのだな」と因果関係があると決めつけてしまいがちです。しかし、そこに因果関係がないとしたら、Aを増やしてもBは増えず、間違った意思決定をしてしまうことになります。
AIが出した分析結果や予測をビジネスに活かす際には、示された「相関」が、本当にビジネス上の「因果」に基づいているのかどうかを、私たちの経験や専門知識、さらには別の実験などによって慎重に見極める必要があるのです。これは、AI活用の限界を知る上でも非常に重要なポイントです。
AIにおける「相関」の役割
AI、特にデータを学習して予測や判断を行うタイプのAIは、この「相関」の考え方を様々に活用しています。
- 予測モデル:
- 例えば、過去の広告費、季節、曜日のデータから将来の売上を予測するAIモデルは、それぞれの要因(広告費、季節、曜日)と売上の間にどのような相関関係があるかを学習しています。学習した相関関係に基づいて、「このくらいの広告費を使えば、この曜日に、このくらいの売上が見込めるだろう」と予測を立てます。
- 株価予測、需要予測、顧客の離脱予測など、多くの予測タスクでデータ間の相関関係が重要な役割を果たします。
- データ選びと特徴量エンジニアリング:
- AIに学習させる際、どのデータを入力として使うか(これを「特徴量」と呼びます)を選ぶことがあります。この時、予測したい結果と強い相関があるデータを優先的に選ぶことで、AIの学習効率や精度が向上することがあります。
- ただし、あまりに相関が強すぎるデータ(例:売上予測なのに、ほとんど同じ意味を持つ「販売金額」を入力に使うなど)や、逆に全く相関のないデータは、学習を妨げることもあります。
このように、AIは人間の代わりに膨大なデータから相関関係を効率的に見つけ出してくれます。しかし、それがビジネスにおいて本当に意味のある関係性なのか、因果関係なのかを解釈し、最終的な意思決定を下すのは、私たち人間の役割です。
まとめ:概念を知ることがAI理解の第一歩
この記事では、AIによるデータ分析の基礎となる「相関」という考え方をご紹介しました。
- 「相関」とは、二つのデータがどのように連動して動くか、その関係性の強さと方向を示すものです。
- 同じ方向に動くのが「正の相関」、逆方向に動くのが「負の相関」、関係性がほとんどないのが「無相関」です。
- 最も重要なのは、「相関がある」ことと「因果関係がある」ことは全く違う、という点です。 AIは相関を見つけますが、因果関係は判断できません。
- AIは予測などで相関関係を利用していますが、その解釈やビジネスへの応用には人間の判断が不可欠です。
難しい数式を理解していなくても、「相関」とはデータ間の連動性を見る概念であり、AIがデータから関係性を見つける際の基礎となっている、ということを知っておくだけで、AIの話がぐっと分かりやすくなったのではないでしょうか。
AIをビジネスで活用する際には、AIが示す結果がどのようなデータに基づき、どのような統計的な考え方(今回で言えば相関など)を使っているのか、その背景にある概念を理解することが、AIの能力を最大限に引き出し、同時にその限界も理解した上で、より良い意思決定を行うための重要な第一歩となります。
今後、AIに関する情報に触れる際に、「これはどのようなデータ間の相関を利用しているのだろうか?」「これは相関なのか、それとも因果関係なのか?」といった視点を持ってみると、さらに理解が深まるはずです。