やさしいAI数学 - 数学が苦手でもわかる！AIが「はい/いいえ」の関係性を分析する方法：クロス集計とカイ二乗検定

数学が苦手でもわかる！AIが「はい/いいえ」の関係性を分析する方法：クロス集計とカイ二乗検定

Tags: 統計学, カテゴリデータ, カイ二乗検定, クロス集計, データ分析, ビジネス応用

ビジネスデータの強い味方：カテゴリデータの分析

ビジネスの現場で扱うデータには、数値で表せるもの（売上、顧客単価、アクセス数など）だけでなく、「性別（男性/女性）」「購入経験（あり/なし）」「利用デバイス（PC/スマホ/タブレット）」「アンケート回答（はい/いいえ/どちらでもない）」のように、いくつかの種類に分類される「カテゴリデータ」が多くあります。

AIがビジネスに活用される際、このようなカテゴリデータから、たとえば「男性は特定のサービスに関心が高いか？」「特定の広告を見た人は購買行動が違うか？」といった、二つのカテゴリ変数間の「関係性」を見つけ出すことがあります。

この記事では、AIがカテゴリデータの関係性を分析する際に使われる基本的な考え方である「クロス集計」と「カイ二乗検定」について、数式を使わずに、その概念とビジネスでの役立ち方に焦点を当てて易しく解説します。数学に苦手意識がある方もご安心ください。

関係性を見る「表」：クロス集計

二つのカテゴリデータの関係性を見る最も基本的な方法は、「クロス集計」という集計表を作成することです。これは、二つのカテゴリを組み合わせて、それぞれの組み合わせに該当するデータの数を数えたものです。

例えば、「性別」と「ある製品の購入経験」という二つのカテゴリデータがあったとします。これをクロス集計すると、以下のような表ができます。

| 性別 | 購入経験あり | 購入経験なし | 合計 | | :------- | :----------- | :----------- | :--- | | 男性 | 150人 | 350人 | 500人| | 女性 | 200人 | 300人 | 500人| | 合計 | 350人 | 650人 | 1000人|

このような表を見ると、全体の人数（1000人）に対して、男性は500人、女性は500人ずつであること、製品購入経験者は350人、未経験者は650人であることが分かります。さらに、男性の購入経験者は150人、女性の購入経験者は200人といった、組み合わせごとの人数（度数）も分かります。

この表をパーセンテージ（割合）に変換すると、より分かりやすくなることもあります。例えば、「性別ごとの購入経験者の割合」を見たい場合は、以下のように計算できます。

男性の購入経験率：150人 / 500人 = 30%
女性の購入経験率：200人 / 500人 = 40%

この割合を見ると、女性の方が男性よりも製品購入経験者の割合が高いように見えます。クロス集計表は、このように二つのカテゴリデータの関係性を「目で見て」把握するための強力なツールです。

関係性は「たまたま」？それとも「確か」？：カイ二乗検定の考え方

クロス集計表で「女性の方が購入経験者の割合が高いようだ」という傾向が見られたとします。しかし、これはあくまで今回のデータでの話です。もし、性別と購入経験に全く関係がなかったとしても、たまたまこのような結果になることは十分にあり得ます。

では、見た目の傾向が「単なる偶然」なのか、それとも「本当に性別と購入経験には関係がある」と言えるほど「確かな」傾向なのかを、どうやって判断すればよいでしょうか？

ここで登場するのが「カイ二乗検定」という統計的な手法です。カイ二乗検定の基本的な考え方は非常にシンプルです。

「もし二つの変数に関係が全くなかったとしたら、データはどんな分布になるはずか？」 という理想的な状況を考えます。
「実際のデータ」 が、この 「関係がないとしたらこうなるはず」 という理想的な状況から、どれくらい 「ずれているか」 を計算します。
その「ずれ」の大きさが、「単なる偶然では起こり得ないほど大きいか？」 を判断します。

つまり、カイ二乗検定は、「性別と購入経験には関係がない」という考え方（これを統計学では「帰無仮説」と呼びます）が正しいと仮定したときに、今手元にあるクロス集計表の結果がどれくらい起こりにくいかを教えてくれるのです。

ずれが小さければ、「ああ、この程度の違いなら、性別と購入経験に関係がなくても偶然起こり得るよね」と判断し、関係があるとは言えません。逆に、ずれが非常に大きければ、「もし性別と購入経験に関係がないとしたら、こんなに大きなずれはまず起こらないだろう。だから、たぶん関係があるのだろう」と判断します。

この「ずれ」の大きさを数値化したものを「カイ二乗統計量」と呼びます。そして、「単なる偶然では起こり得ないほど大きいずれ」を判断するために、「P値」という確率を使います（P値については別の記事で詳しく解説しています）。P値が十分に小さければ（一般的に5%以下）、統計的に「関係がある」と判断します。

AIがカテゴリデータを分析する際、例えばある属性（カテゴリ）が予測結果に大きく影響するかどうかを調べるために、このようなカイ二乗検定の考え方を用いることがあります。AIは膨大なデータに対して、人間が一つずつ計算する代わりに、これらの統計的な「ずれ」や「関係性」を自動的に検出・評価しているのです。

ビジネスにおけるカイ二乗検定の活用例

カイ二乗検定は、ビジネスの様々な場面で役立ちます。

マーケティング効果測定: 「特定のキャンペーンを見た顧客」と「製品購入」に関係があるか？（A/Bテストの結果分析など）
顧客行動分析: 「利用デバイス（PC/スマホ）」と「特定の機能の利用頻度（高/低）」に関係があるか？
アンケート分析: 「年代」と「ある社会問題に対する賛否」に関係があるか？
人事・組織分析: 「部署」と「従業員の満足度レベル（高/中/低）」に関係があるか？

これらの分析を通じて、「どの顧客層に特定のアプローチが有効か」「どのような施策が効果的か」「組織のどの部分に課題がありそうか」といった、データに基づいた意思決定を行うための示唆を得ることができます。

まとめ：AIとカテゴリデータの関係性分析

この記事では、AIがカテゴリデータの関係性を分析する際の基礎となる考え方として、「クロス集計」と「カイ二乗検定」をご紹介しました。

クロス集計: 二つのカテゴリデータの組み合わせごとの人数を集計し、関係性を「見る」ための表です。
カイ二乗検定: クロス集計で見た関係性が、単なる偶然ではなく、統計的に「確か」であるかを判断するための手法です。二つの変数に関係がないとした場合の期待と、実際のデータのずれを比較することで判断します。

難しい数式を知らなくても、これらの概念を理解していれば、ビジネスデータの分析結果や、AIがなぜ特定のカテゴリ属性を重視しているのかといったAIの振る舞いをより深く理解できるようになります。

AIがますますビジネスに浸透する中で、このようにデータの種類に応じた基本的な分析の考え方を知っておくことは、AIを理解し、活用していく上で必ず役立つはずです。