数学が苦手でもわかる!AIデータ分析で役立つ「外れ値」の見つけ方と考え方
はじめに:AI活用に欠かせない「データの質」
ビジネスにおけるAI活用がますます進んでいます。売上予測、顧客の行動分析、業務効率化など、AIは様々な場面で力を発揮します。AIは大量のデータを学習して賢くなりますが、その性能は「どのようなデータを与えるか」に大きく左右されます。いわば、AIは与えられたデータの「鏡」のようなもの。質の悪いデータを入力すれば、AIも質の悪い結果を出す可能性が高まります。
では、データの質を高めるにはどうすれば良いのでしょうか?そのために重要な作業の一つに、「外れ値(はずれち)」と呼ばれるデータへの対応があります。この記事では、数学が苦手な方にも理解できるよう、外れ値とは何か、なぜAIに悪影響を与えるのか、そしてどのように見つけるのかを、統計の基本的な考え方を通して解説します。
「外れ値」とは何か? なぜAIにとって問題なのか?
外れ値ってどんなデータ?
外れ値とは、その名の通り、データの集まりの中で他の多くのデータから大きくかけ離れている値のことです。
例えば、あるECサイトの顧客の1日の購入金額データを考えてみましょう。多くの顧客は数百円から数万円の買い物をしています。しかし、中には入力ミスで「0」円となっているデータや、逆に非常に高価な商品(例えば数十万円の家電)を一度に購入した「100万円」といったデータが含まれているかもしれません。
このような「他のデータとは明らかに傾向が違う、極端な値」が外れ値です。これらは、入力ミス、計測エラー、あるいは本当に稀な出来事(宝くじの当選、大規模な不正など)によって生じます。
なぜ外れ値があるとAIは困るの?
AI、特に予測やパターン認識を行うAIモデルは、データ全体の傾向やパターンを学習します。この学習プロセスにおいて、外れ値が存在するといくつかの問題が起こります。
- 全体の傾向が歪められる: 例えば、先ほどの購入金額データで、ほとんどの顧客が1万円以下しか買わないのに、たった一人だけ100万円の購入データがあるとします。この外れ値があると、平均購入金額は大きく引き上げられてしまいます。AIがこの歪んだ平均値やそれに引っ張られた傾向を学習すると、実際の多くの顧客の行動とは異なる、誤った予測をしてしまう可能性があります。
- モデルの学習が阻害される: AIは、データの中の「共通するルール」や「関連性」を見つけようとします。しかし、外れ値はこれらのルールから外れた特殊なデータです。AIは、この特殊な外れ値に対応しようとして、本来見つけるべき一般的なパターンを見つけにくくなったり、外れ値に合わせて複雑すぎる、汎用性のないモデルを作ってしまったりすることがあります。これは、少数の例外にばかり気を取られて、大多数の傾向を見落としてしまう状況に似ています。
このように、外れ値はデータ分析やAIの精度を低下させる原因となり得るため、適切に対応することが重要なのです。
外れ値を見つけるための「統計的な考え方」
では、どうすれば外れ値を見つけられるのでしょうか?「他のデータからかけ離れている」という判断には、統計的な考え方が役立ちます。
1. データ全体の「ばらつき」を捉える
外れ値かどうかを判断するには、まずデータの「ばらつき」を理解することが大切です。多くのデータが狭い範囲に集まっているのか、それとも広い範囲に散らばっているのか。このばらつきの度合いを知ることで、「どれくらい離れていたら極端なのか」の基準を持つことができます。
-
平均値と標準偏差を使う考え方: データが左右対称に、真ん中に集まるようなきれいな分布(正規分布に近い場合が多い)をしている場合に役立つ考え方です。 まず、データの平均値(全ての値を足してデータの個数で割った値)を計算します。次に、標準偏差(データが平均値からどれだけばらついているかを示す尺度)を計算します。 統計学では、「ほとんどのデータは平均値からプラスマイナス標準偏差の数倍以内におさまる」という性質が知られています。例えば、「平均値から標準偏差の3倍以上離れているデータは外れ値とみなそう」といった基準を設定することがあります。 数式は難しく考える必要はありません。重要なのは、「平均値という中心から見て、標準偏差というばらつきの大きさと比較して、どれだけ離れているか」という考え方です。
-
中央値と四分位数を使う考え方: データが左右対称でない場合や、極端な値がある場合に強い考え方です。 まずデータを小さい順に並べ、中央値(真ん中の値)を見つけます。次に、データを4等分したときの区切りとなる値、四分位数(中央値より小さいデータの真ん中、中央値より大きいデータの真ん中)を見つけます。 この四分位数を使うと、「データの真ん中50%の範囲」などが分かります。統計では、この「真ん中50%の範囲」から大きく外れた値を外れ値とみなす基準(例えば、四分位数の範囲の1.5倍以上外側)を使うことがあります。これは、箱ひげ図と呼ばれるグラフで視覚的に確認することもできます。 ここでのポイントは、「平均値ではなく中央値という『順位』で決まる中心から見て、四分位数で表される『真ん中のばらつき』と比較して、どれだけ離れているか」という考え方です。平均値は外れ値に引っ張られますが、中央値は影響を受けにくい性質があります。
どちらの考え方も、「データの中心」と「データのばらつき」という統計の基本概念を用いて、「通常とは異なる」データを見つけ出そうとしています。
2. グラフで「見て」判断する
統計的な計算だけでなく、データをグラフにしてみることも非常に有効です。
- 散布図: 2つのデータの関係を見る散布図で、他の多くの点が集まっているところから離れた位置にある点があれば、それは外れ値かもしれません。
- 箱ひげ図: 先ほど触れた箱ひげ図は、中央値や四分位数、そして外れ値の候補を視覚的に示してくれます。箱から大きく伸びた「ひげ」の外側にある点は、統計的な基準で外れ値とみなされる可能性が高いデータです。
グラフにすることで、計算だけでは見えにくいデータの全体像や、特定のデータがどれだけ他のデータから浮いているのかを直感的に理解できます。
外れ値をどう扱うか?(補足)
外れ値を見つけたからといって、すぐに削除すれば良いというわけではありません。その外れ値がなぜ発生したのか、ビジネス上のどのような意味を持つのかを考えることが大切です。
例えば、高額購入のデータが本当に顧客の購買行動であれば、それは外れ値として処理するのではなく、VIP顧客として分析対象にすべきかもしれません。入力ミスであれば修正、不正行為であればそれを検知する仕組みに繋げる、といった対応が考えられます。
外れ値への対応は、削除、別の値に置き換え、あるいは外れ値に対応できるAIモデルを選ぶなど様々ですが、重要なのはそのデータが持つ意味を理解した上で、慎重に判断することです。
まとめ:AI活用の第一歩は「データの理解」から
この記事では、AIデータ分析の品質を高めるために重要な「外れ値」について、その概念と統計的な見つけ方の考え方を解説しました。
- 外れ値は、他のデータから大きくかけ離れた極端な値です。
- 外れ値はAIモデルの学習を歪め、予測精度を低下させる可能性があります。
- 外れ値を見つけるには、データの「中心」(平均値や中央値)や「ばらつき」(標準偏差や四分位数)といった統計的な考え方が役立ちます。
- グラフでデータを「見て」判断することも、外れ値検出には非常に有効です。
難しい数式を使わなくても、データの中心やばらつきといった統計の基本的な概念を理解することで、外れ値がなぜ問題になるのか、そしてどのように見つければ良いのかが見えてきます。
AIをビジネスに活用するためには、AIの仕組みだけでなく、AIに与えるデータそのものへの理解が不可欠です。統計は、この「データを理解する」ための強力なツールとなります。この記事を通じて、AI活用の第一歩としてのデータ理解、そして統計への興味が少しでも深まれば幸いです。