やさしいAI数学

数学が苦手でもわかる!AIを理解するための「データのばらつき」入門(分散・標準偏差)

Tags: AI, 統計, データ分析, 分散, 標準偏差

はじめに:平均だけではデータは語れない?

AIの活用がビジネスの競争力を左右する時代になりました。経営企画などビジネスサイドでAIに関わる方々にとって、「AIがどのように動いているのか」の基礎を知ることは、AIを戦略的に、そして「分かって」使う上で非常に重要です。

AIの多くの技術は、大量のデータを分析し、そこからパターンを見つけ出すことで成り立っています。そして、そのデータ分析の裏側には、必ず「統計」の考え方があります。

このサイトでは、数学に苦手意識がある方でも大丈夫!AIに必要な数学、特に統計の基礎を、難しい数式は使わずに、概念とビジネスとの繋がりを中心に解説しています。

前回の記事では、データの中心を示す「代表値」(平均値、中央値、最頻値)について学びました。しかし、データの特徴を知るためには、中心だけでなく、「データがどれくらい散らばっているか」を知ることも同じくらい重要です。

例えば、2つの部署の平均残業時間が同じだったとしても、一方の部署は皆が平均に近い時間で働いている(ばらつきが小さい)、もう一方の部署は全く残業しない人もいれば、非常に長時間残業する人もいる(ばらつきが大きい)、という状況では全く意味合いが違ってきますよね。

この「ばらつき」を数値で表すための統計量が、今回ご紹介する分散(ぶんさん)標準偏差(ひょうじゅんへんさ)です。AIがデータを扱う上で、この「ばらつき」の概念は避けて通れません。

この記事では、分散と標準偏差について、数式は一切使わず、その考え方と、AIやビジネスの現場でどのように役立つのかを分かりやすくご説明します。

データ分析で「ばらつき」がなぜ重要なのか

先ほどの残業時間の例のように、平均値だけではデータの全体像は見えてきません。データが平均の周りにギュッと集まっているのか、それとも広く散らばっているのか。この「散らばり具合」、つまり「ばらつき」を知ることで、データの持つ意味をより深く理解することができます。

別の例を考えてみましょう。 あなたが顧客満足度調査の結果を見ていて、2つの商品の「満足度の平均点」がどちらも同じだったとします。 * 商品A:満足度が高評価(5点)の人も低評価(1点)の人もいて、評価が二分されている感じ。結果として平均は真ん中くらい。 * 商品B:多くの人が平均点の近く(3点や4点)をつけている。

どちらの商品がより安定した評価を得ていると言えるでしょうか? おそらく商品Bですよね。商品Aは、一部には熱狂的なファンがいるかもしれないが、同じくらい不満を持っている人もいる、という不安定な状況かもしれません。

このように、平均値が同じでも、データの「ばらつき」が大きいか小さいかで、そのデータが示す状況は大きく異なります。AIがデータを分析する際も、このばらつきの情報は、データの性質を理解し、適切な分析手法を選ぶために不可欠なのです。

「ばらつき」を測るための統計量:分散とは

それでは、「ばらつき」をどのように数値で表すのでしょうか。そのための代表的な統計量が「分散」です。

分散の基本的な考え方はシンプルです。 1. まず、データの「中心」として平均値を計算します。(代表値の記事で解説しましたね) 2. 次に、それぞれのデータが、この平均値からどれだけ離れているか(差)を求めます。 3. 最後に、これらの「差」をまとめて、データ全体の「ばらつき」の大きさを一つの数値で表します。

さて、ここで少し工夫が必要です。単に「差」を合計してしまうと、平均より大きいデータ(差がプラス)と小さいデータ(差がマイナス)が打ち消し合ってしまい、ばらつきの大きさが正しく測れません。例えば「+5」と「-5」は足すとゼロになってしまいますが、どちらも平均から「5」だけ離れている、つまりばらつきの要因であることには変わりありません。

そこで統計では、それぞれの「差」を2乗してから合計するという方法をとります。2乗すれば、プラスもマイナスも全てプラスの値になるため、打ち消し合うことなく、それぞれのデータが平均から離れている度合いを合計に反映させることができます。また、平均から大きく離れているデータ(ばらつきが大きいデータ)ほど、差の2乗はさらに大きくなるため、全体のばらつきへの影響が強調されるという性質もあります。

簡単に言うと、分散とは「各データと平均値との差をそれぞれ2乗し、それらを平均したもの」とイメージしてください。(実際には少し違う計算方法もありますが、概念としてはこの理解で十分です)。

この分散の値が大きいほど、データは平均値から広く散らばっている(ばらつきが大きい)と言えます。逆に分散が小さいほど、データは平均値の近くに集まっている(ばらつきが小さい)ということになります。

より直感的な「ばらつき」の尺度:標準偏差とは

分散はデータのばらつきを示す非常に重要な指標です。しかし、先ほど「差を2乗したものを平均する」と説明したように、分散の値は元のデータの単位とは少し異なる尺度になっています。(例えば、元のデータが「cm」という単位なら、分散の単位は「cmの2乗」のようなイメージです。)

このため、分散の値をそのまま見ただけでは、「具体的にどれくらいの幅でデータが散らばっているのか」が直感的に分かりにくいという側面があります。

そこで登場するのが標準偏差です。標準偏差は、なんと分散の「平方根(ルート)」を取ることで求められます。

なぜ平方根を取るのでしょうか? これは、分散を計算する際に2乗したことによる単位のズレを元に戻すためです。標準偏差は元のデータと同じ単位になるため、分散よりも「ばらつきの代表的な大きさ」として、より直感的に理解しやすい指標となります。

例えば、「この商品の売上の標準偏差は10万円です」と言われれば、「だいたい平均からプラスマイナス10万円くらいの範囲で売上がばらついているんだな」というイメージが掴みやすくなります。

標準偏差が大きいほどデータは平均値から離れて散らばっており、標準偏差が小さいほどデータは平均値の周りに集中している、という基本的な考え方は分散と同じです。しかし、標準偏差の方が実際のデータの散らばり具合を感覚的に捉えやすいというメリットがあります。

ビジネスの現場で「ばらつき」を議論する際には、分散よりも標準偏差が使われることの方が多いかもしれません。

AIとビジネスにおける「ばらつき」の活用シーン

分散や標準偏差で測る「ばらつき」の概念は、AIやビジネスの様々な場面で役立ちます。

  1. データの深い理解:

    • データ分析の最初のステップとして、平均値だけでなく分散や標準偏差を見ることで、データの分布がどのような形をしているかを把握できます。
    • 例えば、顧客の購入金額のデータを見たとき、平均購入金額が高くても、標準偏差が非常に大きい場合、「一部の富裕層が高額購入しているが、大多数は少額購入である」といった、平均値だけでは分からない実態が見えてきます。これは、マーケティング戦略を考える上で非常に重要な示唆を与えてくれます。
    • AIに学習させるデータの前処理においても、データのばらつきを理解することは、異常値(他のデータから極端に離れている値)を見つけ出したり、データの正規化(ばらつきを一定の範囲に収める処理)が必要かを判断したりする上で役立ちます。
  2. AIモデルの評価:

    • AIが何かを予測するモデル(例えば、将来の売上予測や株価予測など)を開発・評価する際にも、ばらつきの概念が使われます。
    • モデルの予測値と実際の値との「誤差」を計算し、その誤差のばらつき(例えば、誤差の標準偏差)を見ることで、モデルの予測がどれくらい安定しているか、つまりモデルの「信頼性」を評価することができます。誤差の標準偏差が小さいほど、予測は安定しており、信頼性が高いと言えます。
  3. リスク管理:

    • ビジネスにおける多くのリスクは「不確実性」、つまり将来の数字の「ばらつき」と関連しています。
    • 例えば、新しい事業計画を立てる際に、予想される売上高の平均だけでなく、その売上高がどれくらいの範囲でばらつく可能性があるか(標準偏差など)を把握することで、事業のリスクの大きさを評価しやすくなります。標準偏差が大きいほど、リスクは高いと判断できます。
    • 在庫管理においても、需要のばらつき(標準偏差)を考慮することで、適切な在庫量を決定し、欠品リスクや過剰在庫リスクを減らすことができます。

このように、分散や標準偏差で表される「データのばらつき」を理解することは、AIが扱うデータをより深く洞察し、AIの分析結果や予測を適切に解釈し、そして不確実性を含むビジネス上の意思決定を行う上で、非常にパワフルな武器となります。

まとめ:AIを「分かって」使うために

この記事では、AIに必要な統計の基礎として、「データのばらつき」を示す分散と標準偏差について、数式を使わずに概念を中心に解説しました。

数学が苦手でも、分散や標準偏差が具体的にどのような計算で求められるかを知らなくても、「これはデータの散らばり具合を表す指標なんだな」「この数値が大きいほどばらつきが大きいんだな」という概念を理解するだけで、データ分析の結果やAIの出力に対する見方が大きく変わってきます。

AIは単なる魔法の箱ではありません。その背後にある統計的な考え方を少しでも理解することで、AIをより深く理解し、ビジネスに効果的に活用するための第一歩を踏み出すことができます。

次にデータ分析の結果やAIからのレポートを見る際には、ぜひ平均値だけでなく、標準偏差などの「ばらつき」を示す数値にも注目してみてください。データの隠された姿が見えてくるはずです。

これからも「やさしいAI数学」では、AIを理解するために役立つ数学・統計の基礎を、分かりやすさにこだわって解説していきます。一緒にAIの世界を紐解いていきましょう。