数学が苦手でもわかる!データ分析で重要な「分布の形」の見方:歪度と尖度入門
はじめに:平均だけでは分からないデータの「カタチ」を知る大切さ
AIを活用したデータ分析では、大量のデータを扱うことがほとんどです。そのデータを理解するために、私たちはよく「平均値」やデータの「ばらつき(標準偏差など)」といった指標を使います。これらは確かにデータの特徴を掴む上で非常に重要です。
しかし、これらの指標だけでは見えてこない、データの「カタチ」があります。例えば、平均が同じでも、データが特定の方向に偏っていたり、極端な値が多かったり少なかったりすることがあります。
AIがデータをどのように理解し、予測を行うのかを理解するためには、このデータの「カタチ」を知ることが役立ちます。特に、AIの予測結果の信頼性や、特定の分析手法が適切かどうかを判断する上で重要な視点となります。
この記事では、データの「カタチ」を捉える上で役立つ統計の考え方である「歪度(わいど)」と「尖度(せんど)」について、難しい数式を使わずに、その概念とビジネスにおける意味合いを分かりやすく解説します。
データの「偏り」を表す:歪度(Skewness)とは
歪度(Skewness)は、データの分布が左右対称かどうか、つまり「どちらかに偏っているか」を示す指標です。
想像してみてください。ある商品の売上データをグラフ(ヒストグラム)にしたとき、最も件数が多い価格帯を中心に、左右対称にきれいな山形になることもあれば、そうでないこともあります。
- 歪度がゼロの場合: 分布はほぼ左右対称です。平均値、中央値、最頻値がほぼ一致するような、バランスの取れた形です。例えば、あるテストの点数が平均点付近に集まり、高得点と低得点に同じくらいの幅でばらけているような場合です。
- 歪度がプラスの場合(正の歪み): 分布は右側に「長い尾」を引きます。これは、多くのデータが小さい値の近くに集まっているけれど、ごく一部に非常に大きい値がある場合に起こります。例えば、個人の所得の分布などが典型的な例です。大多数の人は中程度以下の所得ですが、ごく一部の富裕層が平均値を引き上げ、分布が右に偏ります。
- 歪度がマイナスの場合(負の歪み): 分布は左側に「長い尾」を引きます。これは、多くのデータが大きい値の近くに集まっているけれど、ごく一部に非常に小さい値がある場合に起こります。例えば、簡単なテストの点数で、ほとんどの人が高得点を取るけれど、一部に病欠や理解不足で低得点だった人がいる場合などが考えられます。
ビジネスにおける歪度の見方
ビジネスデータでは、歪度を持つデータによく遭遇します。
- 売上データや顧客単価: 一部の高額購入者がいることで、右に偏る(正の歪み)ことがよくあります。平均売上だけを見ていると、多くの顧客はそれより低い金額しか購入していない、という実態を見落とす可能性があります。
- ウェブサイトの滞在時間: 多くのユーザーは短時間で離脱するが、一部の熱心なユーザーが長時間滞在する場合、右に偏る(正の歪み)ことがあります。
- 製品の寿命や故障間隔: 多くは長く使えるが、ごく一部に初期不良などで短期間で故障するものがある場合、右に偏る(正の歪み)ことがあります。
歪度を知ることで、データの偏りを意識し、平均値だけでなく中央値も確認するなど、より実態に即したデータの捉え方ができるようになります。また、AIモデルによっては、データが正規分布(歪度がゼロの左右対称な分布)に近いことを前提とするものもあるため、歪度が高い場合はデータの変換を検討するなど、AI活用の精度を高める上で役立ちます。
データの「とがり」や「すそ野の厚み」を表す:尖度(Kurtosis)とは
尖度(Kurtosis)は、データの分布の「とがり具合」や「すそ野の厚み」を示す指標です。これは、分布の中心にデータがどれくらい集中しているか、あるいは分布の両端(すそ野)に外れ値のようなデータがどれくらい広がっているか、と関連が深いです。
基準となるのは「正規分布」という左右対称の標準的な山形の分布です。正規分布の尖度を「3」とするのが一般的です(統計ソフトによっては正規分布の尖度を0とする定義もありますが、ここでは3を基準とします)。
- 尖度が3に近い場合: 分布の「とがり」や「すそ野の厚み」が正規分布に近い標準的な形です。
- 尖度が3より大きい場合(正の尖度): 分布は正規分布よりもとがっていて、すそ野が厚い形になります。これは、平均値の近くにデータが集中する傾向が強く、同時に分布の両端にも比較的多くのデータが存在することを示唆します。つまり、極端な値(外れ値)が出現しやすい傾向がある、と解釈されることが多いです。
- 尖度が3より小さい場合(負の尖度): 分布は正規分布よりも平坦で、すそ野が薄い形になります。これは、データが平均値の近くにあまり集中せず、比較的均等に広がっていることを示唆します。極端な値はあまり出現しない傾向があります。
ビジネスにおける尖度の見方
尖度は、特にリスク管理や、予測がどの程度ブレやすいかといった点を見るのに役立ちます。
- 金融商品のリターン: 尖度が高い場合、通常は小さなリターン変動だが、ごく稀に大きなプラスまたはマイナスの変動(価格の暴落など)が発生しやすい、といったリスクの特性を示すことがあります。
- 販売予測の誤差: 尖度が高い場合、普段の予測誤差は小さいものの、特定の要因で予測が大きく外れる(販売数が極端に増減する)リスクがあることを示唆します。
- 待ち時間や処理時間: 尖度が高い場合、普段はスムーズだが、稀に非常に長い待ち時間や処理時間が発生しやすい状況にあるかもしれません。
尖度を知ることで、データに潜む「予測しにくい大きなブレ」や「極端な事象」の発生しやすさを推測する手がかりが得られます。これは、事業計画の立案やリスクヘッジ策を検討する際に重要な情報となり得ます。AIによる予測を活用する際も、対象データの尖度を理解しておくことで、予測結果が示す中心値だけでなく、起こりうる極端なシナリオについても考慮する視点が持てます。
まとめ:歪度と尖度で、データの理解を深め、AI活用を賢く
平均値や標準偏差といった基本的な統計量に加えて、歪度と尖度を知ることは、データが持つ「カタチ」やその特性をより深く理解することに繋がります。
- 歪度: データの偏りを示し、平均値だけでは見えない実態(一部の極端な値の影響など)を理解するのに役立ちます。
- 尖度: データのとがりやすそ野の厚みを示し、極端な値(外れ値)の出現しやすさや、予測のブレやすさを理解するのに役立ちます。
AIはデータに基づいて学習し、予測や判断を行います。AIがどのようなデータ特性を持つデータで学習したのか、あるいは分析対象のデータがどのような特性を持つのかを知ることは、AIの能力や限界を理解し、その結果を正しくビジネスの意思決定に活かす上で非常に重要です。
歪度と尖度は、まさにこの「データの特性」を捉えるための強力なツールです。難しい数式を覚える必要はありません。これらの概念を通じて、お手元のビジネスデータがどのような「カタチ」をしているのか、その「カタチ」がビジネス上のどんな意味を持つのか、そしてAIがそのデータをどう扱うのか、といった点に関心を持つことが、AI時代のデータ活用を成功させる第一歩となるでしょう。
まずは、身近なデータ(例えばExcelで扱っているデータ)のヒストグラムを描いてみたり、統計機能を試してみたりして、その「カタチ」に注目することから始めてみてはいかがでしょうか。