やさしいAI数学

数学が苦手でもわかる!データ分析で重要な「分布の形」の見方:歪度と尖度入門

Tags: 歪度, 尖度, 統計, データ分析, 分布, ビジネス活用, AI

はじめに:平均だけでは分からないデータの「カタチ」を知る大切さ

AIを活用したデータ分析では、大量のデータを扱うことがほとんどです。そのデータを理解するために、私たちはよく「平均値」やデータの「ばらつき(標準偏差など)」といった指標を使います。これらは確かにデータの特徴を掴む上で非常に重要です。

しかし、これらの指標だけでは見えてこない、データの「カタチ」があります。例えば、平均が同じでも、データが特定の方向に偏っていたり、極端な値が多かったり少なかったりすることがあります。

AIがデータをどのように理解し、予測を行うのかを理解するためには、このデータの「カタチ」を知ることが役立ちます。特に、AIの予測結果の信頼性や、特定の分析手法が適切かどうかを判断する上で重要な視点となります。

この記事では、データの「カタチ」を捉える上で役立つ統計の考え方である「歪度(わいど)」「尖度(せんど)」について、難しい数式を使わずに、その概念とビジネスにおける意味合いを分かりやすく解説します。

データの「偏り」を表す:歪度(Skewness)とは

歪度(Skewness)は、データの分布が左右対称かどうか、つまり「どちらかに偏っているか」を示す指標です。

想像してみてください。ある商品の売上データをグラフ(ヒストグラム)にしたとき、最も件数が多い価格帯を中心に、左右対称にきれいな山形になることもあれば、そうでないこともあります。

ビジネスにおける歪度の見方

ビジネスデータでは、歪度を持つデータによく遭遇します。

歪度を知ることで、データの偏りを意識し、平均値だけでなく中央値も確認するなど、より実態に即したデータの捉え方ができるようになります。また、AIモデルによっては、データが正規分布(歪度がゼロの左右対称な分布)に近いことを前提とするものもあるため、歪度が高い場合はデータの変換を検討するなど、AI活用の精度を高める上で役立ちます。

データの「とがり」や「すそ野の厚み」を表す:尖度(Kurtosis)とは

尖度(Kurtosis)は、データの分布の「とがり具合」や「すそ野の厚み」を示す指標です。これは、分布の中心にデータがどれくらい集中しているか、あるいは分布の両端(すそ野)に外れ値のようなデータがどれくらい広がっているか、と関連が深いです。

基準となるのは「正規分布」という左右対称の標準的な山形の分布です。正規分布の尖度を「3」とするのが一般的です(統計ソフトによっては正規分布の尖度を0とする定義もありますが、ここでは3を基準とします)。

ビジネスにおける尖度の見方

尖度は、特にリスク管理や、予測がどの程度ブレやすいかといった点を見るのに役立ちます。

尖度を知ることで、データに潜む「予測しにくい大きなブレ」や「極端な事象」の発生しやすさを推測する手がかりが得られます。これは、事業計画の立案やリスクヘッジ策を検討する際に重要な情報となり得ます。AIによる予測を活用する際も、対象データの尖度を理解しておくことで、予測結果が示す中心値だけでなく、起こりうる極端なシナリオについても考慮する視点が持てます。

まとめ:歪度と尖度で、データの理解を深め、AI活用を賢く

平均値や標準偏差といった基本的な統計量に加えて、歪度と尖度を知ることは、データが持つ「カタチ」やその特性をより深く理解することに繋がります。

AIはデータに基づいて学習し、予測や判断を行います。AIがどのようなデータ特性を持つデータで学習したのか、あるいは分析対象のデータがどのような特性を持つのかを知ることは、AIの能力や限界を理解し、その結果を正しくビジネスの意思決定に活かす上で非常に重要です。

歪度と尖度は、まさにこの「データの特性」を捉えるための強力なツールです。難しい数式を覚える必要はありません。これらの概念を通じて、お手元のビジネスデータがどのような「カタチ」をしているのか、その「カタチ」がビジネス上のどんな意味を持つのか、そしてAIがそのデータをどう扱うのか、といった点に関心を持つことが、AI時代のデータ活用を成功させる第一歩となるでしょう。

まずは、身近なデータ(例えばExcelで扱っているデータ)のヒストグラムを描いてみたり、統計機能を試してみたりして、その「カタチ」に注目することから始めてみてはいかがでしょうか。