データ分析の第一歩:基本統計量の活用方法

母集団からサンプリングでサンプルを収集すると、サンプルについてさまざまなデータを取れます。
そこで今回は、サンプルのデータから求められる基本統計量について解説します。

この記事で分かること

・基本統計量とは何か
・分布の中心の位置を表す基本統計量
・分布のばらつきを表す基本統計量


1. 基本統計量とは

サンプルの測定データを計算して得られる数量を統計量と言います。
統計量の中でも特に基本的な統計量が基本統計量です。

さて、サンプルから得られたデータにはばらつきがありますが、これは、そもそも母集団を構成する各要素にばらつきがあるからです。
従って、ばらつきのあるデータに対して、データの中心はどのくらいか、データのばらつきはどのくらいかといった、データの分布の中心に関する情報ばらつきに関する情報を得ることは非常に重要なことです。

データから得られる分布の中心やばらつきに関する数量といった、データの分布の特徴を記述したり要約したりするために必要な統計量が基本統計量に該当します。

2. 分布の中心の位置に関する基本統計量

\(n\)個のデータ\(x_1, x_2, x_3, \cdots, x_n\)があるとき、分布の中心を表す基本統計量として平均値\(\bar{x}\)とメディアン\(\tilde{x}\)がよく用いられます。

2-1. 平均値

平均値\(\bar{x}\)は皆さんおなじみの統計量で、以下の式で算出できます。

$$\bar{x} = \frac{データの総和}{データ数} = \frac{x_1+x_2+\cdots, x_n}{n} = \frac{\displaystyle \sum_{i=1}^{n}x_i}{n}$$

2-2. メディアン

メディアン\(\tilde{x}\)の求め方は以下です。

\(\tilde{x} = \)データを値の大きさ順に並べたときの中央値

ただし、データ数が偶数の時は、中央の2つの値の平均値をメディアンとします。

平均値\(\bar{x}\)はすべてのデータを使って計算するので、メディアン\(\tilde{x}\)よりも平均値の方が情報量が多いです。
ただし、平均値は外れ値の影響を受けやすいので、計算する前にデータの分布をチェックし、外れ値があるようであれば、そのままで計算した場合と、外れ値を除いて計算した場合で平均値を比較してください。

もし、両者が大きく異なるようであれば、外れ値を外した場合の平均値を採用するとよいでしょう。

一方、メディアンは、算出が簡単なことと、データに外れ値があるときその影響を受けにくいことが強みです。

2-3. 例題1

ある製品について、5個をサンプリングし各々の重量(g)を測定して、以下の測定結果を得た。
このデータを使って、平均値とメディアンを計算しなさい。

$$4.6\quad5.2\quad4.8\quad4.8\quad4.9$$

答え
平均値 \(\bar{x}=\displaystyle \frac{(4.6+5.2+4.8+4.8+4.9)}{5}=4.86\)

メディアン \(\tilde{x} = 4.8\)

3. 分布のばらつきに関する基本統計量

\(n\)個のデータ\(x_1, x_2, x_3, \cdots, x_n\)について、分布のばらつきを表す基本統計量として偏差平方和\(S\)、分散\(V\)、標準偏差\(s\)、範囲\(R\)、変動係数\(CV\)があります。

3-1. 偏差平方和

ばらつきは、分布の平均値を基準に考えるのが一般的です。
個々のデータ\(x_i\)と平均値\(\bar{x}\)の差を偏差と言います。
偏差の合計はばらつきを表す指標として使えそうですが、偏差の合計は必ず0になるので残念ながらばらつきの指標として使えません。
そこで、偏差を2乗した値を合計するとばらつきの指標として使え、これを偏差平方和\(\bf \it S\)と言います。
単に「平方和」と呼ぶこともあります。

$$S = \sum_{i=1}^{n}(x_i-\bar{x})^2=\sum_{i=1}^{n}x_i^2-\frac{\left(\displaystyle \sum_{i=1}^{n}x_i\right)^2}{n}$$

この式から分かるように、分布の中心からのばらつきが大きいと、偏差平方和\(S\)の値も大きくなります。

3-2. 分散

偏差平方和\(S\)を求めることで、ばらつきを一つの数値で表せることができました。
しかし、偏差平方和\(S\)はデータが増えるほども大きくなるので、データ数が異なるグループ間の比較が難しいという弱点があります。
そこで、データ数の影響を受けないように、偏差平方和\(S\)をデータ数\(n-1\)で割った統計量が分散\(V\)です。

$$V = \frac{S}{n-1} = \frac{偏差平方和}{データ数-1}$$

分母の\(n-1\)を自由度と言います。

3-3. 標準偏差

分散\(V\)を求めることで、データ数が異なるグループでも同じ土俵でばらつきを比較できます。
しかし、分散\(V\)は元データを2乗して求めているので、単位も2乗となり直感的に分かりにくいのが難点です。
そこで、分散\(V\)の平方根を取って単位を元データと同じにすることで直感的に分かりやすくでき、これを標準偏差\(s\)と言います。

\(s = \sqrt V\) (分散\(V\)の平方根)

3-4. 範囲

簡単に求められるばらつきの指標として挙げられるのが、範囲\(R\)です。

\(R =\) データの最大値\( x_{max}\) \(-\) データの最小値 \(x_{min}\)

範囲\(R\)はデータの最大値ー最小値で簡単に求められますが、最大値と最小値以外のデータは使用しないので、標準偏差\(s\)に比べると情報量が少ない弱点はあります。

範囲\(R\)をデータ解析で使うことはあまりありませんが、その場で簡単に計算できるので、工程管理における管理図でよく用いられます。

3-5. 変動係数

同じ特性であっても、データの数値が大きく異なっていると分散や標準偏差の単純な比較は困難です。
それは、測定するデータの数値が大きいと、ばらつきの数値も大きくなるのが通常だからです。

例えば、軽自動車A10台の全長とトラックB10台の全長で、どちらのばらつきが大きいかを考えるとき、分散や標準偏差の数値はトラックの方が通常は大きくなります。
このようなときに、ばらつきの大きさを比較するのに有効な指標が変動係数\(\it{CV}\)です。

$$CV = \frac{s}{\bar{x}}=\frac{標準偏差}{平均値}$$

変動係数\(\it{CV}\)は標準偏差\(s\)と平均値\(\bar{x}\)の比で、平均値に対するばらつきの相対的な大きさを表しています。
変動係数\(\it{CV}\)を使えば、レンジが明らかに異なるデータ同士のばらつきの比較が可能となります。

3-6. 例題2

例題1のデータを使って、ばらつきを表す各指標を計算しなさい。

答え
データの合計 \(=\displaystyle \sum_{i=1}^{5}x_i=4.6+5.2+4.8+4.8+4.9=24.3\)
個々のデータの2乗の合計 \(=\displaystyle \sum_{i=1}^{5}x_i^2=4.6^2+5.2^2+4.8^2+4.8^2+4.9^2\)
            \(=118.29\)

偏差平方和\(S=\displaystyle \sum_{i=1}^{5}x_i^2-\frac{\left(\displaystyle \sum_{i=1}^{5}x_i\right)^2}{5}=118.29-\frac{24.3^2}{5}\)
            \(=0.192\)

分散\(V=\displaystyle \frac{偏差平方和}{データ数-1}=\frac{0.192}{5-1}=0.048\)

標準偏差\(s=\)分散\(V\)の平方和\(=\sqrt V=\sqrt {0.048}=0.219\)

範囲\(R=\)データの最大値\(x_{max}-\)データの最小値\(x_{min}=5.2-4.6=0.6\)

変動係数\(CV=\displaystyle \frac{標準偏差}{平均値}=\frac{0.219}{4.86}=0.045\)

4. 母数と統計量の違い

これまで統計量について色々見てきました。
ここで、母数についても触れておきたいと思います。
我々は、母集団の平均や標準偏差を知りたいのですが、母集団の姿を正確にとらえるのは難しいため、母集団からサンプルを取り出して統計量を求め、統計量をもとに母集団の姿を推定し処置します。

通常、母集団は固有の中心位置とばらつきをもっていると考えられ、母集団の中心位置を母平均\((\mu)\)、母集団のばらつきを母分散\((\sigma^2)\)、母標準偏差\((\sigma)\)と言います。
このように、母集団の状態を表す量を総称して母数と言います。

母数と統計量の記号の使い分けを、以下に示します。

母集団サンプル
母平均\((\mu)\)平均\((\bar{x})\)
母分散\((\sigma^2)\)分散\((V)\)
母標準偏差\((\sigma)\)標準偏差\((s)\)

5. 実践のためのアドバイス

実務で基本統計量を求める場合は、Excelを使うことが多いと思います。
Excelであれば、分析ツールを使うことで計算式を入力することなく、容易に基本統計量を求められます。
しかし、基本統計量の名称とその意味するところを理解していないと、分析ツールのアウトプットの内容を解釈できません。
基本統計量はデータ解析の基本中の基本なので、名称、算出方法、意味するものはしっかり理解しておいてください。

統計学入門 (基礎統計学Ⅰ)

6. おわりに

今回は、基本統計量について解説しました。

せっかくデータを採取しても、生データのままではうまく活用できません。
まずは基本統計量を計算して、分布の中心はどのくらいか、ばらつきはどの程度かを把握してから次の解析に進みましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です