アクションの対象となる母集団の姿を正確に知るには、母集団に含まれるすべての要素を調べる必要があります。
しかし、母集団のすべてを調べることはとても大変なので、われわれはサンプルをサンプリングして調べ、調査結果をもとに母集団の姿を推測するということを、よく行います。
そこで、今回は母集団とサンプルについて解説します。
1. 母集団とは
調査やアクションの対象となる集団を母集団と言います。
JIS Z 8101-2:2015では、母集団を「検討の対象とするアイテムの全体」と定義しています。
例えば、選挙の場合でしたら投票したすべての有権者が母集団ですし、工場の品質管理であれば工程あるいはロットの全製品が母集団です。
母集団の姿を正確に把握しようと思ったら、母集団の要素をすべて調べる必要があります。
例えば選挙の場合でしたら、最終的にはすべての投票用紙を確認してすべての投票結果を確認していますし、品質管理の場合でしたら全数検査をすれば確実に合否の判断を下せます。
母集団には、無限母集団と有限母集団が存在します。
1-1. 無限母集団とは
ある設備で製品を作る製造工程を考えてみましょう。
その工程では、製品を毎日連続して製造しています。
その工程で造られる製品の品質が安定しているかを評価して、必要に応じてアクションを取る場合は、その製造工程で作られる製品すべてが母集団となります。
母集団を構成する製品の数(母集団の大きさ)に限りがなく、つまり無限とみなせることから、製造工程のような無限の要素で構成される母集団を無限母集団と言います。
1-2. 有限母集団とは
先ほどと同じく、ある設備で製品を作る工程を考えてみましょう。
でき上がった製品は製造日毎に製品ロットNoを振っており、製品はロット単位で検査して合否判断をします。
このとき、ロットがアクションの対象となるので、ロットが母集団となります。
同一ロットの製品の数は有限であることから、ロットのような有限の要素で構成される母集団を有限母集団と言います。
2. サンプル(標本)とは
ここまで、アクションの対象である母集団を見てきました。
母集団の情報を正しく得ようと思うと、すべての要素を調べないといけませんが、それは難しいことが多いです。
その場合、母集団から一部の要素を取り出して、その要素を調べて母集団の姿を推測し、必要なアクションを取ります。
このとき、母集団から取り出した要素をサンプル(標本)と言い、母集団からサンプルを取り出すことをサンプリングと言います。
JIS Z 8101-2:2015では、サンプルを「一つ以上のサンプリング単位からなる母集団の部分集合」と定義しています。
例えば、テレビの視聴率は、一部の世帯の調査結果をもとに算出しています。
また、国政選挙のときはテレビで開票速報が放送されますが、番組の中では一部の投票者の出口調査結果をもとに、候補者に対して当選確実を出しています。
母集団とサンプルの関係を表したものが、下図です。
3. サンプリング
母集団に対してアクションするため、サンプリングしたサンプルの評価結果をもとに判断しますが、このときサンプルは母集団を正しく代表するようにサンプリングされていることが求められます。
例えば、視聴率を予測するのに東京都の世帯だけをサンプリングするのはまずいですし、製品のロット判定をするときにいつも抜き取りやすい箱の一番上からサンプリングするのも、好ましくありません。
よく用いられるサンプリング方法は、ランダムサンプリング、二段サンプリング、層別サンプリング、集落サンプリング、系統サンプリングです。
3-1. ランダムサンプリング
母集団を構成する要素がすべて同じ確率で採取されるサンプリング方法を、ランダムサンプリングと言います。
無意識にランダムサンプリングしようとしてもランダムにならないこともあります。
そこで、ランダムサンプリングの際は母集団のすべての要素に番号を振って、乱数表、乱数さい、ExcelのRAND関数などを使ってサンプリングするとよいでしょう。
3-2. 二段サンプリング
母集団からサンプリングするときに、2段階に分けてサンプリングを行う方法を二段サンプリングと言います。
例えば、100個単位で箱詰めするナットがあり、10箱で1ロットとしましょう。
まず、10箱のうちから2箱をランダムにサンプリングし、さらにサンプリングした2箱から5個ずつランダムにサンプリングします。
このようなサンプリングが二段サンプリングです。
3-3. 層別サンプリング
母集団を構成する要素は均質であることが理想だが、複数の異質なグループで構成されている場合があります。
例えば、工場で作られる製品であれば、複数の設備、複数の材料ロット、複数のオペレーターなど、条件の異なる製品が同一ロット内に混在する状態です。
条件の違いが少しでも製品に影響を与えるのであれば、ロットを設備ごとや材料ロットごとなどに層別して、各層の大きさの比率に応じて各層からランダムにサンプリングし、合わせたものをロット(母集団)のサンプルとすることで、通常のランダムサンプリングよりも精度のよいデータが得られます。
このように、母集団を層別して各層からサンプリングする方法を層別サンプリングと言います。
3-4. 集落サンプリング
層別サンプリングと逆の発想でサンプリングする方法が集落サンプリングです。
集落サンプリングとは、母集団がいくつかのグループに分かれているとき、初めにグループをランダムに選び、選んだグループについて全数をサンプルとする方法です。
3-5. 系統サンプリング
製造順など順番にならんだものを、一定の規則(1時間ごとなど)で繰り返しサンプリングする方法を系統サンプリングと言います。
例えば、製造工程で1時間ごとにサンプリングするような場合です。
4. 実践のためのアドバイス
データ解析の目的の一つは、サンプルデータをもとに母集団を推定することです。
母集団の姿をなるべく正確に把握するためには、母集団を代表するサンプルを集める必要があり、サンプリングは統計解析の前段階として非常に重要な役割を果たします。
取りやすいところからサンプルを取るのではなく、母集団を代表するサンプルを収集することに常に意識を向けましょう。
5. おわりに
今回は、母集団とサンプルについて解説しました。
母集団に適切なアクションを取るには、母集団を正確に代表するようにサンプリングして評価する必要があります。
母集団の取りやすいところからサンプリングしていると、偏りが生じて判断を誤る恐れがあります。
サンプリング方法にも意識を向けて、サンプリングの際は採取したサンプルが母集団を正しく反映しているかを常に考えてください。