データ解析の基本~データの種類~

データにはいろいろな種類があり、データの種類によって解析方法が変わります。
今回は、取扱うデータの種類に着目し、データの分類を見ていきます。

この記事で分かること

・データの分類

・分類した各データの詳細

・分類した各データの特徴

1. データとは?

問題解決には事実に基づく管理が重要であることは、過去の記事で述べました。
データとは対象としているものを観察したり測定したりし、その結果を記録したものです。
われわれは、客観的な事実を表すデータを取集し、収集したデータを整理・解析することで新たな情報を取得し、判断につなげていきます。

データはその性質により、いくつかの種類に分類できます。

2. データの種類

データには性質によりいくつかの種類がありますが、今回は代表的な4種類を紹介します。

数値データ:数量で表されるデータ
言語データ:言語で表されるデータ
分類データ:他と区別するために分類名を付与されたデータ
順位データ:研修の満足度など順番があるデータ

3. 数値データ

数値データは数量で表されるデータで、「計量値」と「計数値」に分類できます。

3-1. 計量値とは

計量値とは、長さ、重さ、温度など、測定して得られるデータで、連続値であることが特徴です。
連続値という言葉に馴染みが薄い方もいると思いますので、連続値とは何かを簡単に説明します。
例えば、おなじみ体重は連続値ですが体重計の表示は61.1kgや70.2kgなどと表示されるものが多いです。
これは、体重計の目盛りがたまたま0.1kg単位であって、もしもっと細かく計れる体重計があれば、61.2345678…kgと小数点以下いくらでも出せます。

このような連続した値を連続値と言い、連続値で得られるデータが計量値です。

【計量値の例】

重量

温度

長さ

3-2. 計数値とは

計数値とは、不良品の数や来店数など数えて得られる整数値のデータで、不連続値(離散値)であることが特徴です。
離散値とは、1本の次は2本、2本の次は3本などのような、不連続な値のことです。

【計数値の例】

ここで、注意しないといけないのは、データが小数でも計数値として扱うことがある場合です。
例えば、全生産数に対する不良品の割合や、人口10万人当たりの交通事故の件数などでは、小数点以下の数値が得られることがありますが、計数値として扱います。

計量値と計数値の見分け方は、後ほど詳しく解説します。

3-3. 計量値と計数値の区別について

測定して得られるデータは計量値で、数えて得られるデータは計数値と述べましたが、比率を表すデータの判断には注意が必要です。

比率データとは、ある数量を全体のまたは他の数量と比べた時の割合データのことで、比率データは小数になることが多く、場合によっては無限小数になり得ます。
小数点以下の数値を見て、連続値だと早合点して計量値と判断するとそれは誤りとなることがあります。
比率データが計量値か計数値かを判断するためには、分子のデータに着目しましょう。

もし、分子が計量値であれば比率データも計量値であり、分子が計数値であれば比率データも計数値です。
比率データは見た目で計量値と判断しがちですが、計数値の場合があることも頭に入れておいてください。

速さ\(=\frac{\Large{対象の距離(計量値)}}{\Large{対象の時間(計量値)}}\) ・・・\(\boldsymbol{\textcolor{red}{計量値}}\)

平均温度\(=\frac{\Large{全期間の温度の合計(計量値)}}{\Large{観測した月数(計数値)}}\) ・・・\(\boldsymbol{\textcolor{red}{計量値}}\)

不良率\(=\frac{\Large{不良品の個数(計数値)}}{\Large{全生産個数(計数値)}}\) ・・・\(\boldsymbol{\textcolor{blue}{計数値}}\)

単位長さ当たりの欠陥の数\(=\frac{\Large{欠陥の数(計数値)}}{\Large{長さ(計量値)}}\) ・・・\(\boldsymbol{\textcolor{blue}{計数値}}\)

3-4. 計量値と計数値のどちらを集めるべきか

計量値は測定して得るデータなので、サンプルを一つずつ測定する必要があり、時間と手間がかかります。
それに対して計数値は数えれば得られるので、簡単に収集できます。

収集が簡単な計数値を集めたくなりますが、情報量が多いのは計量値です。
したがって、解析で有意義なアウトプットを得たいのであれば、できるだけ計量値を集めてください。
きっと、苦労に見合った結果を得られるでしょう。

4. 数値データ以外のデータ

データには、数値データ以外に言語データ、分類データ、順位データなどがあります。

4-1. 言語データとは

数値化が難しい言語情報が言語データです。
例えば、アンケートを取ったときの自由回答欄に記載された回答などが該当します。

4-2. 分類データとは

対象とするグループを分類し、各クラスに名称を付けたデータを分類データと言い、カテゴリデータとも言われます。
カテゴリデータはさらに2つに分けることができ、分類したクラス間に大きさや順番がないデータを純分類データと言います。
例えば、性別や材料のメーカーなどが該当します。

クラス間に大きさや順番があるデータを順序分類データと言います。
例えば、弁当の等級を松弁当、竹弁当、梅弁当と表したものや、トラブルの発生頻度を高頻度、中頻度、低頻度などと表したデータが該当します。

4-3. 順位データとは

本の面白さや徒競走の順位など、良い方から1位、2位・・・と順序で得られたデータを順位データと言います。
順位データは、対象とするグループ内での相対的な順位であり、グループの要素が変われば結果は変わってくるので、注意が必要です。

順位データを1、2、3と単なる数値で記録していると、データ解析の際に誤って数値データとして解析してしまう恐れがあるので注意しましょう。

5. 実践のためのアドバイス

世の中にはデータを解析するためのいろいろな手法がありますが、解析対象となるデータが計量値か計数値かで使える手法が限定されます。
もし、計数値の解析に計量値の解析を前提とした手法を用いると、得られる結果は全く意味のないものである可能性が高まります。
今後、データ解析の手法を学ぶときには、その手法が計量値を解析対象としているのか、あるいは、計数値を対象としているのかをしっかり確認してください。

統計学入門 (基礎統計学Ⅰ)

6. おわりに

今回は、データの種類について解説しました。
得られたデータがどの種類に該当するかを把握することは、データ解析を行う上で非常に重要です。
例えば、順位データを数値データと誤解して解析してしまうと、誤った結果を導きかねません。
そして、データ解析により有意義なアウトプットを得たいのなら、可能な限り計量値を収集するようにしましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です