量的データと質的データ|それぞれの意味・違いと具体例

この記事では、量的データと質的データについて、それぞれの意味や尺度水準に基づく整理、両者の主な相違点を具体例をもとに解説します。

量的データ・質的データとは

「量的データ」と「質的データ」は、それぞれ以下のようなデータを指します。

量的データ (Quantitative Data)
温度、重さ、長さ、金額など、その数値自体が意味を持つデータ。

質的データ (Qualitative Data)
性別、血液型、満足度、選好度など、その数値自体には意味を持たないデータ。
または、文章・音声・画像などの数値化されていないデータ。

量的データの特徴は、その数値自体が意味を持つという点です。これには、セ氏温度や西暦などの「間隔」を表すデータや、重さや長さ、金額などの「比率」を表すデータなどが含まれます。

それに対し、質的データの特徴は、数値化されていても、その数値自体には意味を持たない、あるいは数値化自体がされていないという点です。これには、性別や血液型などの「区分」や、満足度や選好度などの「順序」を表す数値データに加えて、テキストや録音された音声、写真などの数値化されていないデータが含まれます。

尺度水準に基づく整理

量的データと質的データの違いは、尺度水準をもとに整理することでより明確となります。尺度水準は、Stanley.S.Stevensが1946年に分類した、データ測定における尺度です。

尺度水準

栗原・丸山(2017)をもとに、Intelligence In Society作成

カテゴリデータ・順位データ

質的データには、「名義尺度」を表す「カテゴリデータ」と、「順序尺度」を表す「順位データ」の2種類のデータが含まれます。

「カテゴリデータ」では、値は区別や分類を表す目的のみに使用され、数値の大小関係には意味がありません。カテゴリデータの例には、性別、血液型、都道府県などを数値で表したデータが挙げられます。また、因果推論や機械学習などの領域では、カテゴリデータは該当のカテゴリに当てはまるか否かを「0」「1」で表したダミー変数(これ自体もカテゴリデータです)に置き換えられるなどして頻繁に使用されます。

一方、「順位データ」は、値の大小関係が意味を持つ質的データです。順位データの例には、満足度、選好度、試験の順位などのデータが挙げられます。順位データでは、数値は順序を識別しますが、数値間の距離は不定(「1位」は「2位」の「2倍」優れているわけではない)であり、大小比較以外の計算を行うことはできません(詳細は後述)。

間隔データ・比率データ

量的データには、「間隔尺度」を表す「間隔データ(インターバルデータ)」と、「比率尺度」を表す「比率データ」の2種類のデータが含まれます。

「間隔データ(インターバルデータ)」は、「順位データ」と異なり数値間の距離が等しいデータですが、セ氏0℃が「温度が無い」ことを意味しないように、原点(ゼロ)は存在しません。間隔データの例には、セ氏温度、西暦、知能指数などが挙げられます。

一方、「比率データ」は、数値観の距離が等しく、また原点(ゼロ)が存在するデータです。原点が存在するため、数値間の距離だけでなく、その比率を計算することが可能です(「3メートル」は「1メートル」の「3倍」の長さ)。比率データの例には、重さ、長さ、金額、広さ、速さなどが挙げられ、多様な統計分析の対象として利用されます。

各データ種別の主な相違点

尺度水準に基づく上記の4種類のデータには、主に以下のような点で違いがあります。これらの違いを理解することは、データの種類に応じて適切な処理や分析を行う上で重要です。

量的データvs質的データ

栗原・丸山(2017)をもとに、Intelligence In Society作成

連続データ or 離散データ

「連続データ」とは、少数を含む数値のことで、少数を用いて数値をどこまでも細かく刻むことができる(連続した)データのことを指します。一方、「離散データ(非連続データ)」とは、少数を含まず、整数のみで表される(非連続の)データのことを指します。

上記2種類の質的データは、いずれも「離散データ」です。また、量的データのうち「間隔データ」は「離散データ」である一方、「比率データ」は「連続データ」に該当します。

適用する分析手法によっては、同じ対象を分析したものであっても、連続データと離散データで大きく異なる結果が得られることがあるため、それぞれの特性を理解することがより良い分析を行う上での重要なポイントの一つとなります。

例えば線形回帰分析では、連続データである説明変数の一つ(売上金額など)を、その水準に基づき複数のグループに分割することで離散データ化し、カテゴリデータとしてモデルに含めることで、カテゴリごとに異なる傾きを持ったより表現力の高いモデルを得ることができます。

直接行える計算

データの種類によって、直接行うことができる計算が異なる点も、各データ種別間の重要な相違点の一つです。

値の大小関係に意味を持たない「カテゴリデータ」では、直接行える計算は度数(発生数)のカウントのみとなります。一方、値の大小関係に意味を持つ「順位データ」では、度数のカウントに加えて、値の大小の比較を行うことが可能です。

値の間隔が等しい「間隔データ」では、度数カウントや大小比較に加えて、加算・減算を行うことが可能となります(セ氏20℃とセ氏15℃の差は、セ氏5℃になる)。しかし、原点(ゼロ)を持たない間隔データは、乗算・除算を行うことはできません(セ氏10℃の3倍は、セ氏30℃にならない)。

4つのデータ種別のうち、乗算・除算ができるのは、原点(ゼロ)を持つ「比率データ」のみです。比率データ以外のデータに対して、意図せず加減算や乗除算を行っていないかは、分析を行う際に注意が必要な点の一つです。

適用できる統計手法

データに対して直接行える計算の違いは、統計分析において採用できる検定手法の違いに繋がります。

質的データである「カテゴリデータ」と「順位データ」では、データの平均値を計算することができません。そのため、一般的なt検定やF検定、分散分析などの「パラメトリック手法」を用いた検定を行うことができません。

なお、「パラメトリック手法」とは、「母集団が特定の確率分布に従っていることが前提となっている統計的手法」のことで、「母集団について、特定の確率分布に従っていることを前提としない統計的手法」を指す「ノンパラメトリック手法」と対になる概念です。

一方、データの平均値を計算することができる「量的データ」では、t検定やF検定などのパラメトリック手法と、それ以外のノンパラメトリック手法の両方を使うことができます。

データ種別によって採用できる統計手法の違いを予め理解した上で、どのような種類のデータを取得するかを選択することも、効果的な分析を行う際の重要なポイントの一つです。

ここまで、量的データと質的データについて、それぞれの意味や尺度水準に基づく整理、両者の主な相違点を解説しました。

当記事に関連するトピックについての詳細は、以下のページをご覧ください。

また、データ分析一般に関する全ての記事は以下のページからご覧いただけます。

参考文献:
◦Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677–680. https://doi.org/10.1126/science.103.2684.677
◦栗原伸一・丸山敦史 (2017)『統計学図鑑』オーム社
◦源由理子・大島巌(2020)『プログラム評価ハンドブック-社会課題解決に向けた評価方法の基礎・応用-』, 晃洋書房

関連記事