信頼性と妥当性｜それぞれの意味・違いと改善方法の解説

この記事では、ある対象についての測定・分析において重要な「信頼性」と「妥当性」について、それぞれの意味・違いと、両者を高めるための方法を具体例をもとに解説します。

<目次>

「信頼性」と「妥当性」、その意味と違い

ある対象についてのデータ（定量・定性問わず）をもとにした測定や分析を行う際、そのデータ自体の「指標」あるいは「物差し」としての適切さを判断する基準として、「信頼性」と「妥当性」の2つがあります。

この2つは異なる概念であり、対象の測定・分析においては、それぞれの意味を正しく理解した上で、使用するデータの「信頼性」と「妥当性」を可能な限り高める対応をすることが重要です。

「信頼性」の意味

信頼性 (reliability)：
測定した結果の数値がどれだけ安定しているか（一貫性があるか）

これは、測定を行う人や時間を変えて何度測定を行っても、同じような結果が得られる（結果が安定・一貫している）、ということを意味します。

例えば、各国の経済活動の規模を表す指標としてGDP（国内総生産）は広く使われていますが、その数値が実際にどの程度高い信頼性のもとに算出されているかは国によって異なることが想定されます。

例えば、一部の発展途上国では技術的な理由などから算出されたGDP数値の信頼性が十分に高くないと想定される他、特定のケースでは政府の意向等によって意図的に事実と異なる数値が公表値として報告される可能性も考えられます。

ここでの「信頼性」は、「GDPという指標が実際にどの程度高い安定性・一貫性のもとでデータ化されているか」を考えることで、そのデータがどの程度信頼できるかを判断する概念であると理解できます。

「妥当性」の意味

妥当性 (validity)
対象の状態を測定する尺度として、その指標がどの程度ふさわしいか（的確か）

これは、測定の結果が、本来測定したい対象を正しくは測っているか、ということを意味します。

GDPは国の経済状態を知るための指標として使われますが、経済の状態を知るための指標として、（他に考え得る指標と比べて）GDPがどの程度ふさわしいのか、については多くの議論があります。特に、経済の「規模」を数値化するGDPは、経済活動の「質」やその内容に関する情報は提供せず、国の経済状態をある一面のみによって表現した指標であると言えます。

「本来知りたい対象である『国の経済状態』を知るための指標として、GDPがどの程度ふさわしいのか」を考えるのが、「妥当性」の概念に当たります。

「妥当性」のタイプ

「妥当性」には、さまざまなタイプが存在しますが、大きくは「測定尺度の妥当性」と「調査全体の知見の妥当性」の2つに分けることが可能です。

①測定尺度の妥当性：

内容的妥当性	専門家の観点からどの程度適切か（論理的妥当性）専門家以外の回答者の観点からどの程度適切か（表面的妥当性）
基準関連妥当性	客観的な外的基準にどの程度関連しているか
構成概念妥当性	測定対象の構成概念に関する理論に対してどの程度適切か

①調査全体の知見の妥当性：

内的妥当性	分析の結果が、分析の対象となったサンプル自体において、真の因果関係を表している程度
外的妥当性	分析の結果が、分析の対象となったサンプル以外にも当てはまる程度

調査全体の知見の妥当性（内的妥当性・外的妥当性）についての詳細は、以下のページをご覧ください。

関連記事外的妥当性と内的妥当性｜その意味と分析における考え方

「信頼性」と「妥当性」の違い

「信頼性」と「妥当性」の違いは、以下の射撃による比喩を通じて理解することで、より明確になります。

射撃の例での「信頼性」は、弾の当たる場所のバラつきが小さく、常に同じような場所に当たっている状態に該当します。一方の「妥当性」は、弾が的の中心に近いところに当たる状態に該当します。

最も望ましいのは、「C」のように的の中心に近いところに、小さいバラつきで弾が当たり、信頼性と妥当性の両方が高い状態です。一方、「D」のように的の中心から遠いところに、大きなバラつきで弾が当たるケースは、最も望ましくない状態となります。

佐藤（2015）をもとに、Intelligence In Society作成

信頼性と妥当性を高めるための方法

信頼性と妥当性は、測定や分析の質に大きな影響を与えるため、指標を選定する段階やそのデータを取得する段階において、これらが十分に高くなるよう留意することが必要です。

以下に、信頼性と妥当性を高めるために採用できる方法の一例を解説します。

①複数の指標を組み合わせる

ある対象の状態をデータで表現するために、それを表す複数の指標を組み合わせて使用することは、信頼性と妥当性の双方を高める上で有効な方法です。

「信頼性」の観点では、ある一つの指標では偶発的な誤差が発生するケースでも、複数の指標を使用することで各指標の誤差が相殺され、全体としての信頼性が高まる、と考えることができます。

例えば、「国の経済規模」を知るための指標として、GDPの他に、NDP（国内純生産）、GNI（国民総所得）、NNI（国民純所得）といった他の指標を組み合わせて使うことで、仮にGDPやその他の各指標の測定精度が低い場合でも、全体では「国の経済規模」についてより高い信頼性を持つ指標になることが期待できます。

また、「妥当性」の観点でも、ある対象の状態を複数の指標をもとに表現することは、一つの指標のみで表現する場合に比べて、より妥当性の高い指標となる可能性が高まります。

「国の経済状態」を知るための指標として、経済規模を表すGDPの他に、失業率などの雇用統計や消費者物価指数などの消費動向、収益率や投資額といった企業活動に関する指標を組み合わせた指標は、各指標単体に比べて、実際の「国の経済状態」をより的確に表したものとなることが期待できます。

②情報バイアスの混入を防ぐ

データを取得する際に「情報バイアス」の混入を防ぐことは、指標の「信頼性」を高めるために使用できる方法の一つです。

「バイアス」とは「偏り」を意味する言葉ですが、データの測定・分析において偏りを生じさせる様々なバイアスの一つが「情報バイアス」です。これには、データの欠測、データの入力ミス、測定方法のバラつき、記憶違い、情報の非開示、対象者のクラス分けにおけるミス、などが含まれます。

例えばGDPは、その国の多種多様な経済活動に関するデータを統合して算出されますが、そのデータに現場における入力ミスや欠測、国や地域による測定方法のバラつきなどがあると、指標の信頼性は大きく棄損します。

また、ある国におけるGDPの推移を分析する際に、過去のある時点で特定のデータに関して測定方法の変更が生じていたことが判明した場合、GDPの数値の変化が経済状態の変化によるものか、測定方法の変更によるものか判別することが難しくなります。

情報バイアスの混入を極力無くすとともに、仮に発生した場合に測定・分析への影響を最小限に抑えることが、指標の信頼性を高める上で重要となります。

③実績のある指標を使用する

対象の領域において既に実績のある指標を使うことは、指標の「妥当性」を高めるために使用できる方法の一つです。

対象の特性や文脈を踏まえ、その状態を最もよく表現するような独自の指標を作り出してそれを測定・分析することが、新たな気付きや発見に繋がるケースもあります。しかし多くの場合、たとえ既存の指標が対象を完全に表現するものではなくても、既にその領域で実績のある指標を使うことが、指標の妥当性や、他の分析との比較可能性を高めることに繋がります。

国の経済指標としての「GDP」の問題点が長年に渡って指摘されているにも関わらず、今日においてもそれを完全に代替するような指標が生まれていない背景には、既に実績のある指標に代わる新たな指標を作ることの難しさや、新たな指標が乱立することで生じる混乱に対するリスクの回避などがあると考えることができます。

ここまで、データによる測定・分析において重要な「信頼性」と「妥当性」について、それぞれの意味・違いと、両者を高めるための方法を解説しました。

データ分析一般・因果推論に関する全ての記事は以下のページからご覧いただけます。

関連記事データ分析一般に関する記事一覧

関連記事因果推論に関する記事一覧

参考文献：
◦佐藤郁哉 (2015) 『社会調査の考え方［下］』東京大学出版会
◦安田節之 (2011)『プログラム評価ー対人・コミュニティ支援の質を高めるためにー』, 新曜社
◦金本拓 (2024) 『因果推論ー基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチー』, オーム社

因果推論データ分析

選択バイアスとは｜その意味・具体例と対処法

業績測定とプログラム評価｜それぞれの意味・特徴と相違点

信頼性と妥当性｜それぞれの意味・違いと対処法

「信頼性」と「妥当性」、その意味と違い

「信頼性」の意味

「妥当性」の意味

「妥当性」のタイプ

①測定尺度の妥当性：

①調査全体の知見の妥当性：

「信頼性」と「妥当性」の違い

信頼性と妥当性を高めるための方法

①複数の指標を組み合わせる

②情報バイアスの混入を防ぐ

③実績のある指標を使用する

Service
－当法人のサービスについて

アウトカムとは｜アウトプットとの違いと設定方法

ランダム化比較試験(RCT)とは｜その意味・目的と実施方法

ロジックモデルとは｜その目的と種類、具体例

因果推論｜SUTVA条件とは

因果推論とは｜その意味、目的と具体的手法

関連記事

効果検証とは｜その意味、実施における課題と対処法

パラメトリック手法とノンパラメトリック手法｜その意味と使い分けの基準

第１種の過誤と第２種の過誤｜それぞれの意味と関係性

量的データと質的データ｜それぞれの意味・違いと具体例

機械学習の評価指標一覧｜回帰・二値分類・多クラス分類

多クラス分類における評価指標｜mean-F1・macro-F1・micro-F1など

信頼性と妥当性｜それぞれの意味・違いと対処法

「信頼性」と「妥当性」、その意味と違い

「信頼性」の意味

「妥当性」の意味

「妥当性」のタイプ

①測定尺度の妥当性：

①調査全体の知見の妥当性：

「信頼性」と「妥当性」の違い

信頼性と妥当性を高めるための方法

①複数の指標を組み合わせる

②情報バイアスの混入を防ぐ

③実績のある指標を使用する

Service － 当法人のサービスについて

アウトカムとは｜アウトプットとの違いと設定方法

ランダム化比較試験(RCT)とは｜その意味・目的と実施方法

ロジックモデルとは｜その目的と種類、具体例

因果推論｜SUTVA条件とは

因果推論とは｜その意味、目的と具体的手法

関連記事

効果検証とは｜その意味、実施における課題と対処法

パラメトリック手法とノンパラメトリック手法｜その意味と使い分けの基準

第１種の過誤と第２種の過誤｜それぞれの意味と関係性

量的データと質的データ｜それぞれの意味・違いと具体例

機械学習の評価指標一覧｜回帰・二値分類・多クラス分類

多クラス分類における評価指標｜mean-F1・macro-F1・micro-F1など

Service
－当法人のサービスについて