統計学おぼえがき

学んだことのまとめなど

質問票開発のための統計学

仕事で質問票に関わる機会があり、全く周辺知識がなかったので勉強した。

 

ICR 臨床研究入門の野村尚吾先生による講義を受講した。

「質問票開発のための統計学1」(https://www.icrweb.jp/course/view.php?id=346)

「質問票開発のための統計学2」(https://www.icrweb.jp/course/view.php?id=347)

 

<感想>

素人が手を出してまともなことができる領域ではなさそう。

特に、内容的妥当性を担保するうえでは専門家の協力が必須。

見よう見まねで統計的な評価をなぞるぐらいならガイドラインを参考にできるか...?

 

以下、メモ

=============================================

・質問表の目的:測定対象を高い妥当性・信頼性で測定すること

測定対象には2種類ある

①正解があるパターン ex)年間の平均食事摂取量

②正解がないパターン ex)HR(health related)QOL, 満足度調査

 

・臨床研究での使用目的

1エンドポイント:

2患者背景因子:適格基準、割付調整、説明変数として

その他:投与基準、スクリーニング

 

・質問表に求められる3つの性質

①妥当性:興味のあるものを反映しているか

②信頼性:ばらつきの評価、結果の再現性

③感度、反応性:感度は集団間での違いを検出できるか

        反応性は患者の病態推移が捉えられるか

 

・妥当性の種類

1 内容的妥当性:専門家へのインタビューや文献調査から

2 基準関連妥当性:正解(既存の質問票、観察される症状など)との一致度 

 指標:相関係数(連続変数)、感度・特異度(カテゴリ変数)

3 構成概念妥当性:意図通りの項目・ドメイン間の関係かどうか

 似た項目は高い相関(収縮的妥当性)、似てない項目は低い相関(弁別的妥当性)になってほしい

 指標:相関係数、cronbachのα係数、因子分析

 

正解あるときは基準関連妥当性

正解ないときは構成概念妥当性 を重点的に評価

 

・信頼性の種類

評価者内信頼性:同じ評価者

評価者間信頼性:異なる評価者間

 

・正解がない質問票

ポイント

 複数の要素/領域からなる多次元的なものを1つのスコアに

 誰が評価するかによって結果が異なる(主観性)

例)HRQOL

1.プロファイル型:複数ドメインの集合で構成、各ドメインが個別質問=下位尺度から構成 QOL-ACDなど

  対象者によって、疾患特異的尺度と一般的尺度に分類できる

2.選好に基づく尺度:効用の測定を目的 EQ-5D-5Lなど

 

HRQOL質問票開発プロセスの全体像( by EORTCガイドライン

1 関心領域のQOLに関連する全ての事柄を網羅:文献、専門家、患者から収集し、取捨選択

2 質問項目作成:質問構造、スコア化の方法、質問票専門家のレビュー

3 プレテスト:QOLが似ると考えられる集団で行う、欠測データのケア、妥当性の評価

4 フィールド調査:妥当性、信頼性、感度、反応性の検討、データの特徴を考察

 

統計学的指標

妥当性評価

 相関係数

  平均値による要約が適切なときに使う(カテゴリなら順位相関係数を使う)

  構成概念妥当性は各ドメインの質問項目とドメインの合計点数の相関をみる(重複を修正する必要; スコアA=(aの回答)+(bの回答)のときAとaの相関をみるときはaの影響を除いたスコアAとの相関を評価する)

  同質な集団よりもヘテロな集団で高くなりやすいので、同質な集団で評価する

 cronbachのα係数: 0から1の値をとり値が大きいほど内的整合性が高い

 各回答の分布評価:分布の形が似てれば同じものを測定しているの可能性が高い(内的整合性が高い)

 因子分析:質問票が想定された通りの相関構造を示すか調べる

  たとえば、k個の因子を与えて、各質問で各因子の因子負荷量を計算し、質問と因子負荷量の対応をみるなど

 

信頼性評価

 級内相関係数(ICC):複数回の測定値がどれだけ似ているかを評価、被験者内でも評価者間でも使える、いろいろバリエーションがある

  1回目2回目の測定値で散布図を書いてから、45度線に線対称に点を複製して相関係数を計算するとfisherのICCになる(N大で一元配置分散分析から計算するICCとも一致)

 カッパ係数:n人でm回評価を行なって、診断(評価カテゴリー)が一致した回数から期待一致割合を割り引く(期待一致割合は完全にランダムに診断したときに診断が一致する割合の期待値)

  評価カテゴリーが多い場合には重みつきカッパ係数を使う

 

・その他めも

尺度の開発・検証には計画が必要、計画と結果が詳細に記載された文書を作成する(PROガイダンス、EORTCガイドライン参照)

リカート加算尺度:各質問の単純合計点のスコア

項目応答理論:また今度。。