ロングセラー「医学的研究のデザイン」のシリーズとして発売以来、長年にわたり使用され続けている定評ある教科書、12年ぶりの改訂。いかに適切な手法を選択し、解析を実践し、結果を解釈するか、数式は一切使わず具体例を示しつつ研究計画の流れに沿って明快、簡潔に解説する。改訂に際し、近年の進展著しい多変量モデルの新しい手法を追加。多変量解析に苦手意識を持つ臨床家、研究者、コメディカルの疑問や不安を解消する。
1 はじめに
1.1 多変量解析の必要性
1.2 交絡因子と多変量解析
1.3 抑制因子と多変量解析
1.4 交互作用と多変量解析
2 多変量モデルの一般的な使い方
2.1 臨床研究における多変量モデルの用途
2.2 病因論的観察的研究と多変量解析
2.3 介入研究(ランダム化,非ランダム化)と多変量解析
2.4 診断モデルと多変量解析
2.5 予後モデルと多変量解析
3 多変量解析におけるアウトカム変数
3.1 アウトカム変数のタイプと多変量解析の選択
3.2 アウトカムが間隔変数の場合の多変量解析
3.3 アウトカムが 2 区分変数の場合の多変量解析
3.4 アウトカムが順序変数の場合の多変量解析
3.5 アウトカムが名義変数の場合の多変量解析
3.6 アウトカムがタイム‒イベント変数の場合の多変量解析
3.7 打ち切りの理由と打ち切りの仮定の妥当性
3.8 打ち切りの妥当性の判断
3.9 比例ハザード分析における「比例性の仮定」
3.10 アウトカムが計数の場合の多変量解析
3.11 アウトカムが人時発生率の場合の多変量解析
3.12 アウトカム変数の変数のタイプの変換
4 多変量解析における独立変数のタイプ
4.1 多変量解析で用いられる独立変数のタイプ
4.2 独立変数が名義変数の場合
4.3 独立変数が間隔変数の場合
4.4 線形性の仮定を満たす間隔変数型独立変数の多区分変数化
4.5 独立変数が順序変数の場合
5 独立変数間の関係
5.1 独立変数同士の相関の影響
5.2 多重共線性の判定法
5.3 多重共線性への対処法
6 多変量解析を準備する
6.1 多変量解析に投入する独立変数の選択
6.2 投入する交絡因子の選択
6.3 解析から除外すべき変数
6.4 多変量解析に必要なサンプルサイズ
6.5 独立変数の減らし方
6.6 独立変数の欠測への対処法
6.7 アウトカム変数の欠測への対処法
7 分析の実施
7.1 2 区分変数や順序変数に用いる数値
7.2 多区分変数における参照カテゴリーの選び方
7.3 交互作用項のとり入れ方
7.4 比例ハザード分析などの生存分析で用いる「時間」
7.5 アウトカムが研究参加当日に生じた場合
7.6 医学的にありえないほど生存期間が短い症例の扱い
7.7 ポアソン回帰分析に時間データを組み込む方法
7.8 変数選択法
7.9 モデルが収束しない場合の対処法
8 分析結果の解釈
8.1 多変量解析から得られる情報
8.2 モデルの適合度の評価法
8.3 各多変量解析の回帰係数の意味
8.4 交互作用項の結果の解釈
8.5 多変量解析と多仮説検定(多重比較)の補正
9 分析の前提となる仮定をチェックする
9.1 多変量モデルの適合度の評価法
9.2 モデルの適合度評価における残差の応用
9.3 線形回帰分析の仮定の充足度の評価
9.4 多変量モデルにおける線形性仮定の充足度の評価
9.5 外れ値とその検出法
9.6 外れ値への対処法
9.7 加算仮定の評価法
9.8 比例性の仮定の評価法
9.9 比例ハザード性の仮定の評価法
9.10 比例ハザード性の仮定が充足されない場合の対処法
10 傾向スコア
10.1 傾向スコアとは何か
11 クラスター化したデータと多変量解析
11.1 データのクラスター化が生じる状況
11.2 クラスター化した研究デザインの利点
11.3 クラスター化したデータの分析法
11.4 クラスター化した研究におけるサンプルサイズの計算
12 多変量モデルの妥当性の検討
12.1 多変量モデルの妥当性の評価
13 特別なトピック
13.1 時間依存性変数
13.2 時間依存性変数の利点と欠点
13.3 分類・回帰木
13.4 医学統計家との付き合い方
13.5 統計ソフトの選び方
14 論文の執筆
14.1 「Methods」における多変量解析に関する記載事項
14.2 多変量解析に関する文献引用
14.3 「Results」における分析結果の記載
15 要約:多変量モデル構築のステップ
思考の流れに沿った教科書
本書は,多変量解析の教科書として米国で人気の高い教科書です。人気の高い理由は,最先端の多変量解析の使い方を,数式を全く使うことなく,しかし,理論的に重要なポイントは確実に抑えながら,モデルをどのように選び,変数を設計し,適合度や妥当性を検証し,かつ解釈するかを,極めて的確に示してくれているからです。本書の第 2 版を翻訳出版したときの訳者序文に,「自動車運転の教本」のような教科書だと書きました。「自動車運転の教本」は,難しいメカニクスに触れることなく,しかし,「誰もが」安全に運転できるための必要な情報を,「わかりやすく,かつ完全」に記述しなければなりません。そうでなければ,事故だらけになってしまうからです。あれから 10 年近くの間,京都大学医学研究科社会健康医学系専攻で,多くの修士課程や博士課程の学生の研究指導をする際の座右の書として利用してきた経験から,本書が正にそのような「教本」だという思いはさらに確固たるものとなっています。
本書の著者は,カリフォルニア大学サンフランシスコ校の臨床研究プログラム Clinical Research Program で長年教鞭をとってきました。同校が世界に誇るこのプログラムは,多くの著名な研究者を輩出し,その優れた研究を支えてきたことで知られていますが,この教科書はそこでの 20 年にわたる教育経験,著者自らの数多くの研究経験,そして,Archives of Internal Medicine という一流学術誌の副編集長を務めた経験が結晶したものであり,多変量解析の教科書としての「実力」は国際的にも定評があります。
本書の特徴を一言で言えば,「思考の流れに沿った教科書」と言えると思います。研究においては,研究プロトコールを作成する時点,あるいはデータセットが得られた時点で,アウトカムの性質を考慮しながら,どの多変量解析が適切かを考えます。そしてそれが決まれば,リスクファクターの変数設計を行い(変数型の決定,欠測処理など),変数を選択し,前提となる仮定を確認しながら解析を実施し,モデルの適合度や(研究のタイプによっては)妥当性を検討し,結果を解釈します。このプロセスは,常に一方向ではなく,試行錯誤となることも少なくありません。この教科書はこうした思考の流れに沿って合理的に組み立てられており,そのため,著者が言うように,研究の段階によって,どこからでも読み始めることのできる教科書となっているのです。多変量モデル別に章立てした教科書も数多く読ませてもらってきましたが,「思考の流れに沿った」記述の方が自然で実践的あり,また,特定の多変量モデルを決め打ちして用いるよりも,多変量モデル間でその特徴,利点,限界を比較考量する方が「多変量モデルの世界」をよりよく理解することができ,したがって応用力も身に付きます。また,本書では,各モデルの適合度の指標についても必要最小限に解説してあり,統計ソフトを使った解析で打ち出される様々な難しそうな指標の理解を深めることもできます。
この 20 年間の多変量モデルの発達と普及は急速なものがあります。私たちが本格的に疫学研究を始めた初期のころは,2 項ロジスティック回帰分析や比例ハザード分析を知っていれば十分でしたが,今や,順序ロジスティック回帰分析(比例オッズ回帰分析),多項ロジスティック回帰分析,ポアソン回帰分析,負の 2 項回帰分析などの新しい手法が使われるようになってきました。また,マルチレベルモデル(混合効果モデル)や一般化推定方程式(GEE)の使用も普通になってきた感がありますが,これらの手法は,相互に関連しかつ補完する関係にあるため,別々に学ぶより,比較しながら学ぶ方がその本質を手早く理解することができ,本書の構成はその意味で非常に効率的なものと言えます。
なお,本書では,オッズ比やハザード比が,相対リスクやリスク比,あるいは率比などと表現されるといった用語の混乱についての指摘があります(8.3.B項,8.3.E 項)。疫学用語の混乱については,私たちが出版した「アドバンスト分析疫学―369 の図表で読み解く疫学的推論の論理と数理」(メディカル・サイエンス・インターナショナル,2020 年)の追加付録でも別の角度から指摘していますが,こうした用語の混乱が疫学や統計の理解を不必要に難しくしている側面があるため,疫学・統計の勉強にあたっては,この点に充分注意していただきたいと思います。
最後に,この第 3 版の翻訳にあたっては,訳語を全章にわたって全面的に改訂しました。また,納得の行く記述とするために,他の統計学の教科書や論文を参照するのに時間がかかったこともあり,思ったより時間のかかる作業となってしまいましたが,本書が,医学的研究を志す皆さんにとって,「多変量モデルの世界」へのよきナビゲーターとなることを心から願ってやみません。
令和 2 年 7 月 12 日
令和 2 年夏,京都神楽岡「吉田山荘」の書院にて
木原 正博
木原 雅子
医学的研究の分野における多変量解析の応用は,驚くほどの速度で拡大しつつあります。本書の第 1 版を出した当時は,2 項ロジスティック回帰分析と比例ハザード分析が最先端の手法でしたが,今や多くの研究者が,それらはもう古臭いと考え,マルチレベルモデル,一般化推定方程式(GEE),ポアソン回帰分析,傾向スコアなどの新しい手法に関心を強めています。
その背景にあるのは,使いやすい多くの統計ソフトの登場,大規模集団の縦断的データの電子データベース(診療記録,疾患登録など)が各段に使いやすくなったこと,そして,医療ケアの質の向上やコスト節減に役立つ方法として,臨床疫学的研究への興味が高まり,それを支援する研究費が増大してきたことがあります。
その一方,こうした状況の中でも全く変わらないのが,医学統計を専門としない人が,そうした多変量モデルの実施や解釈を学ぶ上で,わかりやすく実用的な教科書の必要性です。統計ソフト(例:SPSS,SAS,S-plus,R)の使用には,プログラミングの経験や数学の素養はほとんど必要ありませんが,正しい解析を実施できなければ,間違った結論を導くことになってしまいます。また,たとえ,解析自体は正確でも,解析の意味が理解できていなければ,正しい結論を導くことはできません。
こうした問題を防ぐために,本書では,その全体を通して,多変量解析の設定と解釈と妥当性の検証に焦点をあてた解説を行っています。その際,多くの医学,公衆衛生分野の具体例を取り上げ,どのように解析が実施され解釈されているかを示していますが,それは,それが理解の早道だからであり,研究を行う場合には,優れた研究を参考にするのが何よりも効率のよいアプローチだからです。
この第 3 版の最大の特徴は,この間に使用が拡大してきた,ポアソン回帰分析,負の 2 項回帰分析,順序ロジスティック回帰分析(比例オッズ回帰分析),多項ロジスティック回帰分析などの新しい多変量解析法のセクションを追加したことです。また,マルチレベルモデル(混合効果モデル)や一般化推定方程式(GEE)も内容を改訂し,さらに,残差分析などの方法を用いて,多変量モデルの仮定が満たされているかどうかを検証する方法についても記述を追加しました(第 9 章)。
こうした記述の拡張の一方で,記述の基本的な組み立ては,多変量解析を実施するプロセスに沿って記述するという,これまでのスタイルを踏襲しています。つまり,多変量解析が必要かどうか(第 1,2 章)→ どの多変量モデルを用いるか(第 3 章)→ 独立変数の設定(第 4,5 章)→ モデルの設定(第 6 章)→ 解析の実施(第 7 章)→ 解析結果の解釈(第 8 章)→ モデルの前提となる仮定が満たされているかどうかの検討(第 9 章)→ モデルの妥当性の検証(第 12 章)→論文の執筆(第 14 章)という流れです。統計学の教科書では,多変量モデルごとに章が設けられるのが普通ですが,私はこの構成を好んでいます。なぜなら,それによって,それぞれのモデルの類似性や違いを比較しながら学ぶことができるからです。モデル相互の比較は,結果の妥当性を検討する上で非常に重要です。私の経験では,結果が非常に安定な場合には,どのモデルを用いても分析結果に大きな違いはなく,逆に,解析法によって結果が大きく異なるようでは,結果自体が疑わしいことになります。したがって,どの解析法が一番よいかを決定する上で,最善の方法は,複数の方法で解析してみることであり,結果が一致すれば,結果の妥当性が高まり,仮に違いがあれば,自分の持つデータの性質について重要な情報が得られ,最もふさわしい解析法を学び取ることができます。また,研究のプロセスに沿って記述を構成することには,研究をすでに開始した人が,自分のステージに合った章から読み始めることができるというメリットもあります。
本書を読むに際しては,医学統計学の基礎を習得していることが前提となります。そうでない人には,Glantz の“Primer of Biostatistics(第 6 版,McGrawHill,2005)”をまずお読みください。私も,“Study Design and Statistical Analysis: A Practical Guide for Clinicians (Cambridge University Press,2006)という,医学統計学の基礎的な教科書を出版していますので,参考にしていただければと思います。知人の中には,その教科書と本書を合体して出版したらどうかと勧めてくれる人もいますが,それはそれでメリットがある反面,分厚い教科書は,研究者にとって取っつきにくく,また,高価にもなってしまいます。私は,それ以外にも,”Evaluating Clinical and Public Health Interventions(Cambridge University Press,2010)”を出版しており,本書でも引用しますが,これはひとえに,各書籍を薄くかつ安価にしたいという思いからのことなので,ご理解いただければ幸いです。
医学研究者向けの教科書を書く場合の 1 つの難しさは,どこまで詳細に書くべきかということです。1 つの解析方法についてだけでも,書こうと思えば,本書より分厚い教科書を書くことができます。簡潔さと詳しさのバランスをどうとるかですが,本書では,記述を簡潔にしつつ,しかも必要な文献にアクセスできるように,各ページに脚注を充実させ,特定の解析法についてより詳しく知りたい読者がさらに深く学べるように配慮しています。そしてそこでは,私が有用と判断した web サイトをできるだけ多く紹介するようにしていますが,それは,統計学の教科書は高価で,個々の論文はアクセスが容易ではないからです。
本書の執筆にあたっては,カリフォルニア大学サンフランシスコ校で,私が20 年にわたって教えた臨床研究プログラムの生徒たちからの,非常に示唆に富む質問やコメントが非常に役立ちました。ここに特に記して感謝したいと思います。また,この 2 年間,Archives of Internal Medicine の副編集長を務めた経験も,多変量解析の用い方に関する私の知識を磨く上で大変役立ちました。そうした機会を与えていただいた,編集長の Rita Redberg,MD,色々と貴重な教えをいただいた,医学統計学担当編集者の John Neuhaus,PhDと David Glidden,PhD,そして,同じ編集者で,何百という投稿論文について貴重な意見を分かちあってくれた Patrick O’Malley,MD と Kirsten Johansen,MD に,心から感謝したいと思います。そして,この第 3 版の出版を強く後押ししてくれた,Cambridge University Press の編集長 Richard Marley 氏とそのスタッフの方々にも心からの謝意を表します。
最後に,本書の第 2 版までを読んで,コメントや捕捉や質問を寄せてくれた多くの研究者からのインプットも特筆すべきものがあります。教科書の執筆は孤独な作業であり,自分の書いたものが研究の質を高める上で役立ったかどうかについての実感がなければ,本書の執筆はできなかったと思います。その意味で,質問やコメントがある方は,ぜひ mhkatz59@yahoo.com 宛てにご連絡ください。