2016年3月2日水曜日

Multiple ImputationとPropensity scoreについて

Multiple ImputationとPropensity scoreについて

Multiple ImputationとPropensity scoreについて以前いろいろ情報を集めたので、これから頑張ってここでまとめようと思います(と宣言して自分にプレッシャー)。基本的には両者はかなり同じコンセプトだと感じているのでまとめました。

ネ申:Dr.Rubin

いろいろ書いてから以下のサイトがあったことに気づいた。論文を書くときにREFすべき文献もいかにあるっぽい。以下のサイトで用が足りる人はこちらへどうぞw
The multiple imputation FAQ page


Circ Cardiovasc Qual Outcomes. 2010 Jan;3(1):98-105. doi: 10.1161/CIRCOUTCOMES.109.875658.
Missing data analysis using multiple imputation: getting to the heart of the matter.
He Y.
PMID: 20123676 

以下は上の論文から一部コピペ。
まず押さえておくべき概念(しかしなかなか覚えれない)。

”Three broad types of missingness mechanisms, moving from the simplest to the most general, are:

1.Missing completely at random (MCAR): A variable is MCAR if the probability of missingness is independent of any characteristics of the subjects. For example, each survey respondent decides whether to answer the “age” question by rolling a die and refusing to answer it if a “1” appears (ie, with a probability of 1/6). However, most missingness is not completely random. In the hospice study, for example, older patients are more likely than younger ones to have nonresponse on either income or insurance questions.

・すべての欠測は、完全にランダムに起こる=いかなる変数ともまったく無関係=現実の観察データの欠損パターンではほとんどない

・ Complete Case Analysis(CCA)でも妥当な結論が得られる(=CCAをやっているのは、欠損に関してMCARを前提としている解析手法!=医学公衆衛生学研究で未だにしばしば用いられるが、統計学的にはあり得ない前提を置いている。)

・Complete Case Analysisは推奨しない Little et al. (2012)) 解析対象集団から、ランダムに一定の割合の対象者を除外することと同じ。検出力の低下は起こる



2.Missing at random (MAR): A more general assumption, MAR, is that the probability a variable is missing depends only on observed variables. For instance, older patients might be more likely to miss “insurance” than younger patients, and then “insurance“ is MAR if the study has collected information on age for all patients in the survey.
・欠測のメカニズムは、観測されている変数ですべて完全に説明することができるパターンの欠損。
・ WEEやモデルに基づく推定方法(ML, Bayes,MIなど)で、妥当な推測が可能
・単一代入法(LOCFなど)も仮定が正しければ妥当な(もしくは保守的な)評価が可能??
・単一代入法を利用する上では、十分な科学的根拠の説明が必要!!
・名前からは誤解されがちだが、完全にランダムな欠損ではない!(それはMCAR)
※ Dr.RubinがMARという名称をつけてしまったのが普及してしまったらしい。実際には“Systematic Missing”!!!



3.Not missing at random (NMAR): Missingness is no longer “at random” if its probability depends on variables that are incomplete. A common example is that people with higher income are less likely to reveal them, that is, the nonresponse probability for the income variable depends on values that can be missing.”
・欠測のメカニズムは、観測されている変数では完全に説明することができない。 観測されていない変数にも影響される。
 (まぁ通常の欠損メカニズムはどれもこれでしょう)
・感度解析をするしかない!!
・Pattern-Mixture Models
・Selection Models
・MNARのもとでの解析手法のスタンダードの確立は、まだこれからの課題でもある
・NMARは、文献によってはMNAR (Missing Not At Random) とされることもある



Ad Hoc Missing Data Methods Complete-Case Analysis
A common missing data approach is complete-case analysis (CC、もしくはCCA), which uses only subjects who have all variables observed and is also the default option in many statistical software. When data are MCAR, CC analysis results are unbiased. When data are MAR but not MCAR, it is permissible to exclude the missing observations, provided that a regression model controls for all the variables that affect the probability of missingness.9 However, CC analysis generally has major deficiencies.5,10 The results can be biased when data are not MCAR. In addition, the reduction of statistical power by discarding cases is a major drawback. For example, suppose data are MCAR across 20 variables and the missingness fraction is 5% for each variable. Using CC analysis will lose close to two thirds of the subjects because the fully observed subjects only account for (1% to 5%)20 ≍36% of the original sample.”

MIについてのソフトウエア
Software
Some popular imputation software includes:
  1. SAS: PROC MI uses regression methods and propensity scores for imputation. PROC MIANALYZE combines estimates output from various complete-data procedures.
  2. S-plus: The missing data library supports different models for multivariate normal (“impGauss”), categorical variables (“impLogin”), and the conditional gaussian (“impCgm”) for imputation involving both continuous and categorical variables.
  3. R: It supports libraries such as “norm,” “cat,” “mix,” and “pan” for imputing data under multivariate normal models, log-linear models, general location models, and linear mixed models, respectively. In addition, libraries including “mi” and “Hmisc” impute data in more complex scenarios and provide tools for diagnostics.
  4. IVEware: Imputation and Variance Estimation software for SRMI, callable by SAS (http://www.isr.umich.edu/src/smp/ive).
  5. MICE: Multiple Imputation by Chained Equations, library available in both S-plus and R (http://web.inter.nl.net/users/S.van.Buuren/mi/html/mice.htm).
  6. ICE: SRMI library available in STATA.”

●津川さん
” MVN modelを使うのが得策だと思います。MICEはセオリー的な根拠がないので。カテゴリー変数はダミーコードして連続変数として扱えば問題ありません。”

Am J Epidemiol. 2010 Mar 1;171(5):624-32. doi: 10.1093/aje/kwp425. Epub 2010 Jan 27.
Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation.
Lee KJ1, Carlin JB.

”Multivariate normal(MVN)はカテゴリー変数であってもbinary variableであっても連続変数として扱うモデルです。
セオリー的に証明されており、連続変数でなくても適用可能であることが示されています。
Rubinが初めて開発したMIはこちらになります。

MICEはより新しいモデルで、データの分布を考慮してモデルを組むのですが(Logistic regressionなどを用いて)、統計学的な証明がされていません。
MVNの方がモデルとして安定していますし、Computationalにも効率的です。
カテゴリー変数などは0/1のダミー変数にして、0~1の間で連続変数を取るとすれば問題ありません。”

”MICEはlogistic regressionなどを使うので、complete separationの問題などがあるとconvergeしません。
一方で、MVNは全ての欠損値を一回でimputeするので、model convergenceの問題がありません。
両方やってみて感度分析とするのが一番良いと思いますが。”

”こちらのKohei Hasegawa先生との論文ではMVNでMIした後に、multilevel model (random-effects model) をフィットしています。
Appendixに詳しい方法が書いてあります。

”METHODS
Multiple imputation
In the patient- and ED-level models we conducted multiple imputation byusing the multivariate normal imputation method for the variables withmissing data. The proportion of missing values was small (

REFERENCES
E1. Rubin DB. Multiple imputation for nonresponse in surveys. New York: John Wiley& Sons; 1987.
E2. Little RJ, Rubin DB. Statistical analysis with missing data. New York: Wiley-Interscience;2002.
E3. Graham JW. Missing data analysis: making it work in the real world. Ann RevPsychol 2009;60:549-76.
E4. von Hippel PT. Regression with missing y’s: an improved strategy for analyzingmultiple imputed data. Sociol Method 2007;37:83-117.” ”


●相良さん
”SASでMIをされるのであれば、IVEwareを利用されるのはどうですか?意外と簡単に出来ます。

インストールの際に以下の手順が必要ですが、とても操作し易いです。
私でも出来るので先生方であれば、まず大丈夫だと思います。
Make sure the directory containing the SAS executable binary file (SAS.EXE) is on the System Path. A quick way to check this is simply to select the Start Menu, Run... prompt and then type in cmd, to open a Windows Command Prompt. Change into the C:\iveware directory; then type sas at the command prompt. If SAS executes then it is already set on the System Path.”

”いろんなアプリケーションがあるようですね。
Am Stat. 2007 Feb;61(1):79-90.
Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models.
Horton NJ1, Kleinman KP.”

”proc miとiveを比較している文献もありました。

●相田先生、
”*ただし、MICEは収束しにくく、MVN(上記ではMCMCと表記)と結果も大きく変わらない(Lee & Carlin 2010)。MVNでカテゴリ変数を利用する場合、ダミー化して、例えば3カテゴリーだったら2つのダミーをいれてインピュテーションする。そして、最も大きい値を採用する。ただし、ダミーの両方が0.5未満だった場合は投入していないカテゴリーを採用する。連続変数や順序変数は四捨五入する(このあたりの詳細は、Carpenter & Kenward. Multiple imputation and its application. Wiley に書かれています)。

Lee KJ, Carlin JB: Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation. Am J Epidemiol  171(5):624-632,2010.”




●データセットはいくつ作るべきか?

Selecting the number of imputations (m)
Historically, the recommendation was for three to five MI datasets. Relatively low values of m may be appropriate when the fraction of missing information is low and the analysis techniques are relatively simple. Recently, however, larger values of m are often being recommended. To some extent, this change in the recommended number of imputations is based on the radical increase in the computing power available to the typical researcher, making it more practical to run create and analyze MI datasets with a larger number of imputations. Recommendations for the number of m vary. For example, five to 20 imputations for low fractions of  missing information, and as many as 50 (or more) imputations when the proportion of missing data is relatively high. Note that estimates of coefficients stabilize at much lower values of m than estimates of variances and covariances of error terms (i.e., standard errors). A larger number of imputations may also allow hypothesis tests with less restrictive assumptions (i.e., that do not assume equal fractions of missing information for all coefficients). Multiple runs of m imputations are recommended to assess the stability of the parameter estimates. 

・データセットをたくさん作ると、アウトカムをMIするかどうかによる推定値の違いが小さくなるとの記載があり(Young, 2010)。

・高橋(2014)(下記リンク)では、それ以外の文献も引用し、欠損値が多ければ、MIのデータは多い方がいいことを示している。

・Dr.野間(2014、講演会):「最低でも100‐1000個でしょう」 ←坪谷「(苦笑)」


●Rounding After Multiple Imputation With Non-binary Categorical Covariates

論文書くとき:欠損値の範囲は報告すべき(○%-▲%)



アウトカムまでMIするんでしょうか?


統計学的に考えれば、アウトカムであれ曝露因子であれ、どの変数であろうともMIすべきなことは自明ですが、疫学者としては(?)、アウトカムや曝露(特にアウトカム)までMIすることに疑問があります(おかしいと思います)。
**Imputing the Missing Y’s: Implications for Survey Producers and SurveyUsers

 上記論文では以下について例を出して解説

1) アウトカムだけcomplete analysis
2) アウトカムも含めてMIして、MIしたアウトカムを持つものは削除して解析(1と比較すると、結局のNはアウトカムについてのcomplete analysisiになるが、アウトカム以外のMIにアウトカムも使う点が1と違う)
3) アウトカムも含めてMIして、MIしたアウトカムを使う

ざっくりいえば、3>2>1の順で、厳しい検定になりそう。
とくに3は、使用するNが増えているのに、Pが大きくなっている場合が多い&ベータがnullに近づいている印象=要するにvariationをより大きく見積もって解析していることがうかがえる。
論文のスペースが許すなら、supplementary tableなどで感度分析として上述の1~3のすべての結果を提示してもよいのではないか。
スペースがないなら、3を提示すべきか?

いやーしかしそれっておかしい気が・・・・だってそれって曲論、ベースラインさえあれば、半数の対象者をフォローしなくても、全員のデータがさもあるように解析できちゃうわけで・・・確かにVARが大きくなる分ベータが小さくなりPが大きくなるでしょうが、フォローアップを半分しなくてよいというコスト削減を考えると、ベースラインだけ大量にやって、フォローアップを半分くらいやってMIにより”全員”解析とかやる人出てきそうですが、統計学的理屈だけで考えるとこういうことをお論破できなくないか


最新のトップジャーナルにおけるMIの使用頻度について調べた論
Handling missing data in RCTs; a review of the top medical journals
http://www.biomedcentral.com/conte…/pdf/1471-2288-14-118.pdf

(坪谷による粗い日本語訳&サマリ)
”いわゆる4大医学雑誌(BMJ,JAMA,Lancet,NEJM)に2013年7月から12月に掲載された77個のRCT論文において、欠損の扱いについて調べた。そのうち73(95%)で何らかの欠損があり、multiple imputation(MI)をやっていたのは、N=27 (35%)だけでした!一番多いのはcomplete case analysis (N=33, 45%)でした!”

ということで、トップジャーナルでさえ、MIは主流ではないようです。まぁRCTと観察研究では、また事情が違うとは思いますが。


最後に・・・:
N Engl J Med. 2012 Oct 4;367(14):1355-60. doi: 10.1056/NEJMsr1203730.
The prevention and treatment of missing data in clinical trials.
PMID: 23034025

”まぁいろいろ書いたが、一番大切なことは欠損を作らない努力をすることですw 病気も欠損も予防が大事だよね!”


解析での対処方法
・臨床試験において、すべての欠測データを統一的に扱う方法は存在しない
・個々の試験のデザイン,測定値の特性などに応じて,必要な仮定・モデルは違う
・モデリングや推測の方法も非常に広範に及び、いかなる状況においても万能な方法は存在しない

欠測に対する4つの調整方法
・ Complete-Case Analysis
・ 単純な補完方法(Single Imputation)
・ 重みつき推定方程式(Weighted Estimating Equation; WEE)による方法
・ モデルに基づく方法(最尤法,ベイズ推測,多重代入法など)

補完方法
・ Single Imputation 単一代入法: 欠測値に対して、適当な単一の値を代入する補完方法。超簡単。 すべての単一代入法は「欠測データを100%確実に予測できる」のでなければ、分散を過小推定する
・ 得られるP値も誤り(Type-1 Error Rateを名目水準以下に保持できない)
・ 得られる信頼区間も誤り(過度に狭い)
・ 主要な評価に用いるのであれば、この精度の問題も含め、科学的な根拠を説明できなくてはいけな
 ・ Last Observation Carried Forward (LOCF): 脱落を起こした時点での値を、単純に補完値として利用する単一補完法。これもイージー。日本で行われる治験でも、LOCFは多くの試験で用いられてきた。最終観測時点での測定値から、アウトカムが不変であると仮定いる点にbiasあり。 O’Neill and Temple (2012) LOCFを主要な解析に利用する場合は、その科学的根拠を説明できなくてはいけない
・WEE:完全データが観測された対象者についての重みつき推定方程式。 「観測される確率(欠測を起こさない確率)の逆数」で重みつけた推定関数に基づく推定量は一致性を持つ
・Inverse Probability Weighting:欠損を起こしやすいケースに重み付けをする





Propensity score:

坪谷の理解:PSの使い方はいろいろあって、IPTWとかPSを連続量で調整するとか、なんかいろいろやっている人たちがHSPH含めてたくさんいるが、Dr.RubinのPSの始まりの考えを理論的に理解し用いるならば、PS-matched pairを(1:1ではなくできるだけサンプルを使って1:Nで)作り、基本特性で両群に差が無いことを示した上で、RCTっぽい感じができたら、メインの解析をするのが良いのではないでしょうか。マッチさせる時のキャリパーは、0.25(or 0.20)*SDなどが標準的だとは思いますが、要はどうマッチさせたかではなく、マッチ後の両群の基本特性に差が無いかどうかなので、キャリパーは、0.25*SDにこだわる必要もないとは思うが、何か目安が必要だと思うので、とりあえず0.25*SDと書いておきます。

大切な論文:
Rubin DB: Estimating causal effects from large data sets using propensity scores.
Ann Intern Med 1997; 127: 757-763.

日本語論文・本:

星野 崇宏
調査観察データの統計科学―― 因果推論・選択バイアス・データ融合 ――
岩波書店

岩崎 学
不完全データの統計解析
エコノミスト社

素晴らしいウェッブの資料
・吉田氏のスライド
・星野氏の論文
・東北大学循環器の宮田氏の資料
・慈恵の浦島氏の資料

PSをpredictするmodelを作る時の共変量の選択の注意点:
①従属変数より因果が後の変数はいれてはならない
②処置後変数で、かつ従属変数より因果関係が前の中間変数は、原則いれない
③従属変数と関連がありそうな共変量は、中間変数に注意しながら、なるべく多く投入する

などを考えつつ、とりあえず全部一次項としてロジスティック回帰でやってみる。
そしてmatched pairを作って、両群の基本特性を比較してみて、差が無ければおめでとうございます!差があれば、PS model式の再考、、、orz
え?再考はどうやるかって?残念ながら「こうやれば差はなくなるよ」という方法はありません。投入する変数を変えてみたり、投入する変数の2乗、3乗、log変換したものなどを含めて、時には重要そうな変数の交互作用項を入れたりして、両群に差がなくなるまで(or自分が燃え尽きるまで)PS modelを作り直し、両群の基本特性を比べ続けるというなんとも職人的こだわりを感じる作業。

Am J Epidemiol. 2006 Jun 15;163(12):1149-56. Epub 2006 Apr 19.
Variable selection for propensity score models.
”The results suggest that variables that are unrelated to the exposure but related to the outcome should always be included in a PS model. The inclusion of these variables will decrease the variance of an estimated exposure effect without increasing bias. In contrast, including variables that are related to the exposure but not to the outcome will increase the variance of the estimated exposure effect without decreasing bias.”

Contemp Clin Trials. 2011 Sep;32(5):731-40. doi: 10.1016/j.cct.2011.05.006. Epub 2011 May 16.
Are propensity scores really superior to standard multivariable analysis?

-----------------------

2014/12/01追記

ICRweb 統計スコアの講義(2014.5)資料より

(P.45)どの解析法が最も良い?
→統計家の中でもディスカッション中
• 条件にもよるがIPTWが最も推定値のバイアスが少ない傾向あり
Austin PC Int J Biostat. 2009 Apr 14; 5(1):Article 13.他
• 多変量解析は唯⼀解析のモデルの妥当性が問われるので慎重に使うべき。ただし、解析のモデルが妥当であれば良い⽅法
Multivariate Behav Res. 2011 May; 46(3): 399–424.
• マッチングは相対的にバイアスが少ないので、まずマッチングを⾏い、次に⼀般化可能性を⾼めるため層別解析、多変量解析などを⽤いるのが良い
Katz, Mitchell H. Cambridge University Press, 2010.


(P.47)傾向スコアの解析をしないとマズイか?
• 過去の発表された論⽂をレビューすると、従来の⼿法(傾向スコアを⽤いずに、多変量Cox回帰や多変量ロジスティック回帰を⾏う)と傾向スコアを⽤いた解析は、ほとんど結果が変わらない
Shah et al. Journal of Clinical Epidemiology 58(2005) 550-559.Sturmer et al. Journal of Clinical Epidemiology 59(2006) 437-447.
• ⼀般の単純な解析で⽬的が⼗分果たされるなら、従来の⼿法を⽤いていれば⼗分
Katz, Mitchell H. Cambridge University Press, 2010.
• 結局の所、傾向スコアの解析・傾向スコアを⽤いない多変量解析を全て⾏って(感度解析)結果の頑健性を確認すべし
Katz, Mitchell H. Cambridge University Press, 2010.


-----------------------

2015/02/16追記
J Thorac Cardiovasc Surg. 2007 Nov;134(5):1128-35.
Propensity-score matching in the cardiovascular surgery literature from 2004 to 2006: asystematic review and suggestions for improvement.
Austin PC1.

There are three commonly used propensity score methods: 
1) covariate adjustment using the propensity score,
2) stratification on the propensity score, 
3)  and propensity score matching.

Earlier studies have shown that propensity score matching results in the comparison of treated and untreated subjects who are more similar than does stratification on the propensity score.6,7

6. Austin PC, Grootendorst P, Anderson GM. 
A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: A Monte Carlo study. 
Stat Med. 2007;26:734-53.

7. Austin PC, Mamdani MM. 
A comparison of propensity score methods:a case-study estimating the effectiveness of post-AMI statin use. 
Stat Med. 2006;25:2084-2106.

→PSの方法は、1)PSそのものを調整因子に使う、2)PSで層別化、3)マッチングとあるが、先行研究でマッチングが良いと言われている


マッチング前後で、2群間の各変数のばらつきの差の変化の指標
「標準化効果量」Absolute Standardized Difference
実際に使っている論文:Wijeysundera DN et al: Arch Intern Med 170: 1365-74, 2010
しかしこの論文では、この指標の概念自体の妥当性についての議論はしていないように思われました。
この論文では、「標準化効果量」については、以下の論文をREFすることで説明をしていないようでした。

J Thorac Cardiovasc Surg. 2007 Nov;134(5):1128-35.Propensity-score matching in the cardiovascular surgery literature from 2004 to 2006: a systematic review and suggestions for improvement.Austin PC1.

ということで上記も読んでみましたが、上記は「標準化効果量」について説明している感じではありませんでした(苦笑)
「Wijeysundera DN et al: Arch Intern Med 170: 1365-74, 2010」の論文がREFを間違えたのか、それとも適当にごまかしているだけなのか(苦笑)

「Absolute Standardized Difference」の説明を求めて、pubmedで"propensity score" "Absolute Standardized Difference" で検索すると以下の論文(だけ)がヒットしますが、この論文もまた「Absolute Standardized Difference」を説明しているものではないようでした・・・・

Pharmacoepidemiol Drug Saf. 2014 Aug;23(8):802-11. doi: 10.1002/pds.3574. Epub 2014 Jan 29.Propensity score balance measures in pharmacoepidemiology: a simulation study.Ali MS1, Groenwold RH, Pestman WR, Belitser SV, Roes KC, Hoes AW, de Boer A, Klungel OH.

一方で、pubmedではなく、google scholarで同様の検索をすると、そっちの方がそれっぽい論文をたくさん提示してくれる気がしました(が今度は多すぎて読む気力起きず・・(苦笑))

まぁそれはともかく、「Absolute Standardized Difference, %」は重要だろうなぁ~とは思いました、値そのものだけではなくSDも含んでいるので。

ちなみに以下のTsuboya et alの論文では、この時はPSによるマッチングの前後のimbalanceの変化の評価は、SDは含まない概念の指標(≒分布は考慮していない)を使っています(この概念自体はカワチ先生が教えてくれたものですが)。

Am J Ind Med. 2015 Feb;58(2):229-37. doi: 10.1002/ajim.22409.
Working overtime and risk factors for coronary heart disease: A propensity score analysis based in the J-SHINE (Japanese Study of Stratification, Health, Income, and Neighborhood) study.
Tsuboya T1, Aida J, Osaka K, Kawachi I. 
PMID: 25603945 

まぁとはいうものの正直細かいことは見議論しだしても大差ないので、これでも十分いい気がします(レビューワーやエディーさえよければ)。
最近思うことは、我々(統計そのものの専門家ではない)ユーザー(例:疫学者)としては、PSもMIもほどほどに勉強して使えれば、まぁ良いのかなという感じです。
追及しても大差はありませんが、一方で時間と手間は確実にかかり深みにはまるだけで、本業の生産性はあまり向上しない気がします(苦笑)
ロジスティックやCOXの方法論などと同じかなと思います。とりあえずなんとなく数式を理解できて使えていればOKかなと。


0 件のコメント:

コメントを投稿