以前からまとめようと思っていたネタを我らが相田先生がまとめてくれたのでここにメモ。
最後に質問があるので、ぜひ統計に詳しい人教えてください!
【相田先生の資料ここから】
●しばしば引用される文献
Zhang J, Yu KF. What's the relative risk? A method of correcting the odds ratio in cohort studies of common outcomes. JAMA. 1998;280:1690-1.
解決策を示している論文
1) Estimating the relative risk in cohort studies and clinical trials of common outcomes@AJE2003
-> 層別化解析と、Log-binomial回帰を推奨
Estimating the relative risk in cohort studies and clinical trials ofcommon outcomes.
McNutt LA, Wu C, Xue X, Hafner JP.
Am J Epidemiol. 2003 May 15;157(10):940-3.
PMID: 12746247
2) A modified poisson regression approach to prospective studies with binary data@AJE 2003
-> Modified Poisson regression (robust 分散など) も利用可能と説明
A modified poisson regression approach to prospective studies withbinary data.
Zou G.
Am J Epidemiol. 2004 Apr 1;159(7):702-6.
3)
Alternatives for logistic regression in cross-sectional studies an
empirical comparison of models that directly estimate the prevalence
ratio
BMC medical research methodology 2003
-> Cox回帰分析、ポアソン回帰分析、ポアソン回帰分析(robust 分散)、Log-binomial回帰分析の結果から、Prevalence ratioの推定を推奨。
4) A comparison of two methods for estimating prevalence ratios @ BMC medical research methodology 2008
-> Robust PoissonよりもLog-binomialの方がバイアスが少ないことを報告
5) A practical guide for multivariate analysis of dichotomous Outcomes
Ann Acad Med Singapore 2009
->
横断研究:Prevalence Ratio (PR)
コホート研究(時間一定の臨床研究)Cumulative Incidence Ratio (CIR)
コホート研究(時間異なる) Incidence Density Ratio (IDR)
を、コックス回帰、Log-binomial回帰、ポアソン回帰(robust分散) から算出すべき
ケースコントロース研究でだけロジスティック回帰分析でオッズ比を出すべき
→→あまり一般的ではないか?
- Cumulative Incidence Ratio (CIR) 累積罹患率比:無作為化比較試験でよく用いられる。定めたある観察期間中に観察された罹患員数を観察対象人口で割ったもの。観察期間が明記。
- Incidence Density Ratio は、Incidence rate ratioと同義。観察期間を考慮してPerson-yearで割る。
まとめ
- 二値アウトカムの分析では、アウトカムの発生率が10%を超える時(もうすこし多くてもOKか?)、ロジスティック回帰分析は過大推定となる。
- 横断研究の場合、Log-binomial回帰分析やPoisson回帰分析などで Prevalence ratioを算出するべき。
- コホート研究の場合、Cox回帰分析でハザード比を算出するか、 Log-binomial回帰分析などでIncidence ratioを計算する。
Software
- StataによるLog-binomial回帰の方法
– How can I estimate relative risk using glm for common outcomes in cohort studies?
glm outcome ib1.exp, fam(bin) link(log) nolog
glm outcome ib1.exp, fam(bin) link(log) nolog eform
–
Analysis of cross-sectional data-Alternatives to logistic regression
for binary outcomes Workshop, January 2013 SIMSAM EarlyLife Jonas Björk
– Spiegelman D, Hertzmark E. Easy SAS calculations for risk or prevalence ratios and differences. Am J Epidemiol. 2005;162:199-200.
- ソフトウェアによる制約:マルチレベル分析では、Log-binomial回帰分析はSASだけ可能の様子
ーーーーーーーーーーーーここまでが相田先生のまとめーーーーーーーーーーーーーーー
以下坪谷の追記。
Log-binomial modelについて数式を交えて、logisticとの違いを説明していると思われる論文。
Log-binomial models: exploring failed convergence
Emerg Themes Epidemiol. 2013 Dec 13;10(1):14. doi: 10.1186/1742-7622-10-14.Log-binomial models: exploring failed convergence.
Williamson T1, Eliasziw M, Fick GH.
PMID
24330636
"Generalized linear models
Modelling
ORs is done through the use of logistic regression, a type of
generalized linear model that uses the logistic function to link a
dichotomous outcome (assumed to follow a Bernouilli distribution) to a
set of explanatory variables (called the linear predictor when the
variables are included in a linear way).
log(p/1−p)=∑i=0jβixi (1)
A
log-binomial model is a cousin to the logistic model. Everything is
common between the two models except for the link function. Log-binomial
models use a log link function, rather than a logit link, to connect
the dichotomous outcome to the linear predictor.
log(p)=∑i=0jβixi (2)
One
immediate consequence of this change is the interpretation of the
coefficients. In equation 1 the βi’s refer to differences in the log
odds while in equation 2 the βi’s refer to differences in log risks.
Except in some very special cases, there are no easy ways to link the
coefficients from a logistic regression to those in a log-binomial
unless one references the rare-disease assumption mentioned above."
上記は要は(坪谷の理解では)、
「log-binomialとlogistic との唯一の違いは、上記数式の左辺の違いだけ(log(p/1−p)とlog(p))ですよ」
と説明しているように思えました。
つまりP(イベント発生率)が大きくなる(10%以上など)と、log(p/1−p)とlog(p)が乖離しだしそうで、それに伴い算出されるベータも乖離(=ベータから計算されるORも乖離)しそうです。
こう考えると、p>10%では、同じデータを使っても、binomialとlogisticからそれぞれはじき出されるORが異なりそうです(まぁだからORを近似したRRも異なるわけですが)。
そう考えると、今まで考えていた内容(以下)は、そもそも的外れな気もしてきました・・・。
【今まで考えていた内容】
prevalenceが10%を超えると、ORが「X倍」に近似できないのはその通りだと思うが、ORはORのままで議論すればよい(例:ORが2倍でした、などと記述すればよい)気がしていた。
relative riskの議論に持ち込まなければORで議論しても問題ない気がするが、それで議論を進めて何かまずいものでしょうか。
実際に論文投稿した際に、ORで議論を進めて提出して、レビューワーなどから「ORではよろしくないです」と言われたことある方おられますでしょうか?
【今まで考えていた内容、ここまで】
つまり結論的には、
「RRで論じようがORで論じようが、p>10%ではlogisticはNG(=【今まで考えていた内容】はそもそもナンセンス)」、
という結論になりそうですが、このような理解で良いものでしょうか??
統計に詳しい人教えてください!