Subgroup anaylsis, problems of multiplicity, heterogeneity

Career/의학 통계|2022. 12. 8. 09:20
  1. subgroup analysis의 방법과 흔한 오류들

 

RTSA vs. ORIF RCT paper를 읽고 생긴 궁금중 중 하나로, subgroup analysis에 대해 정리해보고자 한다.

 

출처는 youtube Jeehyoung Kim 채널의 영상과

 

Jeehyoung Kim

연구자들이 필요로 하는 모든 잡다한 지식들. 대학원생, 박사, 연구원, 교수들을 위한 채널

www.youtube.com

CONSORT statement의 18번째 단락이다. 

 

또한 영상에서 소개하신 2007년 NEJM의 article을 주로 참고하였다.

Rui Wang, M.S., et al., Statistics in Medicine — Reporting of Subgroup Analyses in Clinical Trials, N Engl J Med 2007; 357:2189-2194

 

 

 

 

개요

subgroup analysis란 기존 primary outcome을 얻고 난 후, 이 결과를 가지고 data 내에서 다시 군을 나누어 이 결과에 대해 분석하는 것을 뜻한다. 

 

즉 A약의 효과가 B약의 효과보다 좋다는 결론을 가지고 성별에 따라 subgroup analysis를 했을 때 얻을 수 있는 결론은

남자와 여자에서 효과가 다르다 (X) 가 아닌

남자에서도 A약의 효과가 B약의 효과보다 좋고, 여자에서는 A약의 효과가 B약의 효과가 비슷했다. (O) 가 된다.

 

예를 들어, 기존 review했던 논문에서

"고령의 B2, C2 proximal humerus Fx.에 대해 2년째 Constant score는 RTSA가 ORIF보다 우월했다."

는 primary outcome을 얻은 후

 

RTSA 군과 ORIF 군을 각각 Fx. type 두 가지, 연령대 두 가지로 다시 나누어 

Fx. type 별로는 score가 어떤지, 연령대 별로는 score가 어떤지 다시 분석한 것과 같다.

 

 

얼핏 생각하면 데이터를 다시 모을 필요 없이 여러 가지 subgroup으로 다시 나누어 분석할 수 있어 아주 경제적이고 효율적인 분석이라고 느껴지지만, 실은 그렇지 않은데 아래 article에서 그 이유를 알아보자. 

 

 


Article review

 

Rui Wang, M.S., et al., Statistics in Medicine — Reporting of Subgroup Analyses in Clinical Trials, N Engl J Med 2007; 357:2189-2194

 

일반적으로 우리가 하는 연구는 여러 가지 Baseline characteritics을 가진 군에 대해 치료 효과를 비교하는 구성을 가지고 있다. 따라서, 첫번째 목표를 달성하고 나면 (치료 효과의 분석) 우리는 Baseline characterics - 성별, 나이, 인종 등등 - 에 따라 치료 효과가 달라지는지 궁금할 수 밖에 없다.

 

 

 

Subgroup analysis의 예시

실례로 Sacks 등의 연구에서

(Sacks FM, Pfeffer MA, Moye LA, et al. The effect of pravastatin on coronary events after myocardial infarction in patients with average cholesterol levels. N Engl J Med 1996;335:1001-1009)

 

1. pravastatin 복용군과 placebo 군 사이의 coronary event 발생률 차이를 분석한 후, 효과가 있었고

2. Subgroup analysis : LDL 수치에 따라 pravastatin의 효과가 달라지는지 분석

하였다. 

 

=> 이 경우 전반적으로는 pravastatin이 효과가 있었고, subgroup 분석에서도 효과가 있었다.

 

또는 Jackson 등의 연구에서

(Jackson RD, LaCroix AZ, Gass M, et al. Calcium plus vitamin D supplementation and the risk of fractures. N Engl J Med 2006;354:669-683[Erratum, N Engl J Med 2006;354:1102.])

 

50~79세의 폐경 후 여성 36,282명을 무작위로 배정하여 매일 400IU의 비타민 D3와 함께 1000mg의 칼슘 또는 위약을 투여한 연구 결과를 보고하였는데

 

1. 두 군간 차이가 없었고

2. 이에 네 종류 골절에 대해 칼슘 추가의 효과를 15가지 baseline characteristic으로 정의된 subgroup에 대해 추가 분석하였다.

 

=> 이 경우에는 전반적으로는 투약이 효과가 없었지만, 특정 subgroup에서는 투약군이 더 좋은 효과를 보이기도 했고, 더 나쁜 효과를 보이기도 했다.

 

 

 

 

Heterogeneity in treatment effect

위의 두 연구예와 같은 차이를 "Effect modification", 효과 수정 혹은 "Heterogeneity in treatment effect"이라고 하며

통계모델에서는 이를 "Interaction term"(상호작용 항) 혹은 "Terms between the treatment group and the baseline variable" 이라고 한다.

 

쉽게 말하면 65세~75세에서 A와 B 치료가 차이가 없다고 나왔어도 (우리가 통제하지 않은 다른 변인과 치료효과의 상호작용으로 인해,) 65~70세의 동양인 남자에서는 우리의 데이터 상 A와 B의 치료 효과 차이가 있을 수 있는 것이다. 

 

이러한 효과로 인해 2가지 오류가 흔히 발생한다.

 

1. baseline 특성 각각에 대해 검정을 실행한 후 이를 baseline 특성 별 차이라고 주장하는 것

ex) 여성에서 효과가 없었고, 남성에 대해서는 검정해보니 효과가 있었다 -> 성별이 치료 효과에 영향을 준다고 결론내리기 (성별이 effect modifier라고 주장하기?)

 

2. 각 하위그룹 내에서 치료 효과가 달랐으므로  heterogeneity가 있다고 주장하는 것

 

 

결국 우리가 연구에서 초점을 맞추는 것은 A와 B 치료에 차이가 있느냐 이지,

남자와 여자 등 subgroup 간의 차이에 초점을 맞춰서는 절대로 안 된다.

 

 

 

Multiplicity

일반적으로 여러 지점의 end-point나 여러 가지의 baseline characteristic으로 추가분석을 하는 경우가 많다.

예를 들어 위의 Jackson등의 연구에서는 4가지의 골절과 15가지의 baseline characteristic에 대해 총 60개의 subgroup analysis를 시행했다. 

 

이럴 때 발생하는 것이 problems of multiplicity이며, 위양성이 있을 가능성이 매우 높아진다.

 

예를 들어 유의수준 0.05의 검정을 10번 실행했을 때 한번이라도 위양성이 나올 확률은 40%나 된다. 

 

이에 대한 해결책으로는

 

1) 더 엄격한 유의수준을 적용하는 여러 방법들을 사용하거나,

2) 위의 문제를 명시하는 방법이 있다.

 

실제로 위의 Jackson 등은 논문에서 60개의 subgroup analysis를 시행하기를 결정하고 나서

"3개까지의 통계적으로 유의미한 상호작용 검정을 기대할 수 있다."고 명시하였고, 이 해석에도 유의가 필요함을 언급한 바 있다. 

 

 

 

Prespecified analysis vs. Post hoc analysis

Prespecified analysis란, 연구계획단계에서 계획된 분석으로 end-point와 baseline characteristc, 상호작용 할 특성들을 미리 정해두는 것이다. 

 

반면 Post hoc analysis는 연구계획단계에서 계획되지 않은, 연구 결과에 따라 시행하는 분석을 이야기한다.

 

 

예를 들어 Lonn E. 등은 심혈관 질환, 당뇨 환자를 대상으로 엽산과 VitB로 homocysteine level을 낮추는 것이 vascular event의 발생을 낮춘다는 가설에 대해 연구하였는데, 

(Lonn E, Yusuf S, Arnold MJ, et al. Homocysteine lowering with folic acid and B vitamins in vascular disease. N Engl J Med 2006;354:1567-1577[Erratum, N Engl J Med 2006;355:746.])

 

방법론에서 prespecified analysis에 대해 명시하고 있다. 

 

“Prespecified subgroup analyses involving Cox models were used to evaluate outcomes in patients from regions with folate fortification of food and regions without folate fortification, according to the baseline plasma homocysteine level and the baseline serum creatinine level.” 

 

 

Prespecified analysis건 Post hoc analysis건 모두 multiplicity problem을 안고 있는 것은 매한가지이나,

post hoc analysis의 경우 그 방법이나 횟수나 primary outcome 결과에 따라 오염되었을 수 있다는 점이 중요하다. 

 

 


 

 

결론

  1. 필연적으로 여러번의 subgroup analysis는 multiplicity problem으로 인해 위양성이 있을 가능성이 매우 높고
  2. 따라서 적절한 조치를 취하고 해석에 신중을 기해야 하며
  3. 사전 계획된 대로 시행하고 많이 시행하지 않는 것이 중요하다. (Prespecified analysis)

 

 

 

나의 이해를 돕기 위한 예시

내가 가상의 악덕 제약회사 사장이라고 가정해보자. 

 

20,000명의 환자를 모아서 randomization을 통해 10,000명씩 두 군으로 나누어 한 군에는 A약을 한 군에는 위약을 투여하고 치료효과를 유의수준 0.05에서 비교하였다. 

 

1. 투약군과 위약군의 치료효과 차이가 없다고 나왔다. 

임상실험에 돈도 많이 썼는데 이때 유의수준 0.05%이므로 실제로 효과가 있는데 없다고 나올 확률이 5%나 된다. 

 

 

2. 들어간 돈이 너무 아까워서, 이리저리 머리를 굴려본다.

자, 방법이 떠올랐다.

 

1우리가 모은 데이터를 다시 합치고 남자 / 여자 군으로 나누어서

으로 비교하였더니 이게 웬걸? 여자 투약군에서는 여자 위약군보다 치료 효과가 유의미하게 컸다. 

 

3. 이제 식약처에 여자에게 약을 판매할 수 있도록 허가를 내보자!

 

 

그럴듯해 보이는 시나리오이지만, 실제로는 전혀 그렇지 않다. 

 

 

Multiplicity의 문제

바로 계획되지 않은 subgroup analysis를 했기 때문이며, 초기에 설정한 유의수준은 이를 반영하고 있지 않기 때문이다.

 

만약 저렇게 subgroup analysis를 한번만 한 것이 아니라 엄청 다양하게 했다면 어떨까?

이제 65세 미만인 환자들과 서양인에 대해 약의 효과가 입증되었으니 판매가 가능할까?

이 또한 다중비교의 문제에 해당되는 경우이다.

 

위의 경우를 보자. 1번의 전체 비교를 하고 5번의 subgroup analysis를 시행하였다. 

이때 0.05 유의수준에서 1종 오류(효과가 없는데 있다고 나오는 오류)가 발생할 확률은

검정 각각에 대해 5%이므로, 전체 검정에서 한번이라도 1종 오류가 나올 확률은 50%이다. 

 

 

이를 정확하게 하려면, 

예를 들어 연구 계획 단계에서 내가 1번의 검정 - 투약군 vs 위약군, 이후 5번의 subgroup analysis를 하기로 했다면

총 6번의 검정을 시행할 것이므로, 

 

이 6개의 귀무가설에 대해 1종 오류가 발생할 확률 

= 1 - (6개의 귀무가설이 모두 1종 오류가 없을 확률)

= 1 - (1-0.05)^6

= 1 - 0.95^6 = 0.2651종 오류가 발생할 확률이 25%가 넘어간다.

 

이를 FWER (Family-wise type I error rate)이라고 칭한다.

 

따라서 여러 교정법을 이용하여 각 검정에 대한 유의수준을 수정하는 과정이 필요하며 (adjusted significance)

가장 보수적인 Bonferroni 방법을 위의 경우에 적용시켜보면, 

 

6번에 검정에 대해 0.05/6 = 0.00833의 유의수준을 가지고 검정을 해야 한다. 

 

이 경우 전체 검정에 대한 α는 대략 0.0489 정도가 나온다.

 

 

다만, 이 경우 엄청나게 보수적인 유의수준 (0.0083)을 전체 검정에도 사용해야 한다는 단점, 즉 위음성이 너무 많아질 수 있으므로 다른 보정방법을 사용하는 경우가 많고, (multi-step 방법 - step-down 방법은 Holm's 방법, step-up 방법은 Hochberg 방법)

이러한 subgroup analysis의 경우 유의수준 보정을 어떻게 해야 하는지 다음과 같은 연구도 이뤄진 바 있다. 

 

Spiessens B, Debois M. Adjusted significance levels for subgroup analyses in clinical trials. Contemp Clin Trials. 2010 Nov;31(6):647-56. doi: 10.1016/j.cct.2010.08.011. Epub 2010 Sep 9. PMID: 20832503.

 

 

Randomization 문제

이 외에도 randomization이 되지 않은 문제가 있다. 

 

처음에 우리가 나눈 두 군(투약군 vs 위약군)은 random하게 나눠진 군이었다. 

그러나 이것이 남자 투약군과 남자 위약군과 같은 subgroup에서도 적용되지는 않는다.

 

예를 들어 남자 투약군이 위약군에 비해 유의미하게 효과가 좋았는데,

이것이 투약 vs 위약 때문인지

아니면 다른 원인들 - 예를 들면 안좋은 예후인자가 많은 남자들이 남자+위약군에 많았다던지 - 때문인지 확신할 수 없는 문제가 생긴다.

 

 

마치며

이렇게 간단히 subgroup analysis에서 빠질 수 있는 오류들에 대해 알아보았고, 왜 subgroup analysis를 맹신하면 안되는지 확인하였다.

댓글()