<RCT> #2. 비열등성 연구, 실패한 결과

Career/의학 통계|2022. 12. 30. 15:38

마찬가지로 김지형 선생님의 위의 저서를 바탕으로 하며, 

책의 내용이 무지 좋기 때문에 꼭 읽어보기를 권하고 싶다. 

 

자세한 RCT에서의 단계별 지침은 넘어가고 책을 보며 헷갈렸던 내용인 <비열등성 연구>와 

실제적으로 field에서 중요한 <Primary outcome이 유의하지 않은 경우>에 대해 정리해보려고 한다.

 

 

 

비열등성 연구

일반적인 인식에서 RCT는 두 군에 다른 intervention을 가하여 한 치료법이 다른 치료법보다 결과의 평균에 유의미한 차이가 있다, 즉 우월함을 보이려는 의도를 가지고 있다. 

 

즉 통계검정에서 "p < 0.05라면 두 군의 결과변수에 유의미한 차이가 있는 것"이다. 

그렇다면 "p > 0.05라면 두 군의 결과변수에 유의미한 차이가 없는 것"은 참일까?

 

이는 흔한 오해 중 하나로, 실제로는 "p > 0.05라면 단지 두 군의 결과변수에 차이를 보이지 못한 것"일뿐이다.

심증은 있으나, 물증은 없다.

샘플을 엄청나게 크게 늘리면 p value는 낮아지므로, 두 군의 작은 차이까지도 감별하여 두 군에 차이가 있다고 말할 수 있게 되는 것이다. -> 다만 이 "작은 통계적 차이의 유의성"이 실제로 "임상적으로 유의한 지"는 또 다른 이야기이다. 

 

물증을 득하려면 새로운 가설이 필요하며 이러한 연구를 비열등성(열등하지 않다), 동등성(차이가 없다) 연구라고 한다.

 

 

비열등성 한계

위에서 살펴본 것처럼 두 치료 방법의 결과가 완전히 같을 수 없기 때문에 동등성을 보일 때에도 임상적 판단이 필요하며,

비열등성을 보이고 싶어도 어디까지가 비열등성의 기준이 되는지에 대한 임상적 판단이 필요하다.

 

이러한 개념을 비열등성 한계(Non-inferiority limit / margin)이라고 한다.

 

다음 그림을 살펴보자

The Non-Inferiority Complex: What Do Non-Inferiority Trials Tell Us? Magdalene M. Assimon,&nbsp;Gary R. Cutter&nbsp;and&nbsp;Joanne M. Bargman JASN&nbsp;April 2022,&nbsp;33&nbsp;(4)&nbsp;674-676

 

기준선이 있고 이는 기존 치료의 결과 평균, 혹은 오즈비라면 1이 될 것이다. 오른쪽으로 갈수록 치료 결과 변수가 임상적으로 좋다고 가정하자.

 

기준선만 생각해볼 때 결과변수의 평균과 95% 신뢰구간 전체가

기준선보다 오른쪽에 있으면 -> "새로운 치료법이 더 우수하다"

기준선보다 왼쪽에 있으면 -> "우수하지는 않다" 

기준선에 걸쳐 있으면 (p > 0.05) ->  "결론 내릴 수 없다"

 

같은 방법으로, 임상적으로 정한 비열등성 한계에 적용해 보면,

비열등성 한계보다 오른쪽에 있으면 -> "열등하지는 않다"

왼쪽에 있으면 -> "열등하다"

걸쳐 있으면 (p > 0.05) -> "결론 내릴 수 없다"

 

따라서 위의 5가지 경우는 다음과 같이 해석할 수 있다. 헷갈리니 자주 찾아보자.

 

A : p<0.05로 우수한데, 비열등성 검정에서도 비열등하다. 즉 우수하다.

B : p>0.05로 우수하다고 말할 수 없는데, 비열등성 검정에서는 열등하지는 않았다. 즉 비열등하다.

D : 결론을 내릴 수가 없다.

E : 열등하다.

 

가장 헷갈리는 것은 C이다.

통계적으로는 열등한 것처럼 나왔으나, 임상적으로 정한 비열등성 한계보다는 위에 있으니 임상적으로는 의미가 없다는 뜻이 된다. 즉,

C : 열등하지 않다.

 

 

비열등성 한계의 설정

그렇다면 이런 비열등성 한계는 어떻게 정할까?

비열등성 한계가 너무 낮다면 효과가 적은 약도 거르지 못할 것이고, 

너무 높다면 비열등성 검정 자체의 의미가 없어지게 된다.

 

따라서 많이 연구되는 분야에는 이미 컨센서스가 형성된 이러한 비열등성 한계의 기준들이 존재하며

 

만약 없는 경우, 통상적으로

1) 임상가의 판단 -> 예를 들어 몸무게의 경우 5kg로 잡는다. 과학적인 근거는 없으나 상식을 기반으로 대충 잡은 값이다.

2) 대조군의 95%

3) 대조군과 음성대조군 간격을 고려하여 잡는 경우

 

등이 있다.

 

 

 

실패한 Primary outcome

책에서 소개해주신 다음 article을 보자. 

 

https://www.nejm.org/doi/full/10.1056/nejmra1510064

 

The Primary Outcome Fails — What Next? | NEJM

Review Article from The New England Journal of Medicine — The Primary Outcome Fails — What Next?

www.nejm.org

 

 

위와 같은 질문에 대한 답 형태로 진행되는 NEJM article이다.

 

추후 outcome이 만족스럽지 못할 때 찾아보기로 하자.

댓글()