Reverse Shoulder Arthroplasty Is Superior to Plate Fixation at 2 Years for Displaced Proximal Humeral Fractures in the Elderly
의학 연구와 관련된 통계의 기초적인 부분들에 대해 공부하고 나서, paper를 통계적인 측면에 집중하여 읽어보는 시간을 가져보고 싶었다.
무지성으로 최근 5년 내 JBJS paper 중 내가 관심 있는 분야의 RCT를 하나 가지고 왔다.
RTSA에 대한 RCT이다.
study의 개요는, elderly에서 AO B, C type displaced proximal humerus Fx. 의 치료에 옵션으로 많이 사용되는 angle stable plate vs. RTSA를 비교하는 것으로, 저자들은 RTSA가 superior 할 것으로 가정하였다.
Flow chart는 아래와 같다.
Materials and Methods
이제 통계적 관점으로 paper을 읽어야 하므로, 전보다 이 부분을 더 세심하게 읽어야 할 필요가 있겠다.
연구 디자인 : multicenter(7), single-blinded, RCT
연구 대상 : 2013년 1월 1일 ~ 2017년 6월 1일, B2, C2 Fx.로 내원한 65-85세 환자
배제 기준 : 반대쪽 shoulder injury, 동측/반대측 상지 injury, 알코올/물질 장애, 치매, 신경과적 질환, glenoid Fx. / deformity
head split Fx., Fx. D/L, high energy trauma
Preop evaluation
x-ray, CT
oral & hand written information
Randomization & Blinding
web solution인 NTNU WebCRF로 시행되었음
Blinding : single blinded로, 환자와 의사는 알고 있었으나 점수를 기입하는 물리치료사는 blind
-> 이게 엄밀한 의미에서의 single blinded가 맞는가?!
★추후 알아볼 것 : double, single blinded 정의, 방법론★
Interventions
Bench chair position, deltopectoral approach
RTSA : Delta Xtend (DePuy) or Promos (Smith & Nephew)
ORIF : PHILOS(DePuy)
수술 후
standard rehab program
3개월, 6개월, 1년, 2년 -> functional test, patient-related outcome, radiographic exam
Primary outcome : Constant score at 2 years
Fx. type과 age로 subgroup analysis
Secondary outcome : Oxford Shoulder Score
Radiologic evaluation
AP, Y view로 시행하였으며
Preop CT의 classification에 대한 kappa : 0.67
** 예전 같으면 그냥 지나갔을 부분..
kappa 0.67이므로 substantial한 결과라고 받아들이면 되겠다.
stastistical analysis
가장 중요한 부분이 되겠다.
1) sample size estimation
sample size는 primary outcome인 Constant score를 통해 계산되었는데
minimal clinically important difference (MCID)가 10점으로 설정되었다는 언급과
비슷한 populaton에서의 injured shoulder 쪽의 Constant score 평균 및 표준편차(18점)를 이용하여 계산하였다고 하며
α = 0.05, β = 0.8로 설정하여 최소 요구 sample의 수가 52로 확인하였다.
sample size estimation에서 중요한 두 가지 조건은,
- Primary outcome을 확정하라
- Pilot study나 선행연구가 있어야 한다.
이다.
해당 paper에서 선행연구로는 두 가지를 제시하였는데
- Fjalestad T, Hole MO, Hovden IA, Bl¨ucher J, Strømsøe K. Surgical treatment with an angular stable plate for complex displaced proximal humeral fractures in elderly patients: a randomized controlled trial. J Orthop Trauma. 2012 Feb;26(2):98-106.
- Fjalestad T, Hole MO, Bl¨ucher J, Hovden IA, Stiris MG, Strømsøe K. Rotator cuff tears in proximal humeral fractures: an MRI cohort study in 76 patients. Arch Orthop Trauma Surg. 2010 May;130(5):575-81. Epub 2009 Aug 14.
이렇게 두 가지 연구를 제시하였다.
샘플 수의 계산 및 MCID에 대해서는 아직 공부된 바가 없어, 다음 공부 주제로 선정하여 알아보도록 해야겠다.
2) statistical analysis
각 그룹의 outcome은 독립 t-test를 사용하였고
subgroup analysis는 "linear mixed model analyses for repeated measurements using a random intercept"를 사용하였으며, Fx. type (B2 vs. C2), Age (65~74 vs. 75~85) 두 가지로 나누어 시행하였다.
검정법이 올바르게 설정되었는지 살펴보자.
Primary outcome은 0-100점으로 이뤄진 Constant score이다.
연속변수라고 할 수 있으므로, independent t-test가 올바른 검정법이라고 생각할 수 있다.
Secondary outcome은 마찬가지로 연속변수인 Oxford shoulder score이기 때문에 동일한 검정법을 적용할 수 있다.
3, 6, 12, 24개월 f/u 하며 이러한 변수들을 측정하긴 하였으나, 걸린 시간(기간)과 outcome variable의 관계를 분석할 필요는 없으므로 생존분석과는 거리가 멀다고 볼 수 있겠다.
subgroup analysis 같은 경우는 처음 보는 단어이긴 하나 무언가 선형모델을 사용하였다고 생각할 수 있겠다.
3) crossover patient
Intention-to-treat principle을 적용하였다.
ITT 같은 경우는 전에 블로그에서 다룬 적이 있다.
#2. Intention-to-treat, ANCOVA
지난 글에 이어서.. 결과는 intention-to-treat basis로 분석된다? main outcome은 baseline value에 대한 analysis of covariance controlling으로 분석한다? 연속 변수들의 분석은 Shapiro-Wilk test of normality? 범주형 변수들
nogrowth.tistory.com
쉽게 말해 기존 randomization에서 A군으로 결정된 환자가 B군으로 넘어갈 때
이러한 crossover patient를 다루는 원칙에 대한 방법론인데,
이때 ITT basis로 처리한다는 것의 의미는
pure A와 pure B를 비교하는 것이 불가능해졌으므로,
A' : A로 치료하나 불가능할 경우 B로 치료
B : B로 치료
와 같이 새로운 군으로 처리하는 방법을 뜻한다.
결국 crossover pt도 기존 군에 포함하여 분석한다는 의미이다.
Result
이제 연구의 결과를 살펴보자.
Baseline characteristics
RCT이며, 우리가 관심이 있는 main independent variable은 intervention method이다.
따라서 이외 다른 변수들이 두 군 사이에 통계적으로 차이가 없음을 보이는 것이 중요하며, 보통 baseline characteristic table에서 이를 밝힌다.
본 연구에서는 다음과 같이 Baseline characteristic을 정리해 두었다.
전 같으면 음 그렇구나~ 하고 넘어갔을 터인데, 이제는 너무나 당연하게도 여기서 첫 번째 의문점이 든다.
Baseline characteristic에서 여러 변수들이 두 군 사이에 통계적으로 차이가 없다는 것을 보여줄 p-value들이 전혀 없어서, 본문에서 이를 뒷받침하는 의견을 찾아보았으나,
그냥 well balanced 된 것으로 "보인다"고 애매하게 언급하고 넘어가는 문제가 있어 보인다.
실제로 두 군 사이의 여러 characteristics에 유의미한 차이가 없는지 직접 확인해보자.
다 해 볼 필요는 없고, 변수 종류별로 세가지 정도만 해보자.
성별(이분변수)
이분변수이므로 두 군간 차이를 볼 때 카이제곱 검정 또는 Fisher's exact test를 시행해야 한다.
R로 테이블을 만들어서 시행해보자.
male <- c(5, 8)
female <- c(59, 52)
sex <- data.frame(male, female, row.names = c("RTSA", "ORIF"))
chisq.test(sex)
p-value 0.478로 귀무가설을 채택하여 두 군간 차이가 없음을 확인하였다.
나이
연속변수의 비교는 데이터가 없어 시행할 수 없으므로, 65-74 vs. 75-85 비율에 차이가 없는지 검정해보자.
마찬가지로 군간 연령대 비율에는 차이가 없다.
type of injury (4개의 명목변수)
2 × 4 table임에도 chisq.test() 함수가 작동은 하나, 경고 메시지가 뜸을 알 수 있다.
이를 웹사이트에서 실행해보면,
결론적으로, 기대 빈도가 5 이하인 cell이 많아 Fisher's test를 시행해야 하는데,
N > 120이라 Fisher 또한 사용할 수 없는 상황이다.
따라서 R에서 시행해보면,
이렇게 injury type 간 두 군에 유의미한 차이가 없음을 알 수 있다.
어쨌든 여기까지 저자가 baseline characteristic에서 빼놓은 검정을 맛보았다.
Primary & Secondary outcome
각각 Constant score와 Oxford Shoulder score을 시점별로 분석하였다.
전반적인 비교는 다음과 같다.
전반적인 기간에서 RTSA 군이 score가 더 높음을 알 수 있고,
특히 2년째의 constant score, OSS는 신뢰구간 포함하여도 RTSA에서 우월하였다.
p-value도 당연히 제시하였다.
Subgroup analysis
결과는 다음과 같다.
subgroup analysis는 fracture type과 age group으로 시행하였다.
결론은 뭐 따로 얘기할 것 없이 위의 figure에 잘 나와있다.
그냥 군 나눠서 하면 되는 거 아닌가 싶은데
방법론에서는 "linear mixed model analyses for repeated measurements using a random intercept"라는 방법을 사용했다고 명시했는데 이게 뭔지 잘 모르겠어서 searching 하다 보니 추가적인 궁금증들이 생겼다.
- subgroup analysis의 방법과 흔한 오류들
- stratified analysis vs. subgroup analysis vs. multiple comparison 어떻게 다른가?
- linear mixed model analysis for repeated measurement using a random intercept (무작위 절편을 이용한 반복 측정에서의 혼합 선형 모델 분석)는 어떤 방법인가? mixed, fixed의 의미는 무엇인가?
Discussion
위 연구의 결론은 다음과 같다.
65 ~ 85세의 고령 환자의 B2, C2 proximal humerus Fx.의 management에서 ORIF vs. RTSA를 비교하였을 때,
Primary outcome
2-year f/u Constant score -> RSTA(68) > ORIF(55), 평균적으로 13점 높았으며 이는 MCID(10점) 보다 높다.
기존 연구들
1. Sebastia-Forcada et al. 의 연구에서
Sebasti´a-Forcada E, Cebri´an-G´omez R, Lizaur-Utrilla A, Gil-Guill´en V. Reverse shoulder arthroplasty versus hemiarthroplasty for acute proximal humeral fractures. A blinded, randomized, controlled, prospective study. J Shoulder Elbow Surg. 2014 Oct;23(10):1419-26. Epub 2014 Jul 30.
3- or 4-Part Fx. 에서 RTSA vs. Hemiarthroplasty를 비교했을 때
비교
RTSA의 Constant score가 56점밖에 안됐었으나 -> 이를 저자들은 postop. training regimen의 차이로 기인한 것으로 본다.
RTSA가 rotation ROM 제외하고는 hemiarthroplasty보다 우월했다.
2. Olerud et al. 의 연구
Olerud P, Ahrengart L, Ponzer S, Saving J, Tidermark J. Internal fixation versus nonoperative treatment of displaced 3-part proximal humeral fractures in elderly patients: a randomized controlled trial. J Shoulder Elbow Surg. 2011 Jul;20(5): 747-55. Epub 2011 Mar 24.
3-Part Fx. 에서 locking plate ORIF vs. conservative -> 2년 constant score 유의미한 차이 없다.
Olerud P, Ahrengart L, Ponzer S, Saving J, Tidermark J. Hemiarthroplasty versus nonoperative treatment of displaced 4-part proximal humeral fractures in elderly patients: a randomized controlled trial. J Shoulder Elbow Surg. 2011 Oct;20(7): 1025-33. Epub 2011 Jul 23.
4-Parf Fx.에서 hemiarthroplasty vs. conservative -> constant score 차이 없다.
비교
Olerud의 두 가지 연구는 수술군, 비수술군에서 이 연구보다 functional score가 낮았으며, 본 연구의 ORIF 군과는 비슷했으나 RTSA 군보다는 훨씬 낮았다.
3. Cuff and Pupello의 연구
후향적으로 RTSA와 hemi를 비교 -> RTSA에서 더 높은 점수를 보였고, 두 군 모두 rotation을 제외하고는 ROM이 괜찮았다.
비교
adverse event 8% 및 revision case 0이었으나, 본 연구에서는 11%와 6%의 revision event 있었다.
4. 코크란 report 및 PROFHER trial
Handoll HH, Brorson S. Interventions for treating proximal humeral fractures in adults. Cochrane Database Syst Rev. 2015 Nov 11;11:CD000434.
2015년에 노인의 proximal humerus Fx. 에 대해 conservative management의 moderate to high evidence를 보고했다.
이 근거가 된 연구는 PROFHER trial (Proximal Fracture of the Humerus Evaluation by Randomization)였고,
Rangan A, Handoll H, Brealey S, Jefferson L, Keding A, Martin BC, Goodchild L, Chuang LH, Hewitt C, Torgerson D; PROFHER Trial Collaborators. Surgical vs nonsurgical treatment of adults with displaced fractures of the proximal humerus: the PROFHER randomized clinical trial. JAMA. 2015 Mar 10;313(10):1037-47.
이 trial에서 수술적 치료와 비수술적 치료에서 차이가 없다고 보고하였기 때문이다.
비교
PROFHER trial은 pragmatic design을 함으로써 수술적 치료로 이익을 얻을 것으로 생각되는 환자를 배제하였다.
젊은 환자와 노인환자를 모두 포함하였으며
수술적 방법들에 대해 구분하지는 않았다.
또한 C type Fx. 은 9례밖에 없었고, RTSA가 시행된 예는 없었다.
한계점 극복
1. multicenter study로서의 한계점
multicenter study였기 때문에 conformity를 유지하고 diverse practice를 방지하기 위하여
educational meetings, 물리치료사 workshops 진행했고 물리치료사들은 blind 되었다.
DelPhi homepage에 접속하여 언제든 protocol을 볼 수 있도록 하였다.
2. f/u 기간의 문제
2년 f/u은 ORIF에 대해서는 충분할지 몰라도 arthroplasty에 대해서는 짧기 때문에 5년 f/u도 계획하고 있다.
3. subgroup analysis의 문제
subgroup analysis의 경우 충분히 검정력이 없기 때문에 계층화 분석을 받아들이는 데에는 주의가 필요하다.
연구의 강점
allocation bias를 방지하기 위해 web-based randomization system을 구축하였다.
또 trial에 포함되지 않은 eligible patients 들을 external validity analysis에 등록했다는 언급이 있는데 무슨 뜻인지 모르겠다.
마치며.. 더 알아볼 것들
통계를 모르고 논문을 읽었다는 것이 너무나 부끄럽게 느껴졌다.
간단한 RCT 한 편 읽었을 뿐인데 더 공부해보고 싶은 것들이 생겼고, 이는 다음과 같다.
- subgroup analysis의 방법과 흔한 오류들
- stratified analysis vs. subgroup analysis vs. multiple comparison 어떻게 다른가?
- blinded study(맹검법)의 분류와 정의, 방법
- linear mixed model analysis for repeated measurement using a random intercept (무작위 절편을 이용한 반복 측정에서의 혼합 선형 모델 분석)는 어떤 방법인가? mixed, fixed의 의미는 무엇인가?
- 샘플 수의 계산 (Power anaylsis)
- MCID (Minimal clinically important difference)
- Pragmatic study란?
- External validity analysis란?
이런 점들의 궁금증을 풀기 위해 김지형 저자님의 다른 책들도 읽어 볼 예정이며
일부는 검색을 통해 해결해보도록 하자.
느낀 점
매우 잘 읽히는 논문이었다. 특히 왜 저자들이 이런 식으로 연구를 디자인했는지 알 수 있는 점들이 discussion에서 다른 연구들과의 비교를 하는 부분에서 잘 느껴지는 것이 인상적이었다.
'Career > Paper' 카테고리의 다른 글