평가지표 |
· 1차 평가지표 : 요통으로 인한 불편함을 10cm 시각적 상사 척도 (VAS)를 이용하여 평가, primary end point는 침 치료 종료 2주 후인 8주차임.
· 2차 평가지표 : 요통으로 인한 통증 강도에 대한 VAS, Oswestry Disability Index (기능성 장애 평가), Short Form-36 (건강 관련 삶의 질 평가), Beck Depression Inventory (우울 정도 평가), 신뢰성 평가 (침 치료)를 사용하고 대부분의 평가지표는 한국어 version이 사용되었음.
· 평가 시점 : 각 지표에 따라 차이를 보이나, baseline (0주), 치료 종료 (6주), 치료 종료 후 2주 (8주), 12주, 24주에 측정함. (평가지표별 자세한 측정시점은 논문 참조) |
KMCRIC 비평 |
요통은 흔한 만큼 중요한 국가적 보건 문제이나, 수많은 환자가 기존 주류의학의 치료에 만족하지 못하여 침 치료를 비롯한 보완대체의학을 찾고 있다 [1,2]. 이에 따라 요통의 침 치료 효과에 대한 많은 임상시험과 그에 따른 체계적 문헌고찰, 메타 분석이 이루어졌고 이러한 자료들은 요통 환자에게 침 치료를 적용시키는 것을 지지하고 있다 [3,4]. 그러나 거짓침과 비교한 침 치료 효과에 대해서는 효과가 있다고 보고된 연구도 있지만 [3,5], 기존 치료보다는 효과가 우월하나 거짓침에 비해서는 우위를 가지지 못함이 증명된 연구도 있다 [6,7]. 따라서 침 치료와 거짓침의 효과 차이에 대해서는 아직도 결론이 명확하지 않은 상태이며, 거짓침이 기존 치료에 비해 효과가 우월하다 해도 그 기전에 대해서는 여러 가설만 존재하는 상황이다. 이에 본 논문은 3개월 이상 된 만성 비특이성 요통 환자를 대상으로 1) 침 치료가 거짓침에 비해 요통으로 인한 불편함을 감소시키는 데 더 우월한 효과가 있는지를 주 목적으로 하여 2) 통증 강도, 요통으로 인한 기능 장애, 건강 관련 삶의 질, 우울 척도에는 어떠한 효과가 있는지, 3) 부가적으로 거짓침의 효과가 정신적인 작용과 어떠한 관련이 있는지를 검정하고자 하였다.
본 논문은 침 연구의 방법론적 측면에서 여러 강점과 약점을 보이는데, 이를 대략적으로라도 파악하기 위해서는 2010년에 출판된 본 논문의 프로토콜 논문 [8]과 이 논문의 프로토콜을 작성하는 데 가장 영향이 컸을 것으로 사료되는 Cherkin 등 [7]의 연구를 참고할 필요가 있다. 우선, 이 논문은 사전등록 시행, 무작위배정의 과정, 침 치료 특성상 대조군을 설정하기에 난점이 있는데 [9] 작용을 최소화한 비침습적 거짓침을 이용하여 시험대상자 맹검을 유지한 점, STRICTA 보고안에 따른 처치군/대조군의 서술, 비교적 양호한 중도 탈락률 (6개월간 약 11%), 임상 환경을 반영하여 1주 2회, 총 6주간의 침 치료, 변증/득기 등 침 치료에 있어 중요한 한의학적 개념을 임상시험에 반영한 점, 6개월간 follow-up을 시행한 점 등 질적으로 높은 연구를 수행하고자 한 점이 강점이다. 또한 기존의 국외 논문보다는 표본수가 적기는 하나, 이전 연구 결과 [7]를 토대로 두 군 간의 통계적으로 유의한 차이를 검정할 수 있는 표본수를 산출하여 비교적 대규모로 진행하였다는 점도 국내 연구 여건상 특기할만한 점으로 사료된다.
결과적으로 Primary end point인 8주 (6주간 침 치료가 끝나고 2주 경과 후)에서 실제 침 치료군, 거짓침군 모두 요통으로 인한 불편함 VAS, 통증 강도 VAS 모두 감소하였으며, 두 군 간에도 통계적으로 유의한 차이를 보였다 (각각 p value=0.024, 0.008). 그리고 평가지표를 여러번 측정하는 반복 측정 분산 분석 (Repeated Measure ANOVA)을 시행하였으며, 시간에 따라서도 두 군 간의 유의한 차이를 보였다 (불편함 VAS, 통증 강도 VAS 각각 p value = 0.011, 0.005). 또한 다른 2차 평가지표였던 ODI, SF-36, BDI 등도 두 군 모두에서 개선되었으나 (p<0.01로 제시되어 있음.) 통계적으로 군 간의 유의한 차이는 없었으며 이상반응 평가를 통해 침 치료가 비교적 안전한 치료임을 밝혔다. 이에 따라 본 논문에서는 개별화된 침 치료와 거짓침 모두 만성 요통으로 인한 불편함이나 통증 강도를 감소시켰으나, 실제 침 치료가 거짓침에 비해 더욱 유의한 호전 효과를 보였다고 결론 내리고 있다.
그러나 이 논문은 강점 못지 않게 여러 방법론적 한계를 드러내고 있다. 첫째, 프로토콜 논문과의 불일치이다. 프로토콜 논문에서 'medication use'를 분석한다고 하였으나 본 논문에서는 분석하지 않았으며 아마도 분석하고자 했던 'analgesics'와 같은 약들은 병용 금기로 제시되어 있다. 평가지표를 평가하는 시점도 프로토콜 논문과 본 논문 사이에 차이를 보인다 (4주차 평가). Table 3의 경우는 프로토콜 논문이나 본 논문에서 언급하지 않았던 통계를 사용하여 결론을 얻은 부분이다. 또한 프로토콜 논문에는 ED-5Q도 조사한다 하였으나 본 논문상에는 언급되지 않았다. 하지만 ED-5Q는 경제성 평가의 기초자료로 쓰일 가능성이 농후한 자료로 (잘 설계된 RCT를 통해 경제성 평가의 기초자료를 조사하는 것은 권고되는 바이다 [10]), 본 논문의 본질과는 맞지 않으므로 큰 문제가 될 것으로 사료되지는 않는다.
둘째, 모집된 시험대상자의 적절성이다. 선정 기준에서 요통으로 불편함 10cm VAS에서 5 이상을 만족해야 하는데, VAS에 관한 많은 연구들에서 VAS 4.5~5.0 이상은 moderate to severe한 증상으로 분류된다. 요통으로 인한 불편함은 여러 가지 요인이 있겠지만 실제로 통증과 가장 관련이 깊을 것으로 추측할 수 있고, 불편함 VAS 5 이상이면 다수의 시험대상자가 진통제를 복용하고 있었을 것으로 사료된다. Cherkin 등 [7]의 논문에서는 불편함 VAS 3 이상을 모집대상으로 했음에도 불구하고 약 60~65%의 시험대상자가 약을 복용하고 있었으며 본 논문의 VAS 5 이상을 대상으로 한 시험대상자는 올바른 VAS 평가를 했다면 그 이상의 비율로 진통제를 복용하고 있었을 가능성이 높다. 이 문제는 여러 가지 문제와 결부되는데, 1) moderate to severe한 증상의 시험대상자를 대상으로 한 임상시험 중 구제약을 제공하거나 기존 치료 허용, active control 등의 방법을 사용하지 않고, analgesics를 병용 금기약으로 했다는 것은 벨몬트 리포트의 '선행의 원칙'에 위배되는 윤리적인 문제를 포함하고 있고 2) 60% 이상의 시험대상자가 진통제를 복용했을 가능성이 높은 상황에서 스크리닝 후 체외 배출시간을 본 논문이나 프로토콜 논문에서 전혀 제시하고 있지 않으며 3) 다수가 진통제를 복용하고 있지 않았다고 주장한다면 baseline에서 VAS 평가가 적절하게 수행되었는지가 문제될 수 있다. (baseline의 VAS는 오히려 Cherkin 등 [7]의 논문이 더 낮다.) 이 중 만약 진통제의 체외 배출시간 즉, wash-out period를 설정하지 않고 baseline을 조사하였다면 이 논문의 결과는 전혀 신뢰할 수 없게 되는데, 일단 본 논문에서 설정 여부를 밝히고 있지는 않다.
셋째, 올바른 동의서 획득 절차 및 스크리닝 절차를 거쳤는지에 대한 문제이다. ICH E6 guideline [11]이나 국내 의약품 임상시험 관리기준 (KGCP)에 따르면 연구자는 임상시험이 시작되기 전에 시험 대상자로부터 동의서를 획득하여야 한다. 본 논문에서는 모집광고를 보고 연락이 온 142명 중 130명이 적합하여 동의서를 받은 후 무작위배정을 시행한 것으로 보인다. 정확하게 어떤 식으로 스크리닝을 진행하였는지 파악할 수는 없으나 본 논문과 프로토콜 논문의 내용상으로는 스크리닝을 어느 정도 진행한 후 동의서를 받았을 가능성이 존재하며, 실제 상기와 같이 진행하였다면 상기 권고들을 위배한 것이 된다. 이런 윤리적인 부분과 결부되어 있는 부분은 Cherkin 등의 프로토콜 논문 [12]와 같이 사전 스크리닝 후 동의서를 취득하고 본 스크리닝을 진행하였음을 상세히 서술할 필요성이 있는데 아쉬운 부분이라 할 수 있겠다. 또한 연락 온 142명의 잠재적 시험대상자 중 130명 (92%)이 무작위배정 되었는데, 같은 만성 비특이성 요통 환자를 대상으로 한 Cherkin 등 [7]의 논문에서 2,605명 중 641명 (25%)이 적합성 평가에서 만족한 것과는 큰 차이 (92% vs 25%)를 보인다. 만성 비특이성 요통을 진단하기 위해선 골절, 염증성 질환, 종양 등을 배제해야 함은 물론, 디스크 질환이나 척추관 협착증과 같이 상견되는 질환 또한 배제하여야 한다. 그럼에도 불구하고 연락 온 142명 중 130명이 비특이성 요통이었다는 점은 1) selection bias가 작용하였거나 2) 비특이성 요통 환자를 배제하는 스크리닝 과정이 문제가 있었을 가능성이 다소 높았을 것이라 사료된다.
넷째, 주 분석을 제외하고도 Table 3과 같이 통계적 분석을 다수 하였으나 제1종 오류 상승을 제어하기 위한 방법을 사용하지 않았다. 다중검정의 문제인데 결과론적 이야기이지만 도출된 p-value를 봤을 때 보수적 통계기법인 Bonferroni correction과 같은 방법을 사용하면 어땠을까 하는 생각이 든다. PP 분석도 마찬가지로 임상 환경을 최대한 반영한 임상시험 디자인을 추구했으니 더 보수적인 방법인 ITT 분석을 사용했으면 좋지 않았을까 하는 생각이 든다. (프로토콜 논문에는 ITT 분석과 PP 분석을 모두 한다 하였으나 무엇을 주 분석으로 할지 서술하진 않았고, 본 논문은 구체적 언급 없이 PP 분석을 사용하였다.) 그 외에도 평가자 맹검의 방법에 대한 구체적 언급이 기재되어 있지 않고, 이상반응 평가 같은 경우 중재가 끝난 6주까지만 진행한 점 (더 이상 추적관찰했다는 내용이 없다.) 거짓침의 경우 경혈 및 자침 개수가 정해져 있으나 실제 침 치료의 경우 제한이 사실상 없었다는 점, 기타 논문 원문의 오타로 인한 오류 등이 본 논문의 한계이다.
이러한 한계점들로 본 논문의 결론에 대한 평가는 보류하는 것이 적절할 것으로 사료된다. |