연구 설계, 수행 및 분석에서 가치를 높이고 쓸모없는 연구 줄이기

Science 04-01.jpg



아래는 Lancet (2014 impact factor 45.217)에 실린 5편의 논문으로 구성된 ‘연구의 가치는 높이고 쓸모없는 연구는 줄이기 (increasing value, reducing waste)’ 시리즈 가운데 두 번째 Research입니다. KMCRIC에서는 회원들과 좋은 정보를 나누고자 Elsevier사의 승인을 받아 경희대학교한방병원 한의약임상시험센터 신승원 선생님과 원광대학교 한의과대학 임주하 학생의 도움으로 번역한 글입니다.
기초 실험과 임상 연구들을 포함한 다양한 생의학 연구들 (biomedical research) 중에는 연구를 위한 연구, 아무도 인용하지 않는 연구, 후속 연구들에 별 도움이 되지 않고 사라지는 연구들과 같이 쓸모없는 연구 (research waste)가 너무 많습니다. 이와 관련하여 스탠포드 의대의 John Ioannidis 교수 등은 이 글에서 연구 설계, 방법 및 분석을 향상시켜 research waste를 줄이기 위한 건설적 제안을 하고 있습니다.
이 글이 KMCRIC 회원분들의 연구 가치 (research value)를 높이는 데에 도움이 되길 바랍니다.
원문 링크: http://www.ncbi.nlm.nih.gov/pubmed/24411645



1. 초록 Abstract


생의학 (Biomedical) 및 공중보건연구의 설계, 수행 및 분석에서 정정 가능한 약점들이 발생하는 경우 잘못된 결과를 낳고 귀중한 자원을 낭비할 수 있다. 효과 크기가 미미하면 연구 설계 및 분석에서 오는 비뚤림 (bias)과 구별하기 어려운 경우가 있다. 연구계획서 (Protocol)를 구체적으로 작성하지 않거나, 연구의 문서화 작업을 불량하게 하는 경우도 흔하다. 연구 결과로 얻은 정보가 쓸모 없거나 중요하지 않을 수도 있고, 통계적 정밀도 (precision)나 검정력 (power)이 지나치게 낮을 수도 있으며, 또 그것이 잘못 이용되는 수도 있다. 기존 연구나 혹은 현재 진행 중인 연구를 충분히 고려하지 않는 경우도 있을 수 있다. 더구나 결과 분석 방법을 임의로 선택하거나 우연히 얻어진 극단적 결과값을 지나치게 강조하면 연구 결과 보고에 영향을 미칠 수 있다. 연구인력과 관련하여 몇 가지 문제도 발생할 수 있는데, 예를 들어, 경험이 풍부한 통계학자나 방법론 전문가가 연구팀에서 빠져 있거나, 연구 설계 및 방법에 관해 임상 연구자 및 실험 과학자들에게 교육을 실시하지 않는다거나, 이해상충 관계 (conflicts of interest)에 있는 당사자가 (연구팀에) 포함되는 문제 등이 이에 해당된다. 연구에서의 의사결정에 관한 기록 또는 연구의 재현가능성 (reproducibility)이 부적절하게 강조될 수도 있다. 마지막으로 (현재의) 보상체계에서는 연구의 질보다는 양, 신뢰성 (reliability)보다는 참신함 (novelty)을 우대한다. 이에 우리는 상술한 문제들에 관한 잠재적 해결책으로, 연구계획서와 문서화 작업을 향상시키고, 현재 진행 중인 연구들에서 나오는 근거들을 참작하고, 연구에 대한 노력을 표준화하며, 경험이 풍부하면서 이해상충 관계가 얽히지 않은 과학 인력을 최적화하고 훈련시켜야 하며, 과학적 보상체계를 재고 (reconsideration)할 것을 제시하는 바이다.


2. 서론 Introduction


생의학 및 공중보건연구에 있어 연구 설계, 수행 및 분석은 상호의존적으로 연결되어 있다. 어떤 전문 분야들에서는 연구의 설계, 수행, 분석을 최적화하기 위해 보다 효율적인 방법을 적용하며, 이를 통해 다른 전문 분야에는 성공적 접근 방식을 학습하고 동시에 흔히 발생하는 실수를 피할 기회를 제공한다. 유전체 (Genome), 유전자 산물 (gene products), 생물학적 지표 (biomarkers) 및 이들 사이의 상호작용과 관련된 새로운 생물학적 측정법이 신속하게 도입되면서 새롭고 복잡한 분석 방법들이 많이 사용되게 되었는데, 이런 방법들은 많은 연구자들조차 완벽하게 이해하기 어려울 뿐만 아니라 자체적으로 취약성을 보유하고 있을 수 있다. 더불어 생의학 및 공중보건연구는 경제학, 오퍼레이션 리서치 (operational research)*, 행동과학, 정보학 등 타 분야 과학자들과 협력하고 방법을 이용하는 다학제적 접근이 증가하고 있는데 [1], 그 결과 연구 설계, 수행 및 분석을 보다 세심하게 진행해야 할 필요성이 강조되고 있다.

이러한 문제들은 연구 방법에 관하여 적절하게 교육받지 못하여, 통계적 방법을 잘못 적용하여 발생하는 경우가 흔하다. 예를 들어, 2001년 발표된 논문들 가운데 네이처지 (Nature)의 38%, 영국의학저널 (British Medical Journal)의 25%에 달하는 연구에서 p 값과 검정통계량 (test statistic)이 일치하지 않았다는 연구가 있다 [2]. 만연하는 이해상충 관계 (conflicts of interest) 역시 연구 설계, 분석 및 결과 해석에 영향을 미칠 수 있다. 연구 설계에 발생하는 문제들은 통계 분석을 넘어서는데, 이는 연구의 재현성이 낮기 때문에 알 수 있다. 바이엘사 (Bayer)의 연구에 따르면 [3], 학술지에 보고된 67편의 종양 및 심혈관 질환 관련 연구 결과 중 43건을 재현할 수 없었다고 한다. 또한, 암젠사 (Amgen)의 연구에 따르면, 종양학 분야에서 획기적으로 발견된 53건의 잠재적 약물 표적 가운데, 47건을 재현해 낼 수 없었다고 한다 [4]. 현재 과학적 보상체계에서는 연구를 엄격하게 수행하고 및 재현 가능한 연구 결과를 얻는 것을 충분히 강조하지 않고 있다.

연구 방법론과 관련된 문제들은 연구 인력의 구성과 교육, 과학적 환경 및 보상체계와 복잡하게 얽혀 있다. 우리는 이 문제들을 토의하고, 잠재적으로 실천 가능한 해결책을 제안하고자 한다. 또한 무작위배정 임상 시험 (randomised trials), 전통적인 역학 연구 (epidemiology studies), 체계적 문헌고찰 (systematic reviews), 유전역학 및 분자역학 연구 (genetic and molecular epidemiology studies), 오믹스 (omics), 그리고 동물 연구로부터 발견한 예시들을 보여줄 것이다.


권고안 Recommendations

1.생의학 분야 모든 연구의 설계와 수행에 있어 연구계획서 전체, 분석 계획이나 분석법 선택의 순서 (sequence of analytical choices) 및 원자료를 공개하라.
•모니터링 - (이상적으로는 사전에 등록된) 연구계획서 및 분석계획을 공개한 연구 보고의 비율 및 결과 보고의 출판 이후 6개월 이내에 원자료 및 분석 알고리즘을 공개한 비율

2. 합리적인 연구 설계 및 수행 표준, 잘 훈련된 방법론 전문가, 지속적인 전문가 교육, 이해상충 관계에 놓이지 않는 이해당사자의 포함 등을 통하여 효과-비뚤림 비 (effect-to-bias ratio)를 최대화하라.
•모니터링 – 이해상충이 없다고 논문에서 밝히고 논문 심사자도 체크한 논문의 비율, 자격이 있는 방법론 전문가가 포함된 논문의 비율 (이 비율 역시 중요하지만, 문서화가 어려움)

3. (기존 연구의) 재현 및 재현 가능한 연구에 (연구비 지원, 학술적 포상 등으로) 보상하고, 연구를 잘 재현할 수 있는 분위기가 가능하도록 하라.
•모니터링 - 엄격하고 독립적인 재현 및 재현가능성 검토를 거친 연구의 비율과 재현되거나 재생산된 연구의 비율






3. 효과-비뚤림 비 Effect-to-bias ratio


1) 문제점 The problem
임상 시험과 메타분석 [5], 생물학적 지표 연구 [6], 전통적 역학 연구 [7-10] 및 유전역학 연구 [11], 오믹스 [12] 등의 연구에서 보이듯 관심의 대상이 되는 효과 (effects of interest)는 상당히 작은 경우가 많다. 효과 크기가 작은 경우, 이를 (정보, 선택, 교란변수 등) 다양한 비뚤림으로부터 구분해 내기 어렵다 [8,13]. 효과 크기와 비뚤림이 잠재적으로 비슷한 크기라면 연구 결과가 가지는 어떠한 ‘신호 (signal)’라도 타당성을 의심받게 된다. 연구 설계를 어떤 것을 채택하느냐에 따라 ‘신호’를 크게 하거나, ‘소음’을 줄이거나, 또는 두 가지를 다 할 수 있다. 예를 들어, 연구자가 고위험군만을 임상 시험에 포함시켜서 ‘신호’를 높일 수 있지만 [14], 이러한 연구 설계를 선택하면 연구 결과의 일반화 가능성을 감소시킨다. 때로는 효과에 대한 ‘신호’와 이상반응 (adverse events)에 대한 ‘신호’와 관련한 문제가 서로 다를 수도 있다 [14]. 비뚤림이 많을 경우 효과 추정치는 부풀려지고, 이상반응은 과소평가될 수 있으며, 특히 재정적 이해상충이 존재하는 경우에는 더욱 그렇다.

몇몇 메타역학 연구를 통해 연구 설계의 특징이 효과 추정치 크기에 영향을 미칠 수 있음이 나타났는데 무작위배정 임상 시험의 경우, 할당 은닉 (allocation concealment), 눈가림 (blinding) 및 무작위배정 방법이 효과 추정치에 영향을 줄 수 있는데, 주관적 평가지표인 경우에 더욱 그러하다 [15]. 환자-대조군 연구 (Case-control study) 설계에서는 대상 질환의 범위가 진단 정확도 (diagnostic accuracy)의 추정값에 영향을 줄 수도 있고 [16,17], (무작위배정 임상시험 또는 관찰 연구의 데이터로부터 도출된) 모집단의 선택이 생물학적 지표의 예측 판별력 (predictive discrimination) 추정치에 영향을 줄 수도 있다 [18]. 모형화 (Modelling)에서는 해당 모형의 특징을 명확하게 하는 과정에서 모호한 비뚤림에 광범위하게 노출된다.

2) 개선 방안 Options for improvement
효과가 있는지 잘 모르거나 논란이 있는 노출 (exposures) 또는 중재 (interventions)의 경우, 효과 크기가 큰 연구와 비뚤림을 줄임으로써 효과-비뚤림 비 (effect-to-bias ratio)를 개선할 수 있다. 큰 효과를 발견한 연구의 경우, 연구자들은 (큰 효과 크기를 얻을 수 있는) 호의적인 환경에서 해당 효과가 기록되었을 수 있다는 점을 인정해야 한다. 만약 효과 크기를 부풀리기 위하여 선택된 연구 설계 상황에서 그 효과가 기록되었다면, 다른 환경 (setting) 또는 모집단으로 (해당 효과를) 일반화하는 것은 신중해야 한다. 효과-비뚤림 비 크기에 대해 기대하고 인지하고 추정하는 것은 제안한 연구를 실제로 수행할지 판단하는 데에 더욱 필요하다. 수용 가능한 최소한의 효과-비뚤림 비는 서로 다른 연구 설계의 종류와 연구 전문 분야에 따라 달라지는데, 효과-비뚤림 비가 낮은 분야에서 이루어지는 연구 노력은 헛수고일지 모르고 따라서 비뚤림이 감소하도록 기다릴 필요가 있다. 예를 들어, 유전형 분석 (genotyping)의 오류, 모집단 층화 (stratification), 선택적 보고 (selective reporting) 및 기타 비뚤림이 유전 효과 (genetic effect)에 비해 매우 큰 경우, 수만 가지의 유전자 후보 연구들 (candidate gene studies)로부터 얻은 연구 결과는 거의 신뢰할 만한 정보를 주지 못한다 [19].

몇몇 전문 분야에서는 어떤 비뚤림이 존재하고, 그 비뚤림을 어떻게 처리할 수 있는지에 바탕을 두어 효과의 신뢰도 (credibility)를 평가하려고 하는 기준이 개발되고 있다. 임상 근거에 대한 GRADE (grading of Recommendations Assessment, Development and Evaluation)* [20], 미국심장협회 (American Heart Association)의 새로운 생물학적 지표에 관한 기준 [21], 유전적 관련성 (genetic associations) [22] 및 이들의 유전자-환경 상호작용에의 추정 (extrapolation to gene-environment interactions)을 위한 베니스 (Venice) 기준 [23] 등의 예들이 이에 해당한다.

비뚤림을 최소화하여 연구의 질을 향상시킬 필요가 절실한데 이는 연구 결과 보고를 개선하도록 압력을 가함으로 간접적으로 이득을 얻을 수 있다 (본 5편의 시리즈 가운데 Chan 등의 논문을 참고 [24]). 그러나 효과-비뚤림 비를 최대화하기 위해서는 (결과 보고 단계에 앞서) 연구 수행 과정에 직접 초점을 두어 부가적인 노력을 기울여야 한다. 과학저널들은 연구 결과의 게재를 승인하기에 앞서 특정 연구 유형들에 대해 연구 설계 전제 조건을 마련하는 것을 고려해야 한다. 이러한 요구는 단순히 연구자에게 무엇을 했는지 투명하게 보고하라고 요구하는 것 이상이다. 예를 들어, 마이크로어레이 (microarray) 실험에 관한 MIAME (Minimum Information About a Microarray Experiment)* 가이드라인 [25] 및 여타 실험에 대한 유사 가이드라인 [26,27]이 이에 해당한다. 동물 실험에 관한 보고 가이드라인 중 일부는 연구 설계와 수행의 개선에 관한 제안사항까지도 포함하고 있다 [28,29].

마지막으로 연구비 지원 기관이 연구의 질적 개선에 일조할 수 있다. 많은 전문가 패널들은 수많은 훌륭한 과제신청서들이 제출된다고 알고 있지만, 실제 연구 보고의 질은 이러한 인식과 일치하지 않는다 (그림). 연구비 심사자 패널은 주로 연구자 커뮤니티 자체에서 뽑히는데, 많은 연구자들에게 불이익을 줄 수 있기 때문에 질적으로 높은 기준을 세우기를 꺼려한다. 이 문제를 해결하기 위해, 연구비 지원 기관의 과학 및 행정 지도부 (leadership)에서는 연구의 질적 중요성 및 효과-비뚤림 비를 납득 가능한 수준의 역치까지 줄이기 위해 요구되는 최소한의 기준을 명확히 할 수 있어야 하겠다.



그림.png


그림: 체내 실험 연구 (In-vivo studies) 보고에 있어 3가지 방법론적 질적 지표의 경향
우리는 PubMed ID를 기준으로 (1960년에서 2012년 사이 출판된) 2,000편의 논문을 PubMed에서 추출하였다. 254편의 논문이 체내 실험 (in-vivo), 체외 실험 (ex-vivo), 시험관내 실험 (in-vitro) 등 사람이 아닌 동물을 대상으로 한 실험임을 기술하였다. 두 명의 연구자가 독립적으로 각각 결과평가가 눈가림되었는지, 무작위배정이 되었는지, 이해상충에 관한 내용이 포함되었는지를 평가하였다. 해당 정보를 보고한 논문의 비율을 논문 발행 연도에 따라 오분위수 (quintile)로 95% 신뢰구간과 함께 제시하였다. 어떤 논문에서도 표본 수 계산, 할당 은닉, 또는 실험 수행에서의 눈가림 등은 보고하지 않았기 때문에 그림에 나타나지 않았다. 원문 부록 (Appendix)에 상세한 계획서, 자료 추출 과정, 연구 흐름도 및 원자료가 있다.





4. 연구계획서의 작성 및 연구 설계의 개선
Development of protocols and improvement of designs


문제 1: 연구계획서와 연구 설계가 불량하다 poor protocols and designs
기초적인 연구계획서만 있다거나, 아예 연구계획서 없이 진행되는 연구의 범위 (규모)는 알려진 바가 없다. 왜냐하면 이미 작성된 연구계획서조차 공개되는 경우가 흔치 않기 때문이다. 따라서, 연구자들은 연구 수행 과정에서 임기응변식으로 수행하거나, 우연히 발견된 결과에 대하여 적절치 않은 강조를 하고는 한다. 연구 중 미처 예상하지 못한 문제 (예를 들어, 예상치 못한 높은 탈락률, 예측하지 못한 이상반응 등)를 처리하기 위한 즉흥성이 일부 불가피하더라도, 연구계획서상의 변경사항을 적절하게 기록하지 않는 경우가 흔하고 [30], 이는 공식적인 데이터 분석에 보여주지도 않는다 (예를 들어, 무응답이나 거부한 자료가 보고되지 않거나, 이 값들이 불확실성 측정값의 보정에 사용되지도 않는 것이 이에 해당).

문제2: 정보가 그다지 유용하지 않다 poor utility of information
연구를 설계하면서 해당 연구로부터 얻게 될 정보의 가치나 유용성을 적절하게 고려하지 않는 경우가 흔하다. 비록 이전 연구를 재현하는 것이 과학의 핵심 원칙이긴 하지만, 어떤 점에서는 중복된 연구들은 부가적 가치가 거의 없다. 반대로 연구가 적은 분야에서 한 편의 연구로는 유용한 정보를 거의 제공하지 못하고, 어떤 전문 분야에서는 미미하고 정보를 주지 못하는 연구들만 수행되는 경우도 흔하다 [31-34]. 원칙적으로 연구로부터 기대한 정보의 가치를 분석하여 이를 바탕으로 특정 연구를 시작하거나 재정적으로 지원해야 하는 이유를 판단할 수 있지만, 이에 대한 경험은 거의 전무하다 [35].

문제3: 통계적 검정력과 결과를 오인한다 statistical power and outcome misconceptions
귀무가설을 기각하는 데 필요한 검정력의 계산은 관습적으로 행해지지만, 이것은 잘못될 수 있다. 왜냐하면 검정력의 계산 과정에서 대개의 연구자들이 연구 수행 과정에서 아무런 문제가 발생하지 않을 것으로 가정하고, 의사결정권자들이 참고할 다른 근거는 없다고 가정하며, 또한 임의적인 α 수준 0.05가 귀무가설을 잘못 채택하거나 기각할 적절한 균형을 이룬다고 가정하기 때문이다. 하지만 이러한 상황들은 실제로 거의 없다. 게다가 귀무가설을 기각할 검정력이 높은 연구가 관습적으로 사용하는 (5%) α 오류 수준에서 귀무가설을 기각하지 못하는 경우, 귀무가설보다는 대립가설을 지지할 수도 있다 [36].

적절한 통계적 검정력에 대한 요구로 인해 연구자들은 임상적으로 사소하거나 과학적으로 상관없는 평가지표를 선택하기도 한다 [37]. 예를 들어, 알츠하이머병에서 콜린에스터라제 억제제 임상 시험들이 인지기능 척도들을 사용해 왔는데 작지만 임상적으로는 의미 없는 변화들을 찾아내는 정도에 불과했다 [38].

연구자들은 통계적 검정력을 높이기 위해 복합 평가지표 (composite outcome measures)를 자주 채택하는데, 복합 평가지표를 구성하는 각 요소가 해당 질병의 동일한 과정을 보여주지 않거나, 또한 주관적으로 이루어지는 임상적 결정으로부터 영향을 받을 수도 있다. 예를 들면, 사망, 심근경색 및 반복적 혈관재형성의 복합 지표가 이에 해당한다 [39,40].

통상적으로 동물 실험에서는 사람 대상 시험에서보다 임상적으로 관련이 덜한 평가지표를 사용하여 통계적으로 탄탄한 효과 크기를 얻거나, 치료 효과가 있거나 없거나 양자택일의 결과를 얻도록 준비된 실험적 손상 모델을 사용한다. 이러한 통계적 최적화로 인해 (연구 결과의) 일반화는 어려워진다. 왜냐하면 동물 실험 결과를 적용하려면 (extrapolation) 종간 차이뿐 아니라, 처치 약물의 용량 변화나 크기 순서 등도 고려해야 하기 때문이다.

문제4: 다른 근거에 대해 충분히 고려하지 않는다 insufficient consideration of other evidence
전형적으로 모든 연구들의 설계, 수행 및 논의는 별개로 진행된다 [41] (본 5편의 시리즈 가운데 Chalmers 등의 논문을 참고 [42]). 게다가 대부분은 연구 설계에서 동시에 진행되고 있을 유사 연구를 고려하지 않는다 [43]. 현재 진행 중인 임상 시험의 총 표본 크기가 이미 완료된 모든 임상 시험의 총 표본 크기보다 클 수 있다 [44]. 그럼 새로운 임상 시험을 시작하는 것이 불필요하게 될 수 있다. 의생명 연구에서는 기존 연구의 재현 및 그저 단순한 반복된 연구 사이의 균형점을 찾아야 한다.

문제5: 주관적이고 표준화되지 않은 정의 및 효과 진동 subjective, non-standardised definitions and vibration of effects
연구 과정에서 정의되는 개념 및 분석법 등은 많은 경우 주관적 판단을 수반하기 때문에 소위 ‘효과 진동 (vibration of effect)’이 발생할 여지가 있다 [43]. 효과 진동이란, 통계 분석법에 따라 다른 결과가 나오게 되는 현상을 의미하는데 대개 효과는 큰 범위에서 달라지게 되며 이러한 현상은 통계 분석에 많은 변이들이 사용될 때 발생한다. 예를 들어, 통계적 보정에 포함/제외되는 많은 변수들, 다양한 통계적 모델의 사용, 통계적 결과값과 예측인자에 대한 서로 다른 정의, 모집단에 대한 서로 다른 포함/배제 기준 등이 이에 해당한다. 이러한 분석 조건들이 다양하게 조합되어 사용될 수 있고, 무엇을 선택하냐에 따라 결과는 상당히 달라질 수 있다. 전체 분석 결과 가운데 일부만이 보고되었을 때 비뚤림이 발생하는데 특히 연구자가 특정 결과를 선호하거나 낙관적 비뚤림 (optimism bias)에 영향을 받은 경우에는 더욱 그러하다 [45].

이런 면에서 이전 자료를 이용하여 수행하는 체계적 문헌고찰 (systematic review)은 흥미로운 도전이 된다. 왜냐하면 후향적으로 수행되기 때문에 연구자들이 고찰의 방법을 계획하는 순간에 이미 해당 자료에 관한 지식을 가지고 있을 수 있기 때문이다. 직업상 반목이나 산업계의 지원 등으로 이해 관계가 얽혀 있는 연구자들은 그들이 얻고 싶은 결과가 유리하게 나오도록 연구계획서를 작성할 수 있다 [46]. 실제로, 실제 결과값보다는 결과의 해석으로 인한 차이임에 불구하고, 산업계의 지원을 받은 체계적 문헌고찰들이 다른 체계적 문헌고찰들에 비해 우호적인 결과를 내는 경우가 더 많다 [47,48].

개선책: 연구계획서 및 문서화 protocols and documentation
탐색적 연구가 아닌 임상 시험 및 기타 연구들은 구체적으로 작성된 연구계획서에 따라 수행되어야 하며, 해당 연구계획서는 사전에 공개되어야 한다 [49-51]. 일부 탐색적 연구 (exploratory research)에서는 엄격하게 작성된 연구계획서를 사전에 작성하지 못할 수도 있지만, 그럼에도 불구하고 연구 수행 과정에서 이루어진 일련의 의사결정과 시험결과 및 의사결정의 이유 등은 문서화되어야 한다. 무작위 임상 시험들 및 폭넓게 설계된 다른 연구들에서조차 사후 결정 (post-hoc decisions)이 일부 필요할 수 있다. 이러한 경우, 사전에 계획된 자료 분석과 사후에 탐색적으로 이루어진 자료 분석을 엄격하게 구별하여 보고하여야 한다. 체계적 문헌고찰의 경우에도 사전에 정해진 단계들을 자세히 기록한 연구계획서를 이제 사전등록할 수 있다 [52,53]. 연구계획서를 사전등록했다고 계획서에서 예상치 못하게 변경할 필요가 없어지는 것은 아니지만, 사전등록을 하면 수정사항들을 보여줌으로써, 열린 평가를 가능하게 한다 (패널 1).


패널1: 체계적 문헌고찰의 연구계획서 및 사전등록

다른 연구 노력과 마찬가지로 체계적 문헌고찰의 연구계획서 역시 중요하다. 연구계획서는 연구자들에게는 분명한 연구 계획을 제공하며, 다른 사람들에게는 최종 결과 논문과 연구계획서 간 비교를 통하여 둘이 일치하는지 알 수 있도록 해 준다. 2004년 11월 기준 PubMed에 등재된 치료 효과를 검증하기 위해 213편의 체계적 문헌고찰을 대상으로 한 연구에 따르면, 코크란 리뷰의 연구자들이 대부분 연구계획서를 작성했다고 보고한 반면 (125편 중 122편, 98%), 비코크란 리뷰의 경우, 일부 연구자들만이 연구계획서를 작성했다고 보고하였다 (88편 중 10편, 11%). 유사한 결과는 다른 논문에서도 발견된다. 비록 연구계획서를 사용했다는 사실을 보고하지 않은 논문도 있을 수 있지만, 모든 연구자들이 단순히 보고를 누락했다고 보기는 힘들다.

연구의 보고 비뚤림 및 불필요한 반복 등의 문제를 해결하고, 투명성을 제고하기 위하여 PROSPERO라는 체계적 문헌고찰 국제 등록소 (register)가 2011년 2월에 문을 열었다 [53]. PROSPERO는 체계적 문헌고찰의 연구계획서를 전향적으로 등록하기 위한 국제 데이터베이스에 해당한다. 체계적 문헌고찰의 연구계획서에 포함되는 핵심적 내용을 등록하고, 이를 영구적으로 보존한다. 등록 과정은 인터넷으로 이루어지며, 무료 검색이 가능할 뿐만 아니라, 건강 관련 평가변수를 다루는 모든 체계적 문헌고찰에 관한 연구계획서를 무료로 등록할 수 있다. 연구계획서를 사전에 등록하는 목적은 첫째, 체계적 문헌고찰을 투명하게 수행하고, 둘째, 사전 계획되지 않은 체계적 문헌고찰을 불필요하게 반복하는 것을 줄이고, 셋째, 연구계획서상의 내용과 체계적 문헌고찰의 결과를 비교할 수 있게끔 하는 데 있다. 연구계획서를 사전등록함으로써, 체계적 문헌고찰을 수행하고 보고하는 과정에서 발생할 수 있는 비뚤림을 줄이는 데 기여할 수 있을 것이다.

2013년 5월 기준 27개국 1,000여 편의 체계적 문헌고찰 연구계획서가 등록되었다. 영국의 국립보건연구원 (National Institutes for Health Research, NIHR)에서는 NIHR 연구비를 지원받는 체계적 문헌고찰에 대해 연구계획서 사전등록을 의무화하였다. 캐나다 보건연구원 (Canadian Institutes of Health Research) 역시 유사한 발의를 준비하고 있다. Medline 등재 오픈액세스 (open-access) 저널인 체계적 문헌고찰 (Systematic Reviews)에서는 체계적 문헌고찰의 연구계획서를 출판하는데, 2012년 2월 발간 이후 (2013년 11월 기준) 89편을 출판하였다. 이러한 계획들로 인해 연구자들은 체계적 문헌고찰의 연구계획서와 결과물 간의 연관성을 정기적으로 평가할 수 있을 것이다.


대다수의 주요 과학 저널에서 논문 게재를 위한 요구조건으로 제시하고 난 이후 임상 시험을 사전등록하는 것이 널리 퍼지게 되었다. 마찬가지로, 연구계획서 및 연구 자료를 등록하여 공개하는 것 역시 예를 들어, 연구비 지원이나, 연구 논문 게재의 선행조건과 같이 유사한 보상이 있어야만 일반화될 것으로 보인다. 특히 마이크로어레이 (microarray) 또는 거대 분자 데이터 (macromolecular data)와 관련된 연구의 경우, 주요 저널들에서는 연구계획서, 자료, 분석을 공개하는 것을 이미 논문게재에 필요한 선행조건으로 명시하고 있지만, 이러한 방식들이 적절하게 시행되지 못하고 있다 [54]. 또 다른 선택으로, 저널에서 연구계획서를 완전히 외부 동료심사 (peer-review)를 받고 출판하도록 장려하거나 필수적으로 요구하는 방법이 있다. 연구비 지원기관이나 기관생명윤리위원회에서 연구계획서를 검토하기는 하지만, 심사받지 않는 연구계획서들도 많다. 경험적인 근거는 필요하겠지만, 공개적 검토를 하게 되면 연구의 타당성 및 질이 향상될 것이다. 출판된 결과와 연구계획서를 주기적으로 비교하면 [30,55] 연구자, 저널 및 연구비 지원 기관 등에 유용한 피드백을 제공할 수도 있을 것이다.

중요한 역학 연구의 경우, 예를 들어 이상반응을 확인하기 위하여 통상적으로 데이터베이스를 스크리닝하는 것과 같은 고도로 탐색적인 분석방법을 이용하게 되는데, 이때 연구 과정에서 이루어지는 의사결정 등을 포함하여 연구가 어떻게 이루어졌는지 기록하는 것은 연구의 투명성을 보장하기 위한 필수적인 조건에 해당한다. 연구대상자가 동의를 철회하거나 중도탈락하는 등 연구 과정에서 발생하는 핵심적인 사건 정보는 데이터 분석 및 결과보고에 반드시 포함되어야 한다. 철회나 탈락 및 기타 불확실성 문제들 해결에도 결측치 분석 방법들을 보면 가능성이 있다. 물론, 결측치와 관련한 가장 좋은 대비책은 결측치 발생 자체를 미연에 방지하는 것이기는 하다. 무작위배정 임상시험에서 무작위배정 이후 군 사이에 결측치가 상당히 차이가 나는 경우, 이 때문에 발생할 수 있는 잠재적인 선택 비뚤림 (selection bias)은 어떤 결측치 처리 방법으로도 깔끔하게 없애거나 보정할 수 없기 때문이다.

전임상 연구 또는 동물 연구에서도 연구계획서를 사전에 공개하는 것이 좋다. 물론 해당 분야의 전문가들이 연구계획서를 이용한 경험이 거의 없기 때문에, 실제 실행가능성 (feasibility) 여부를 면밀히 평가해볼 필요는 있다. 저널의 논문 심사자들이 요구하면, 연구의 목적 또는 검증하고자 하는 가설, 검정력 계산, 자료 수집 방법 및 통계 분석 계획을 포함하는 날짜가 적힌 연구계획서를 제시할 수도 있을 것이다.

개선책: 정보 이용 그리고 정밀성, 검정력 및 결과 use of information, and precision, power, and outcomes
가능하다면 언제든지 연구비 지원 신청 시 임상적으로 타당한 평가변수에 기반을 두어 현실적으로 계산한 검정력 및 정밀도 기대치 등을 제시하는 것이 필요하다. 임상 시험을 계획할 때, 실용적 연구 설계 (pragmatic designs) [58,59] 및 환자 중심 평가변수 (patient-centred outcomes) [60,61]도 고려해야 하는데, 이는 연구 결과를 최종적으로 이용하는 당사자에게 매우 중요하다 (본 5편의 시리즈 가운데 Chalmers 등의 논문을 참고 [42]). 가능하다면 연구자는 연구의 예상비용에 비추어 연구에서 기대되는 정보의 가치를 고려해야 한다.

바이오뱅크 및 임상 데이터 등록소는 다양한 용도로 구축되고 있으며 특정 용도를 예측하여 구축되는 경우도 있지만, 새로운 기술이나 관심사의 등장과 함께 예상치 못한 용도로 사용되기도 한다. 그럼에도 불구하고 연구 설계 과정에서 (검정력, 표본 크기 및 정밀도 등을) 합리적으로 추산하는 작업은 필요한데, 최소한 이러한 작업은 연구가 설계되었던 시점에서 예측 가능한 용도에라도 바탕을 두어 이루어져야 한다 [62]. 연구계획서는 데이터 등록에 기반하여 전향적으로 작성되어야 한다. (예를 들어 유전체학을 이용하여 새로운 진단법을 개발하는 것과 같은) 신기술에 대한 중개연구 등에 정보분석법이 도움이 될 수 있는데, 왜냐하면 정보는 빠르게 진화하고, 무작위배정 비교임상시험은 많은 경우 수행하기 어렵기 때문이다. 또한 공식적인 모형구축 방안들도 이미 제시된 바 있다 [63].

동물 실험에 있어, 치료약의 현실적 투여 용량이 보여주는 효과는 미미한 경우가 있다. 이 경우, 해당 연구가 적절한 검정력을 확보하기 위해서는 연구의 규모 (표본 수)가 커질 수밖에 없다. 연구 결과의 일반화 가능성을 증대하려면 연구자들은 검증 환경을 이질적으로 구성하는 방안을 고려해야 한다 [64,65]. 아울러 이러한 대규모 연구가 가능하게 하려면, 다기관 동물 실험 역시 고려되어야 한다 [66,67].

개선책: 근거에 대한 고려 consideration of evidence
연구자들은 새로운 연구를 설계할 때, 연구를 계속하여 얻어질 근거를 예상해야 한다. 예를 들어, 연구자들이 새로운 무작위배정 비교임상시험을 계획하는 경우, 현재 가장 중요한 연구 질문과 비교 대상을 알아내기 위한 기존 임상 시험과 현재 진행 중인 임상 시험 모두를 고려해야 한다 [42,68]. 가능한 모든 근거를 확인함으로써 [44], 연구자들은 제한된 자원을 보다 효율적으로 사용할 수 있고, 또한 보다 유용한 결과를 얻어낼 수 있다. 인간 게놈 역학과 같이 동일한 주제를 두고 다양한 연구가들이 대규모 컨소시엄을 형성하여 협력하는 형태로 몇몇 전문 분야들이 변환되어 왔는데 [69,70], 다양한 전문가들이 참여하는 대규모 컨소시엄을 통해 연구자들은 더욱 활발한 의사소통을 할 수 있으며, 따라서 해당 전문 분야들에서 기존 및 현재 진행 중인 연구 모두에 보다 종합적인 관점을 구축할 수 있다. 개별 연구자들이 제안한 새롭고 흥미로운 아이디어가 컨소시엄을 통하여 더욱 효율적으로 검증되는 것이다. 전장 유전체 연관분석 (Genome-wide association study, GWAS)* 에서와 같이 표본 수를 최대화하는 것이 매우 중요하다는 공통의 인식이 있는 영역에서 컨소시엄은 특히 성공적이었다.

개선책: 연구 활동의 표준화 standardisation of efforts
새로운 연구 활동에서 정의 (definitions)와 분석 절차를 실제로 완전히 표준화할 수 있다. 기존 데이터 및 연구에서, 완벽하지는 않더라도 어느 정도 개념의 동질성을 얻고자 하는 조화 (harmonisation)에 대한 시도에는 상당한 노력 및 조정이 필요하다 [71]. 대규모 컨소시엄과 연합을 통해 연구자들은 임상적 정의, 실험실에서의 측정, 통계 분석 등에 대해 연구자들 사이에 공통적인 언어를 사용할 수 있다. 예를 들어, 임상 연구의 OMERACT (Outcome Measures in Rheumatology)* 또는 동물 실험에서의 EMPReSS (European Mouse Phenotyping Resource of Standardised Screens)* 와 같이 몇몇 전문 분야에서 국제적 협력을 통하여 평가지표의 정의를 향상시키고 표준화한 경우가 있다. 분석 표준화에 있어서 다른 분야의 전문가들은 또 다른 문제에 직면할 수 있다. 예를 들어, 무작위배정 비교임상시험의 경우 역사가 오래된 만큼 어떤 분석 방법들은 표준으로 광범위하게 채택되는데, 의도된 대로 분석의 원칙 (Intention-to-treat priniciple), 로그 랭크 검정과 함께 제시되는 카플란-마이어 도식 등이 그 예가 된다. 따라서 이러한 관습적 표준에 벗어나는 경우, 적절한 설명을 덧붙일 필요가 있다. 반대로 다른 분야에서는 많은 대안적 방법들이 존재하는데 선호할 만큼 충분히 강력한 근거는 하나도 없다. 어떤 방법을 채택하건 연구자들은 가장 흥미로운 결과뿐만 아니라 모든 결과를 제시해야 한다 (본 5편의 시리즈 가운데 Chan 등의 논문을 참고 [24]).





5. 연구 인력 및 이해당사자 Research workforce and stakeholders


1) 문제 Problems
오믹스 (Omics) 같은 새로운 분야에서 적용되는 통계적 방법은 복잡할뿐더러 나날이 진화하고 있다. 그러나 통계학자나 방법론 전문가가 연구 과정에 참여하는 경우는 드물기 때문에 연구 설계 및 결과 분석 과정에서 문제가 발생하는 경우가 많다 [72]. 단순 통계법이 적용되는 경우에서조차 많은 오류와 재현이 불가능한 논문들이 출판되었다. 6종의 주요 의학 저널에서 피셔의 정확성 검정 (Fisher’s exact test) 을 적용한 71편의 논문을 조사한 한 연구에 따르면 [73], 통계학자가 연구팀의 일원으로 포함되어 있을 경우 해당 통계법이 더욱 적절하게 사용되었다고 한다. 다차원 (Multidimensional) 데이터의 경우 특히 위양성 또는 과적합 (overfitting) 결과를 얻을 위험이 큰데, 이는 경험이 부족하거나 제대로 훈련받지 못한 분석자가 분석하는 경우 특히 그러하다. 통계 분석에 관한 문제는 동료 심사 과정에서 발견되지 않을 수도 있는데, 특히 통계학자나 방법론 전문가가 평가하지 않는 경우에 더 그럴 가능성이 크다.

생의학 연구자들은 연구 설계나 결과 분석에 대해 제대로 교육받지 못하는 경우가 많다. 의사들이 의료 행위를 하기 위해서 엄격한 시험을 통과해야 하지만 의학 연구에 대해서는 거의 교육도 받지 못한 채 연구에 입문한다. 많은 국가에서 의과 대학 시절 초기에 짧게 의학통계 개론 강의가 개설되고 그 이후로는 임상 연구에 관해 정식으로 교육받지 못한다. 그나마 이루어지는 교육에서 배우는 것은 데이터 분석 위주로, 연구 방법에서 논쟁의 여지가 없이 가장 중요한 요소인 연구 설계는 거의 포함되지 않는다 [74].

실험실 과학자들이 적절하게 연구에 관련된 교육을 받고 있다는 근거는 거의 없다. 많은 실험실 연구들의 결과 보고 방식을 보면, 과학자들이 적용하고 있는 방법론적 접근방식이 엄격하지 못하다는 점을 잘 모르고 있음을 보여준다 (그림). 이는 임상 연구 전문가들이 적절한 교육을 받지 못하고 있다는 점보다 더욱 심각한 문제일 수 있다. 많은 연구자들에 의해 연구계획서와 결과 논문이 검토되는 임상 연구와는 달리 외딴 실험실에서 한 명이 수행하는 실험 연구의 경우 더욱 위험하다.

특정 결과를 선호하는 이해상충이 발생하는 이해당사자가 연구를 수행하는 경우가 자주 있다. 이해당사자들은 대학의 임상의, 실험실 또는 기업 소속 과학자가 될 수도 있는데, 이들은 이해상충 여부를 밝힐 수도, 안 밝힐 수도 있다. 많은 임상 연구가 기업의 감독하에 설계되어 수행되며, 이 경우, 기업과 관련이 없는 연구자를 포함시키는 경우는 매우 드물다. 임상의들은 연구 과정 중 임상 시험 참여자 모집에만 관여할 뿐 연구 설계, 결과 분석, 심지어는 논문작성 등의 의미 있는 연구 과정에서는 배제되며 논문작성 또한 기업에 속한 유령저자가 결과 논문을 작성하는 경우도 있다.

2) 개선책 Options for improvement
연구의 모든 단계에 통계학자 및 방법론 전문가가 관여해야 한다. 이런 권고는 주로 임상 시험에서 지속적으로 논의되었지만, 이는 임상 시험 이외의 모든 연구에도 적용된다. 방법론 전문가와 보건의료 전문가 간 의사소통 역시 중요하다. 의과대학 및 공중 보건 관련 대학 및 대학원 프로그램에서는 임상의와 과학자들 대상으로 양적 연구 방법에 관한 교육을 향상시켜 연구 설계와 수행에 있어 비뚤림 및 비뚤림을 최소화하는 방안들을 일깨워줘서, 얻어진 자료에서 비뚤림을 해명 혹은 보정할 수 있는 방법들을 제공해야 한다. 의과대학 학생들은 수많은 정보를 접하지만 의료 행위를 하기 위한 시험에 집중하게 된다. 연구자가 될 학생이 아닐지라도 임상 현장과 관련된 연구 결과를 비판적으로 평가하기 위해서는 연구 설계 및 결과 분석 방법을 충분히 이해하고 있을 필요가 있다. 이에 의사 면허 시험에 임상 연구 방법론에 관한 내용을 적당량 포함시킬 수도 있겠다. 석사 학위 취득을 포함하여 임상 연구 방법론에 대한 정규 교육을 이수하는 것이 이미 젊은 연구자들에게는 경력개발에 주어지는 상에 있어 중요한 자격이자 핵심 요소가 되었다.

지속적으로 전문성을 개발하고, 이를 실제 임상에 반영하며, 또한 연구 기술의 타당성을 확보하는 것에 대한 기대 역시 재고되어야 한다. 최상의 의료행위를 확보하기 위해, 의학 전문가들은 지속적으로 의학 교육을 실시하고, (새로운 의학 기술의) 타당성을 재확인할 필요가 있다는 점을 인지하고 있다. 단기과정과 지속적인 방법론 교육에 대한 새로운 접근을 통해 보다 새로운 연구 방법론 개발의 측면에서 연구 기술을 새롭게 할 기회를 갖는 것은 임상 및 실험 연구자들에게도 큰 도움이 될 수 있을 것이다.

3) 잠재적 이해상충의 영향을 최소화하기 위한 제안 Suggestions to minimise influence of potential conflicts
연구 설계, 연구 수행 및 결과 분석 과정에서 이해가 상충되는 당사자들로부터 영향을 덜 받으려면 연구 설계 과정에서 재정적 이해상충이 없는 사람들을 설계에서의 선택권에 관한 의사결정 과정 – 예를 들면, 임상 시험에서 대조군을 무엇으로 할지, 또는 어떤 평가변수가 타당할지 - 에 포함시켜야 한다. 환자 역시 여기에 포함되어야 하는데 [75], 환자는 곧 의학 연구의 최종 핵심 소비자이기 때문이며 어떤 연구를 우선해야 할지 정할 때 환자를 관여시키는 것에 대해서는 좀 더 분석이 필요하다 [42]. 객관성과 같이 연구자들이 명백하게 공유하는 연구 가치라고 할지라도 다른 사람에게는 또 다른 의미를 지닐 수 있다 [76,77]. 예를 들어, 연구비 지원기관 및 정책 결정자는 연구자, 진단법 및 치료법의 상업적 개발자, 혹은 심지어 환자보다도 더 높은 기준을 요구할 수 있다 [76].


6. 재현성 관행 및 보상체계 Reproducibility practices and reward systems


1) 반복과 재현성 Replication and repeatability
대다수의 연구 분야에서, 새로운 발견을 처음으로 발표한 사람은 크게 인정받지만, 그들의 발견이 과학적으로 타당한지 평가하고자 해당 연구를 되풀이하는 노력은 거의 박수받지 못한다. 단일 데이터 집합에 기반하여 교차 검증을 실시하면 비뚤림이 발생하여 결과를 과장할 수 있다 [78]. 새로운 표본 집단을 대상으로 기존의 결과 검증을 수행하는 연구자는 해당 결과를 최초로 발표한 연구자 본인인 경우가 많은데, 이는 첫째, 낙관주의 또는 충성 비뚤림 (allegiance bias)에 빠지기 쉽고, 둘째, 기존 연구와 동일한 오류를 범할 수 있고, 셋째, 일반화 가능성이 작아질 수 있다. (기존 연구자와) 별개인 연구팀이 기존 연구 결과에 대한 외적 타당도 검증을 하는 것은 필수적이나, 이는 아직 많은 분야에서 이루어지지 않고 있다.

실증적 연구들에 따르면, 독립적인 과학자가 체계적으로 시도한다고 하더라도 논문으로 발표된 연구 결과를 다시 얻을 수 없는 경우가 흔하다고 한다 [3,4,79,80]. 원래 자료를 얻거나 다시 분석하는 것은 매우 어렵거나 때로는 불가능하다. Nature Genetics*의 경우 논문 게재 전에 raw data, 연구계획서 및 분석 코드 등을 반드시 제출해야 함에도, 해당 저널에 발표된 18편의 마이크로어레이 (microarray) 관련 연구 논문 가운데 오직 2편만이 독립적인 분석에 의해 재현될 수 있었다고 한다 [80]. 일부 연구팀의 경우 자신들의 연구를 재현할 때, 이전 연구 결과와 모순이 발생할 가능성을 최소화하기 위해 본인들이 특허를 가진 분석 시스템을 사용하도록 강요하거나, 원래 연구팀에 포함되어 있던 공저자를 재현 연구에 포함하도록 강요함으로써 연구 재현 및 데이터 공유의 고유 목적을 희석시키기도 한다.

2) 보상 메커니즘 Reward mechanisms
(유명한 저널에 논문을 게재하고, 연구비를 지원하며, 승진에 반영하는 등의) 보상 메커니즘은 연구 설계, 연구 수행 및 결과 분석, 문서화 및 연구의 재현가능성 등과 같은 연구 과정의 질보다는 연구 결과의 통계적 유의성 및 화제성에 초점을 두고 있다. 이와 유사하게, 통계적으로 유의한 결과이거나, 유명한 저자를 포함하거나 유명한 저널에 게재되는 경우이거나, 혹은 연구팀이 긴밀하게 연계되어 있는 논문은 그렇지 않은 논문에 비해 더 많이 인용되는 경향이 있으며, 그 결과 인용 비뚤림 (citation bias)을 낳는다 [81,82].

임용 및 승진 심사 위원회에서 심사 후보자의 논문 수를 부적절하게 강조하는 경우가 많다. 비록 연구 결과를 논문으로 발표하는 것이 필수적이라 할지라도, 논문 수를 학술적 성취 정도를 평가하는 지표로써 이용하는 것은 질보다 양을 강조하는 것이다. 연구 결과를 담은 원고를 게재할 수 있는 의학 저널은 무궁무진하다. 약 20년 전 Altman은 연구의 숫자를 줄이고, 연구의 질은 높이며, 타당한 근거가 있는 연구를 수행해야 할 필요성을 역설한 바 있다 [83]. 경우에 따라 발표된 논문 수가 아니라 수주한 연구비 규모에 근거하여 성과를 판단하기도 하는데, 연구비는 수단이지 결과물이 아니다 [84]. 연구자는 자신이 혁신적이라고 생각하는 연구의 지원을 계속 받기 위해 과장된 결과물을 약속하고 출판하려는 유혹에 빠진다. 현재로써는 오류가 있거나 틀린 결과를 발표해도, 혹은 과장된 주장을 한다 하더라도 연구자가 이로 인해 부정적 결과를 감수하는 경우는 거의 없다. 논문이 발표된 이후 오랜 시간이 흐른 뒤에야 오류가 발견되는 경우가 흔하며, 해당 저자가 신뢰를 잃고 나서도 수년간 반박당한 결과가 인용되기도 한다 [85].

3) 재현가능성 및 보상체계를 문제 개선을 위한 제안 Suggestions to improve reproducibility and reward systems
기존 연구팀은 원본 데이터를 가능한 공개하고 연구 과정에 관한 상세한 기록을 남겨서, 제3의 연구자로 하여금 재현가능성 및 외적 타당도 검증을 허용해야 하며, 이러한 연구가 (연구비 지원 및 논문 게재 단계 등에서) 적절히 보상받아야 한다 [86-90]. 통계적 유의성보다는 질적으로 우수한 연구와 문서화 및 연구 결과의 재현가능성 등에 기반하여 연구자에게 보상을 주는 것은 상당히 중요하다 [91]. 온라인으로 발간되는 저널의 경우, 연구 결과의 재현가능성 검증을 활성화할 수 있다. - 예를 들어, PLoS One*은 재현가능성 계획의 일환으로 자체적으로 계약한 독립적인 실험실들에서 각종 연구 결과를 검증한 사항을 저널에 싣겠다고 발표하였다 [92]. 소위 통계 ‘상점’들 (statistical shops)에서는 Sweave*와 같이 자신들의 소프트웨어 스크립트 정확도 및 재현가능성을 높이기 위한 소프트웨어 시스템을 도입할 수도 있다. 연구 지원 기관 및 저널은 원본 데이터 및 통계분석 최종 스크립트를 요구할 수도 있다. 예를 들어 미국의 의학 연구소 (Institute of Medicine)*는 오믹스 (omics)에 관한 보고에 이와 같은 내용을 권고하였다 [93].

과학적 생산성은 단순히 발표논문의 개수로 평가할 수 없다. 질이 낮은 논문을 여러 편 발표하는 것은 아무것도 발표하지 않는 것보다 나쁘다. 정보계량학 (Scientometrics) 분야에서 개발된 몇몇 양적 지표를 이용하는 경우, 자기 인용 (self-citation), 동일 전문 분야 타 과학자들과 비교한 상대효과, 상당량의 공동저자 문제 등을 일부 정정할 수 있다. 발표 논문 수보다는 정교한 인용지수 (citation index)가 낫지만, 이 역시 연구의 재현가능성을 설명해 주는 것은 아니다. 출판 후 전문가 검토 (Post-publication peer review)가 연구의 질과 재현가능성 평가에 있어 더 나을 수 있지만, 이런 접근방식이 효과가 있는지를 보여주는 근거는 아직 거의 없다.

전자 논문 출판 시스템이 발전함에 따라, 발표된 논문을 평가하고 비평하는 것이 용이해졌다. 본 논문의 저자 중 한 명 (Robert Tibshirani)은 PubMed에서 PubMed Commons라는 관련 시스템을 만드는 것을 도왔는데, PubMed에 새로 구축된 이 기능을 통해 연구자들은 어떤 논문에든 자유롭게 코멘트를 달고, 또 다른 사람들이 쓴 코멘트를 읽을 수 있다. PubMed Commons는 과학적 이슈에 대한 열린 비평, 건설적 비평, 토론을 위한 마당이다. 현재 양질의 의견교환을 위해 코멘트가 익명으로 되어 있지는 않다. 과학적 명성을 어떻게 계량화하는지 더 잘 이해할 필요가 있는데 [94], 명성을 체계적으로 조작하거나 [95], 저자가 인위적으로 생산성 지표를 부풀릴 수 있는 논문 게재 및 인용 시스템을 이용하여 ‘게임 (도박)’을 하는 것을 방지하기 위하여, 연구 과정은 충분히 투명해야 하고, 또 과학적으로 타당해야 한다. 지표에 따라 (논문 편수와 같이) ‘도박게임’ 하기 쉬운 것도 있고, (300번 이상 인용된 논문의 수와 같이) ‘도박게임’ 하기 어려운 것도 있다.





7. 결론 및 제안 Conclusions and recommendations


우리는 연구 설계, 연구 수행 및 결과 분석에 있어 낭비를 줄이기 위하여 몇 가지 문제와 그에 관한 해결책을 개략적으로 서술하였다. 여기서 제시한 해결책이 모든 연구 분야에 동일하게 적용될 수 있는 것은 아니기에, 각 분야에서는 어떤 변화가 가장 중요할지에 대하여 우선순위를 매겨볼 필요가 있다. 예를 들어, (패널 2)에서는 동물 연구에서 가장 중요한 10가지 우선순위 목록을 작성해 보았다.


패널 2: 동물 연구의 질적 개선을 위한 10가지 방법

연구계획서 및 연구 설계의 최적화 Protocols and optimum design
1. 데이터 수집 및 분석에 앞서 날짜가 찍힌 연구계획서의 공개, 혹은 전적으로 탐색적인 연구의 경우 해당 내용을 명백히 문서화
2. 현실적인 표본 수 계산
3. 통계적 효율성뿐만 아니라 임상적 관련성에 대해 초점을 맞출 것

효과-비뚤림 비 Effect-to-bias ratio
4. 무작위배정
5. 관찰자 눈가림 포함
6. 연구 설계를 가급적 이질적으로 하여 결과의 일반화 가능성을 높이도록 함.
7. 다기관 연구 확대
8. 발행인은 ARRIVE (Animal Research: Reporting In Vivo Experiments) 가이드라인* 채택

연구인력 및 이해당사자 Workforce and stakeholders
9. 지속적 연구자 전문성 개발 프로그램

재현가능성 및 보상체계 Reproducibility and reward systems
10.연구비 지원 기관은 연구의 질에 보다 관심을 두고, 원본 자료 및 분석법 공개를 강화해야 함.


쓸모없는 연구를 줄이기 위한 변화에 대해 최대한 동기를 부여하기 위해서는, 연구자뿐만 아니라 저널 발행인 및 규제기관 역시 행동의 변화가 필요하다. 이러한 변화를 위해서는 연구비 지원 기관과 같은 이해당사자가 외부에서 압력을 행사할 필요도 있다. 연구비 지원기관에서는 자신들의 투자에 대한 회수가 잘 되고 있는지 확실히 하고 싶어 하는데 부적절한 연구의 경우 재정 투자를 감소시킨다. 환자와 일반 대중 역시 이에 대한 목소리를 내야 한다 [96]. 과학은 세계적이고, 다학제적이며 느슨하게 조직된 이질적 노력의 결과물이다. 바라건대, 연구비 지원 기관에서 연구 설계의 질적 향상을 주장하고, 각 연구소에서 자신들의 이름으로 수행되는 연구로부터 얻게 될 기대치를 분명하게 설정하며, 과학 저널 발행인 역시 연구 전반에 대한 투명성을 요구한다면, 양질의 연구만이 연구비 지원을 받고, 그 결과가 발표될 것이며, 이로부터 그들 역시 경쟁력 있는 결과물을 얻을 수 있을 것이다. 이해당사자들이 더 조직적으로 이러한 노력에 동참하게 되면, 우리 모두가 ‘지분’을 가진 과학의 질은 더욱 높아질 것이다.

이 논문의 첫 페이지에서 향후 개선을 측정하기 위해 사용될 수 있는 각종 지표 및 권고안 목록을 제시하였다. 개선 내용들은 상호 연관될 가능성이 크기 때문에, 생의학 연구의 한 측면의 진보가 다른 측면의 진보로 이어질 수 있다. 또한 제안한 성공지표들은 상호의존적이다. 현재는 이러한 지표들에 우호적인 상황이 아니지만, 이는 곧 개선의 여지가 있다는 뜻이 된다. 서로 다른 연구 설계에 따라 연구 및 연구계획서를 사전등록하는 것이 크게 달라진다. 임상 시험에서는 연구사전등록이 대체로 성공적이었지만, 몇몇 특정 분야에서는 일부의 임상 시험만 사전등록된다. 예를 들어, 2007~2008년에 보고된 종양 분야 신약에 관한 임상 시험을 표본 조사한 결과, 80%의 연구가 사전등록되었지만 [97], 2009년에 보고된 물리 치료에 관한 무작위 임상시험의 경우는 사전등록 비율이 34%에 불과하였다 [98]. 무작위배정 임상시험은 모든 생의학 논문 가운데 5% 미만에 불과하며, 대다수의 다른 연구는 현재 사전등록되지 않고 있다. 예를 들어, ClinicalTrials.gov 에 2013년 4월 5일 기준으로 사전등록된 관찰 연구는 26,449건에 불과하다 (이 가운데 10,636건이 현재도 진행 중이다). 따라서 결과가 발표된 연구 중 5% 미만이 사전등록되고 있는 것으로 보인다.

임상 시험 계획서에 비해 상세한 분석 계획 및 원본 자료는 공개되는 경우가 더욱 드문데 이를 사전등록하는 것 역시 연구 분야에 따라 차이가 있다. 예를 들어, 마이크로어레이 (microarray) 연구 분야에서 원본 데이터와 측정 계획법을 사전에 등록하는 것은 오랫동안 시행되어 온 성공적인 전통이 되었다. 예를 들어, 2013년 4월 5일 기준, Gene Expression Omnibus*에는 11,376종의 측정 플랫폼에 대한 정보, 906,634개의 표본, 37,339개의 시리즈, 3,200개의 데이터셋이 들어 있다. 반대로 전통적인 역학 연구에서는 아직 이와 같은 사전등록이 시행되지 않고 있다.

많은 연구에서 금전적 이해상충이 있는 저자들이 들어 있는데, 특히 임상 연구에서 더 하다. 예를 들어, 2006-2007년 사이 Journal of Clinical Oncology에 발표된 논문 중, 임상 시험 논문의 69%, 사설 (editorial)의 51%에서 저자들이 이해상충을 밝혔다 [99]. 또 다른 연구에 따르면, 치료법에 관한 연구에서 이해상충이 더욱 광범위하게 존재한다고 한다 [100]. 이해상충 선언에 관한 저널들의 규정이 강화되긴 하였지만, 이를 공개하지 않는 경우를 고려한다면, 이해상충을 공개하는 비율은 과소평가되어 있을 것으로 보인다 [101].

마찬가지로, 연구를 재현하거나, 연구 절차에 대한 표준을 세우는 것 역시 분야마다 상당히 차이가 있기 때문에, 관련된 지표가 보다 많은 전문 분야에서 연구 재현을 통상적으로 적용하기 위한 것이어야 한다. 일부 예외를 제외하고 연구의 재현성 검토 기준은 거의 존재하지 않으며, 따라서 어떤 개선이건 긍정적일 것이다. 정확한 현장 조사 및 이들 지표들의 재분석을 통해 생의학 연구의 설계, 수행 및 결과 분석이 시간이 지남에 따라 개선되는지 근거를 마련할 수 있을 것이다.



* ARRIVE (Animal Research: Reporting In Vivo Experiments) 가이드라인: 공개적으로 발표되는 정보의 양을 최대화하고, 불필요한 연구를 줄이기 위하여 동물 실험 결과 보고에 관한 가이드라인에 해당한다. PLoS Biology에 발표 된 논문에 기반을 두어 NC3Rs (the National Centre for the Replacement, Refinement and Reduction of Animals in Research) 센터 내 과학계와의 논의하에 개발되었다.


저자 역할 Contributors
논문 기획, 데이터 및 참고문헌 제공, 원고 작성, 초안 검토 및 수정, 최종 원고 승인 등 제반 논문 작성 과정에 모든 저자가 참여하였다. John P A Ioannidis가 논문 초안을 작성하였으며, 다른 모든 저자들이 이를 검토 및 수정하였다.

이해상충 Conflicts of interest
모든 저자가 이해상충이 없음을 밝혔다.

참고문헌 References

[1] Khoury MJ, Clauser SB, Freedman AN, Gillanders EM, Glasgow RE, Klein WM, Schully SD. Population sciences, translational research, and the opportunities and challenges for genomics to reduce the burden of cancer in the 21st century. Cancer Epidemiol Biomarkers Prev. 2011 Oct;20(10):2105-14. doi: 10.1158/1055-9965.EPI-11-0481. Epub 2011 Jul 27.


[2] Garcia-Berthou E, Alcaraz C. Incongruence between test statistics and P values in medical papers. BMC Med Res Methodol. 2004 May 28;4:13. 


[3] Prinz F, Schlange T, Asadullah K. Believe it or not: how much can we rely on published data on potential drug targets? Nat Rev Drug Discov. 2011 Aug 31;10(9):712. doi: 10.1038/nrd3439-c1.


[4] Begley CG, Ellis LM. Drug development: Raise standards for preclinical cancer research. Nature. 2012 Mar 28;483(7391):531-3. doi: 10.1038/483531a.


[5] Pereira TV, Ioannidis JP. Statistically significant meta-analyses of clinical trials have modest credibility and inflated effects. J Clin Epidemiol. 2011 Oct;64(10):1060-9. doi: 10.1016/j.jclinepi.2010.12.012. Epub 2011 Mar 31.


[6] Ioannidis JP, Panagiotou OA. Comparison of effect sizes associated with biomarkers reported in highly cited individual articles and in subsequent meta-analyses. JAMA. 2011 Jun 1;305(21):2200-10.
doi: 10.1001/jama.2011.713.


[7] Bracken MB. Why are so many epidemiology associations inflated or wrong? Does poorly conducted animal research suggest implausible hypotheses? Ann Epidemiol. 2009 Mar;19(3):220-4.
doi: 10.1016/j.annepidem.2008.11.006.


[8] Rothman KJ, Greenland S, Lash TL. Modern epidemiology, 3rd edn. Philadelphia, PA; Lippincott Williams & Wilkins. 2008:345-80.


[9] Greenland S. Multiple comparisons and association selection in general epidemiology. Int J Epidemiol. 2008 Jun;37(3):430-4. doi: 10.1093/ije/dyn064. Epub 2008 May 3.


[10] Ioannidis JP. Why most discovered true associations are inflated. Epidemiology. 2008 Sep;19(5):640-8. doi: 10.1097/EDE.0b013e31818131e7.


[11] Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, Manolio TA. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci U S A. 2009 Jun 9;106(23):9362-7. doi: 10.1073/pnas.0903103106. Epub 2009 May 27.


[12] Ioannidis JP. Expectations, validity, and reality in omics. J Clin Epidemiol. 2010 Sep;63(9):945-9. doi: 10.1016/j.jclinepi.2010.04.002. Epub 2010 Jun 22.


[13] Chavalarias D, Ioannidis JP. Science mapping analysis characterizes 235 biases in biomedical research. J Clin Epidemiol. 2010 Nov;63(11):1205-15. doi: 10.1016/j.jclinepi.2009.12.011. Epub 2010 Apr 18. 


[14] Senn S. Statistical Issues in Drug Development, 2nd edition. New York, NY; Wiley. 2008.  


[15] Savović J, Jones HE, Altman DG, Harris RJ, Juni P, Pildal J, Als-Nielsen B, Balk EM, Gluud C, Gluud LL, Ioannidis JP, Schulz KF, Beynon R, Welton NJ, Wood L, Moher D, Deeks JJ, Sterne JA. Influence of reported study design characteristics on intervention effect estimates from randomized, controlled trials. Ann Intern Med. 2012 Sep 18;157(6):429-38.