[KOSEN 동향] 매우 적은 데이터로 이미지를 분석하는 알고리즘

매우 적은 데이터로 이미지를 분석하는 알고리즘

'Minimalist machine learning' algorithms analyze images from very little data


미국 에너지부 산하 로렌스 버클리 국립연구소의 수학자들이 실험적인 이미지 데이터를 대상으로 새로운 머신러닝 접근법을 개발하고 있다. 수만에서 수십만 개의 이미지를 이용하는 기존 방법 대신 이 접근은 훨씬 더 적은 수의 이미지로 훨씬 더 빠르게 학습할 수 있다.


버클리 연구소의 에너지 연구 응용을 위한 고급 수학 센터(CAMERA)의 대니얼 펠트(Daniël Pelt)와 제임스 세시언(James Sethian)은 혼합 스케일 밀도 컨볼루션 신경망(Mixed-Scale Dense Convolution Neural Network, MS-D CNN)을 고안했는데 기존 방법보다 훨씬 적은 매개변수를 요구하고 더 빨리 수렴하며, 놀랍도록 적은 학습 데이터만 필요로 한다. 이미 세포 이미지에서 생물학적 구조를 추출하는 데 사용하고 있는 이 방법은 광범위한 연구 분야에서 데이터를 분석하는 데 필요한 새로운 계산 도구를 공급할 것으로 보인다.


실험실에서 더 고해상도의 이미지를 빠르게 얻을 수 있게 되면서 과학자들은 그 데이터를 관리하고 분석하는 데 어려움을 겪고 있으며 종종 성가신 수작업으로 진행되고 있다. 2014년 세시언은 CAMERA를 설립하여 에너지부 과학국 산하 연구소에서 얻은 성과를 자산화하는데 필요한 새로운 수학을 개발하고 연구하는 교차 학문 기반을 만들었다. CAMERA는 이 연구소의 계산 연구부 소속이다.


버클리 대학의 수학 교수이기도 한 세시언은 많은 과학 응용 분야에서는 이미지에 주석을 달고 태그를 지정하는데 엄청난 수작업이 필요하며 자세하게 묘사한 이미지를 몇 장 생성하는데 몇 주가 걸릴 수도 있기 때문에 매우 작은 데이터만으로도 학습할 수 있는 기술을 개발하는 것을 목표로 했다고 말했다. 알고리즘의 세부 사항은 2017년 12월 26일, 국립 과학원 회보지에 발표되었다.


획기적인 결과를 얻게 된 것은 다양한 이미지에서 특징(features)을 추출하기 위한 축소 및 확대 작업이 단일 레이어에서 여러 스케일을 처리하는 수학적 컨볼루션으로 대체 가능한 것을 깨달았기 때문이라고 네덜란드 수학 및 컴퓨터 과학 연구소(Centrum Wiskunde & Informatica)의 계산 이미징 그룹의 펠트가 말했다.


이 알고리즘을 더 보급하기 위해 버클리 연구소는 세그멘팅 레이블드 이미지 데이터 엔진(SlideCAM)이라는 웹 포털을 구축했다. 이 방법을 세포 내부 구조를 이해하는 유망한 접근법에 적용한 결과, 세포 구조를 판단하는데 7장의 세포 이미지만 있으면 충분한 것으로 나타났다.


현재 이미지는 모든 곳에 존재한다. 스마트폰과 센서는 막대한 사진을 생산했고 많은 사람이 사진을 식별하기 위한 관련 정보를 태그했다. 이 막대한 교차 참조된 이미지와 컨볼루션 신경망 및 기타 머신러닝을 적용하여 사진을 분류하는 능력에 혁명적인 변화가 일어나고 있다.


이 방법은 숨겨져 있는 내부 매개변수를 튜닝하고 수백만 장의 태그된 이미지의 안내를 받아 막대한 슈퍼컴퓨팅을 통해 일어난다. 하지만 이렇게 많은 이미지가 없다면 어떻게 할까? 많은 분야에서 이처럼 막대한 양의 데이터는 달성할 수 없는 사치가 되고 있다.


생물학자들은 세포 구조와 경계를 표시하기 위해 고된 수작업을 수행한다. 하나의 3차원 이미지를 완전히 분석하는데 몇 주가 걸리는 것은 드문 일이 아니다. 재료과학자들도 단층촬영 재구성법을 이용하여 암석과 재료를 분류하고 공극, 균열을 수작업으로 표시한다. 많은 경우 매우 작고 데이터에 노이즈가 포함된 이런 데이터를 분석하는 것은 최고의 알고리즘은 물론 사람에게도 혼란스러운 일이다.


이처럼 손으로 정교하게 표시한 이미지는 기존 머신러닝 방법을 이용하기 위한 규모로는 어디에서도 찾을 수 없다. 이 문제를 해결하기 위해 CAMERA의 수학자들이 매우 작은 양의 데이터를 통한 학습법을 개발한 것이다. 더 적은 것으로 더 많은 것을 성취하기 위해 매개변수의 수를 크게 줄일 수 있는 효과적인 수학 연산자를 파악했다. 이 수학 연산자는 자연적으로 식별에 도움을 주는 핵심 제약조건과 통합된 것으로 과학적으로 그럴듯한 모양과 패턴에 관한 요구사항을 포함하고 있다.


이미징 문제의 학습에 사용되는 머신러닝의 많은 경우 심층 컨볼루션 신경망(DCNN)을 사용하는데, 입력 이미지와 중간 이미지가 많은 수의 연속적인 층에서 말려있는 형태로 구성되어 신경망이 매우 비선형적인 특징을 배울 방법을 제공한다. 이미지 프로세싱 문제의 어려움을 해결하고 정확한 결과를 얻기 위해 전형적인 DCNN은 추가 연산 및 연결의 조합을 이용하는데 예를 들면, 확대 축소 연산을 통해 여러 이미지 스케일에서 특징을 찾아내는 것을 들 수 있다. 더 심층적이고 강력한 네트워크를 학습하기 위해서는 추가 레이어 유형 및 연결이 필요한 경우가 많다. 이처럼 어려운 문제를 해결하기 위해 DCNN은 1억 개 이상의 중간 이미지와 학습할 수 있는 매개변수를 사용하기도 한다.


그 대신 새로운 MS-D 네트워크 아키텍처는 이처럼 많은 복잡한 문제를 피하고 단일 레이어에 여러 스케일을 포함하고 모든 중간 이미지를 고밀도로 연결한다. 이 새로운 알고리즘은 더 적은 이미지와 매개변수로 정확한 결과를 얻을 수 있고 하이퍼 매개변수 튜닝이나 레이어나 연결 추가를 하지 않아도 되는 것이다.


관련연구자: Daniel Pelt, James Sethian

관련기관: Berkeley Lab's Center for Advanced Mathematics for Energy Research Applications (CAMERA)

본문키워드(한글): 머신러닝, 학습, 컨볼루션신경망, 데이터

본문키워드(영문): machine learning, training, Convolution Neural Networks, CNN, data

국가: 미국

원문출판일: 2018-02-21

출처: https://www.sciencedaily.com/releases/2018/02/180221122909.htm