한수원블로그
삶에 활력(力)을 더하는 이야기
모바일메뉴 열기
검색창 닫기

늘어나는 데이터, DNA에 간편 저장

  • 2017.04.17.
  • 1002
  • 블로그지기
  • 페이스북
  • 트위터
  • 카카오
  • 인쇄

눈만 뜨면 하루가 멀다 하고 보이는 단어 중 하나는 ‘빅 데이터’이다. 사람들이 사용하는 데이터는 시간이 갈수록 더 많아진다.그렇다면 이 데이터를 어떻게 저장하지? 컴퓨터가 처음 나왔을 때 플로피디스크로 1.44Mb를 저장할 때만 해도 놀랐지만, 지금은 보통 유저들도 1테라바이트(TB)의 메모리를 사용할 정도로 변했다. .

그럼에도 불구하고 빅데이터와 인공지능의 활용으로 인간이 생산하고 사용할 데이터의 양은 더욱 늘어나면서, 더욱 강력한 데이터 저장장치가 필요하다.

DNA, 데이터, 데이터저장, 한국수력원자력, 한수원

DNA에 데이터를 저장하면 용량이 엄청나게 늘어난다. ⓒ Pixabay

과학자들은 차세대 메모리로 ‘DNA 데이터 저장장치’를 꼽는다. 아주 아주 작으면서도 엄청난 양의 데이터를 저장할 수 있다. 적절한 조건을 유지하면 백년 동안 안전하게 보관도 가능하다.

오래된 데이터 저장장치인 ‘종이’가 수 천 년의 역사를 가졌지만, DNA의 역사는 수 십 억년을 헤아린다. DNA야 말로 가장 오래된 데이터 저장장치라고 할 수 있다.

콜롬비아 대학 ‘DNA분수’ 알고리즘 도입

DNA 데이터 저장장치는 2012년 하바드 대학 연구팀이 처음 내놓았다. 하바드대학의 조지 처치(George Church)와 스리 코수리(Sri Kosuri)가 개발한 DNA 데이터 저장장치의 저장용량은 1그램당 1.28 페타바이트(petabytes)였다. 처치 연구팀은 5만2000단어의 책을 DNA에 저장했다.

그 후 몇 가지 버전이 나왔다. 올해 3월 초에도 콜롬비아대학(Columbia University)의 야니브 에를리치(Yaniv Erlich)와 뉴욕게놈센터(New York Genome Center)의 디나 지엘린스키(Dina Zielinski)가 더욱 늘어난 DNA 데이터 저장장치 개발소식을 과학저널 ‘사이언스’에 발표했다.

에를리치 연구팀은 ‘DNA분수’(Fountain)이라는 알고리즘을 사용해서 저장용량을 크게 늘렸다. 이 알고리즘은 데이터 손실없이 데이터를 저장하고 재생하는 것을 가능하게 한다.

에를리치가 개발한 장치는 DNA의 뉴클레오타이드 1개당 1.6비트의 데이터를 인코드 할 수 있다. 이것은 지금까지 어느 연구팀이 개발한 것 보다 60% 이상 좋은 성능이며, 이론적인 한계의 85%에 해당하는 것이다.

한국수력원자력, 한수원, 데이터저장, DNA

연구팀은 0과 1의 2진수 정보를 A G C T 뉴클레오타이드 염기 정보로 전환했다. ⓒ Pixabay

에를리치 연구팀은 파일을 압축해서 마스터 파일에 넣은 뒤, 이를 0과 1의 2진수 데이터로 변환했다. 연구원들은 이어 0과 1의 숫자들을 DNA의 핵산염기인 A, G, C, T로 번역했다.

이렇게 변환된 DNA 데이터는 샌프란시스코에 있는 트위스트 바이오사이언스 (Twist Bioscience)로 보내져 생물학적 데이터로 전환됐다. 수 주 일 뒤, 연구원들은 DNA분자가 들어있는 유리병 하나를 받았다. 연구원들은 DNA자료를 다시 번역한 뒤 1과 0의 이진수로 된 데이터로 전환하여 아무런 에러 없이 파일을 재생하는데 성공했다.

에를리치와 지엘린스키는 72,000개의 DNA가닥에 6개의 파일을 저장했다. 각 DNA가닥은 200개 염기로 구성됐다. 6개 파일은 컴퓨터 OS 한 개, 1895년 프랑스 영화 1편, 아마존 기프트 카드, 컴퓨터 바이러스, 정보통신연구의 선구자 인 클로드 섀넌(Claude Shannon)의 이론에 대한 정보, 그리고 파이어니어 금속판(Pioneer plaque) 등이다.

파이어니어 금속판은 1972년과 1973년에 발사된 우주 탐사선 파이어니어 10호·11호에 장착된 금속판으로, 인류가 외계인에게 보내는 메시지를 그림으로 그려넣은 금속판이다. 금속판에는 인간 남녀의 모습과 함께, 탐사기의 고향인 지구에 관한 정보를 나타내는 기호가 그려져 있다.

에를리치는 이들 6개 파일을 DNA 데이터로 변환했다. 그런 뒤 이 데이터를 시험관 안의 분자에 저장했다고 말했다. 여기에서 중요한 것은 정보를 효과적으로 포장하기 위해 DNA분수(Fountain)를 고안했는데 이것은 코딩이론에서 수학적 개념을 사용한 것이다.

DNA분수 덕분에 연구팀은 가장 적절한 패킹이 가능했다. 에를리치는 “이것이 우리 연구에서 가장 돋보이는 내용”이라고 말했다.

DNA 분수를 이용하면, DNA 1그램에 215페타바이트(petabytes)의 데이터를 저장할 수 있다. 이는 2억1500만 기가바이트(GB)에 해당하는 어마어마한 용량이다. 과학자들은 단지 4그램의 DNA만 있으면 현재 지구상의 모든 사람이 1년 동안 생산하는 데이터를 저장할 수 있다는 추정치도 내놓았다.

경제성 확보하면, 빠르면 10년 뒤 상용화

그러나 아직 경제성에서는 넘어야 할 장애가 적지 않다. 데이터를 저장할 DNA 장치를 대규모로 만들기에는 아직도 너무 비싸다. 현재 2메가바이트짜리 저장장치를 만드는 데는 약7000달러가 들어간다.

DNA, 데이터저장, 한국수력원자력, 한수원

DNA 데이터 저장장치는 10년 뒤 상용화될 전망이다. ⓒ Pixabay

저장과 복원이 가능하다는 점이 입증됐지만, 이제 남은 것은 과연 언제쯤 상용화되어서 우리 손에 들어올 것이냐 하는 점이다. 에를리치는 낙과적이다. 10여 년 정도면 상용화될 것으로 예상했으니, 생각보다 매우 빠른 속도이다.

DNA저장장치의 개발과 이용은 자연스럽게 생물 컴퓨터의 개발을 촉진할 것으로 전망된다.

출처

1

블로그지기
블로그지기
삶에 활력(力)을 더하는 이야기
목록