top of page
33.jpg
55.jpg

KAIST부설 한국과학영재학교 온라인 과학매거진 코스모스

  • 블랙 페이스 북 아이콘
  • 블랙 인스 타 그램 아이콘

DNA digital data storage 기술, 미래를 넘보다

데이터 홍수 시대, 새로운 저장 방식이 필요하다

친구에게 왔던 카카오톡 메신저를 확인하고 답장을 보낸다. 부모님이나 친구들에게 전화가 걸려와 이야기를 나눈다. 구글에 검색을 한 뒤, 유튜브에 들어가 원하는 영상을 보고, 인스타에서 스토리와 게시물을 업로드한다. 이처럼 우리는 매일매일 디지털 매체를 사용하며 데이터를 생성해낸다. 미국 시장조사기관 IDC에 따르면 2020년 전 세계 디지털 정보량은 90 제타바이트(ZB)에 달한다. 또한 Visual Capitalist에 따르면 2020년 인터넷에서 1분동안 평균적으로 유튜브 영상 500시간 분량, 인스타 스토리 347222건, Teams에 연결된 이용자 수 52083명, Zoom 미팅 참가자 20만 8333명 등 다양한 종류의 데이터들이 엄청난 양으로 쏟아졌다고 한다.


1분간 생성되는 정보의 종류와 그 양

이러한 정보들은 대부분 데이터 센터에 저장되고 있다. 그러나 데이터 센터의 전력 문제는 현재도 심한 수준이며, 앞으로 정보 증가 량이 더 증가한다면 미래에는 훨씬 심각한 문제로 심화할 것이다. 현재 데이터 센터에서 사용하고 있는 에너지 소비량은 300 TWh 정도로 전 세계 전력 사용량의 약 1%에 달하며, 2030년까지 2967 TWh로 증가할 것으로 예상된다. 이 뿐만 아니라 데이터 센터는 많은 양의 전기를 사용하기 때문에 그 때문에 발생하는 열을 잘 빼내는 것이 중요한데 더 많은 전기를 사용하게 되면 화재 사고가 증가할 것이고, 얼마전 발생하였던 데이터 센터 화재로 인해 카카오톡 먹통 사태처럼 우리 생활에 지장을 주는 사건들이 수시로 발생할 것이다.


DNA, 새로운 정보 저장 매체로 떠오르다

사실 우리가 데이터 센터에 저장하는 대부분의 정보는 우리가 다시 사용하지 않을 필요 없는 정보들이다. 그러나 언젠가 이 정보가 꼭 필요해질 때 다시 꺼내서 사용할 수 있기에 많은 돈을 들여가며 데이터 센터에 정보를 저장하는 것이다. 하지만 데이터 센터보다 더 안전하고 오랫동안 정보를 저장할 수 있는 방법을 찾는다면 어떨까?


방대한 양의 디지털 정보의 생산과 그로 인한 데이터 센터의 문제점을 해결하기 위한 대안 중 하나가 바로 DNA에 정보를 저장하는 DNA digital data storage 기술이다. DNA는 생물학에서 유전 정보를 인코딩할 때 사용하는 핵산으로 이루어진 유기 분자를 말한다. DNA는 1 g당 약 455 EB(엑사바이트) 를 저장할 수 있는 고밀도의 저장 용량을 가지고 있으며, 반감기가 약 521년이 넘어 장기적인 안정성이 보장되고, DNA에 대한 관심 확대와 지속적인 연구로 기술 진부화 위험이 낮기 때문에 차세대 데이터 미디어로 각광받고 있다.

DNA digital data storage 기술은 1988년에 처음 제안되었으며 Joe Davis와 하버드 연구원들이 5 x 7 크기의 그림을 인코딩하였다.


Joe Davis가 최초로 합성한 DNA sequence로 이루어진 이미지. 생명과 여성 지구를 나타내는 고대 게르만 룬의 그림을 인코딩했다고 한다.

현재는 이 기술이 점점 더 발전을 거듭하면서 2011년 책 인코딩에 성공하였고, 2012년 JPG 파일과 JavaScript 프로그램의 인코딩에 성공하였으며, 2016년 영화 인코딩 성공, 2019년 4월 음악을 인코딩하여 앨범 발매, 같은 해 6월 위키백과를 인코딩하여 방대한 인터넷 데이터베이스를 기록 및 보관하는 수준까지 성장하였다.


어떻게 DNA에 정보를 저장할까?

DNA에 정보를 저장하는 과정은 생각보다 복잡하지 않다. 먼저, 인코딩하고 싶은 정보를 선정한다. 해당 정보를 이진법인 코드로 바꾸고, 이진법 코드를 DNA에 사용되는 염기인 A, C, G, T에 각각 대응시킨다. 예를 들어, A=00, C=01, G=10, T=11 이런 방식으로 모든 이진법 코드를 염기서열 코드로 바꾸게 된다. 이후 DNA에 해당 염기 서열을 순서대로 합성한 뒤, 실험관 내 혹은 생명체의 몸 내부에 저장하면 된다. 그렇다면 디코딩(정보를 읽는 행위)은 어떻게 할 수 있을까? 이것도 간단하게 수행 가능하다. 우리가 원하는 정보가 담긴 DNA를 일루미나 시퀀싱(Illumina sequencing) 혹은 나노폴 시퀀싱(nanopore sequencing) 등의 시퀸싱 방식으로 읽어주면 된다. 만약 합성이나 시퀀싱 과정에서 오류가 발생하였다면 처음 인코딩하는 정보의 코드에 만들어 두었던 오류 수정 서열을 사용하여 해당 오류를 보정해주면 된다. 일루미나 시퀀싱은 1% 미만의 오류, 나노폴 시퀀싱은 1% 이상의 오류를 만들기 때문에 각 시퀀싱 방법에 맞는 오류 수정 코드를 넣으면 우리가 원하는 정보를 거의 완벽하게 복원해 낼 수 있다.


DNA digital data storage 기술의 수행 방법

이처럼 DNA digital data storage 기술은 우리가 원하는 영상, 그림, 텍스트 정보 등을 오류 수정 코드와 함께 이진 코드(binary code)로 변환해주고, DNA 염기로 이루어진 생물학적 서열로 변화시켜준 뒤, 이 정보를 읽고 싶을 때 생물학적 서열인 DNA 염기를 다시 이진 코드로 바꿔준다는 간단한 원리를 가지고 있다.


DNA digital data storage 기술의 현주소

최근에는 사물의 3D 프린터 설계도를 직접 인코딩하는 DoT(DNA of Things)라는 새로운 개념이 등장하였다. 2019년 발표된 ‘A DNA-of-things storage architecture to create materials with embedded memory’ 라는 논문에는 3D 프린터의 필라멘트에 설계도가 인코딩 된 DNA를 주입한 뒤 해당 필라멘트를 사용하여 설계도에 따라 토끼를 프린팅 하였다. 그 후 토끼의 귀 부분을 작게 잘라내어 DNA 정보를 읽고, 이 설계도 정보를 토대로 새로운 토끼를 인쇄하여 마치 토끼가 번식한 것과 같이 DNA를 물려주면서 다음 세대의 토끼를 만들어냈다.


DoT를 사용하여 토끼를 프린팅하는 방법

이 논문은 단순히 DNA digital data storage의 사용법을 바꾼 것이 아닌, 이 기술을 새로운 분야로 더 나아갈 수 있도록 확장성을 제공해준 논문이다. DoT를 사용한다면 우리가 평소에 사용하는 여러가지 물품들에 해당 물품의 설계도를 넣을 수 있으며, 그것이 파괴되거나 한 개의 해당 물품을 더 만들고 싶을 때 매우 유용하게 사용될 수 있다.


DNA digital data storage 기술, 보완점은 무엇일까?

하지만 이렇게 완벽해 보이는 DNA digital data storage 기술도 당연히 보완해 나가야 할 부분들이 있고 그 때문에 아직 실용화를 하지 못하고 있다. 첫번째로, DNA 합성을 위해 높은 비용이 필요하다. 보통 DNA 합성 회사들의 홈페이지에서 합성 비용을 찾아보면 1 bp(base pair)당 300원 정도로 매우 비싸다. 이 가격으로 짧은 영어 시 1편을 인코딩하는 데도 20만원이 넘는 가격을 지불해야 한다. 하지만 비용 부분도 점점 개선이 될 것으로 생각된다. 과학자들은 DNA fountain 기술을 개발하여 더 많은 정보를 같은 양의 DNA 서열에 저장할 수 있도록 향상시켰으며, Inkjet printing 기술을 개발하여 DNA 합성 비용을 이전보다 훨씬 감소시켰고, DNA 합성 비용은 매년 감소하고 있다. 마이크로소프트에 따르면 이 기술을 상용화 시키기 위해서는 DNA 저장을 위해 필요한 가격이 1/10000 이상으로 떨어져야 한다고 한다.


두번째로, 데이터를 DNA에 쓰고 읽는 시간이 너무 느리다. 현재 DNA에 정보를 기록하는 시간은 초당 400 Byte 정도 소요된다. 마이크로소프트는 이것을 초당 100 MB까지 향상시킨다면 상용화가 가능할 것으로 보고 있다. DNA를 읽는 속도는 이보다는 상황이 좋다. 고속 시퀸싱 기계를 사용한다면 빠르게 DNA를 읽을 수 있으며, 현재보다 DNA 리딩 속도를 2배 향상시키면 충분히 기술을 상용화 시킬 수 있다.


DNA digital data storage 기술, 미래를 넘보다

우리는 지금 디지털 홍수라는 어쩌면 재앙이 될 지도 모르는 사태와 함께 동시대를 살아가고 있다. 앞으로 몇 년 후면 데이터 센터의 전력량이 가파르게 증가하고, 사용하는 전력량이 늘어나자 데이터 센터의 화재도 증가하여 일상생활이 수시로 중단되고 전기가 부족해지는 사태가 올 지도 모른다. 그런 상황에서 DNA는 이 상황을 해결하기 위한 너무나도 매력적인 물질이다. 많은 양의 데이터를 적은 부피에 그것도 오랫동안 저장할 수 있고, 정보를 인코딩한 DNA를 우리 몸이나 물체에 저장하는 방식으로 기술의 범위를 더 확장해 나갈 수 있다는 점에서 매우 혁신적이라고 볼 수 있다. 우리의 DNA에 대한 관심이 끊기지 않고, DNA digital data storage라는 기술에 대해서도 많은 연구가 계속해서 진행된다면 언젠가 우리는 DNA를 사용하여 파일을 다운받고 정보를 저장하는 시대가 올 지도 모른다. 이 기술이 상용화되는 것이 기대되지 않는가? 개인적으로는 그런 날이 오는 것이 정말로 기다려진다.



 

이진율 학생기자 | Biology | 지식더하기


참고자료

[1] Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-Generation Digital Information Storage in DNA. Science, 337(6102), 1628–1628.

[2] Koch, J., Gantenbein, S., Masania, K., Stark, W. J., Erlich, Y., & Grass, R. N. (2019). A DNA-of-things storage architecture to create materials with embedded memory. Nature Biotechnology, 38(1), 39–43.

[3] Yim, S. S., McBee, R. M., Song, A. M., Huang, Y., Sheth, R. U., & Wang, H. H. (2021). Robust direct digital-to-biological data storage in living cells. Nature Chemical Biology, 17, 246–253.

[4] Ceze, L., Nivala, J., & Strauss, K. (2019). Molecular digital data storage using DNA. Nature Reviews Genetics.

[5] 융합연구정책센터 - https://crpc.kist.re.kr/

[6] 위키백과 – https://en.wikipedia.org/

[7] Visual Capitalist

[8] IDC

[9] 마이크로소프트


첨부 이미지 출처

[1] Visual Capitalist

[2] http://thatslifesci.com/2017-01-16-DNA-Natures-Hard-Drive-ALoder/

[3] Ceze, L., Nivala, J., & Strauss, K. (2019). Molecular digital data storage using DNA. Nature Reviews Genetics.

[4] Koch, J., Gantenbein, S., Masania, K., Stark, W. J., Erlich, Y., & Grass, R. N. (2019). A DNA-of-things storage architecture to create materials with embedded memory. Nature Biotechnology, 38(1), 39–43.


ⓒ KAIST부설 한국과학영재학교 온라인 과학매거진 KOSMOS

조회수 117회댓글 2개

최근 게시물

전체 보기
bottom of page