한국과학영재학교 학생이라면 1학년 때 모두 염기서열 분석 방법에 대해 배운다. 현재 18학번의 경우 기말고사 시험문제에 출제되기도 했다. 1학년 책에는 우리가 전통적으로 사용하고 있는 염기서열 분석법에 대해 소개하고 있다. 그런데, 일반생물학을 수강하는 일부 학생들의 경우 교과서 19단원을 보면 새로운 염기서열 분석법이 하나 소개되어 있는 것을 알 수 있을 것이다. 바로 차세대 염기서열 분석법이다. 항상 책에서 차세대~, 신기술~ 하면 실제로 그것이 사용되고 있는지 많은 의문이 든다. 오늘 내가 소개할 차세대 염기서열 분석법은, 현재 실제로 사용되고 있는 신기술이다.
기존의 염기서열 분석 방식, 생어의 염기서열 분석법
기존의 염기서열 분석법을 보통 생어의 염기서열 분석법이라고 한다. 이 방법은 프레드릭 생어가 1977년 개발하여, 25년 이상 가장 널리 쓰인 염기서열 분석법이다.

위의 그림에 생어 염기서열 분석법의 대략적인 개요가 나타나 있다.
긴 DNA 이중가닥을 단일가닥으로 분리하고, Primer를 부착한 뒤, 약간의 ddNTP를 첨가하여 DNA 중합효소를 통해 DNA를 합성한다. 디데옥시뉴클레오타이드(ddNTP)란, 기존의 뉴클레오타이드에서 3번 탄소의 하이드록시기가 없어진 것이다. DNA가 중합될 때 3번 탄소의 하이드록시기와 인산기가 탈수축합 하는데, 디데옥시뉴클레오타이드(ddNTP)의 경우 탈수축합이 불가능해서 DNA 중합반응이 멈추고, DNA 서열이 끝날 것이다. 위에서 말했듯이 DNA 단일가닥과 약간의 ddNTP를 첨가하여 합성하면, ddNTP가 사용되어 합성되는 순간은 무작위로 결정될 것이고, 위의 그림에서 나타났듯이 염기 1칸 차이로 모든 길이의 DNA가 합성될 것이다.
이제 우리는 모든 염기서열의 끝부분에 ddNTP가 달린 DNA를 얻었음으로, 각각의 DNA에서 가장 끝에 달린 ddNTP가 무엇인지 알아내면 그 서열을 알 수 있다. 앞서 설명하지 않은 부분이 있는데 이렇게 서열을 알기 위해서는 ddNTP 분자에 처음부터 형광을 띄는 작용기를 4종류 (A,T,G,C)에 각각 부착시킨다. 이제 끝에 달린 형광 물질이 무엇인지 검출하기만 하면 된다.
생어의 염기서열 분석법 이전에는 DNA를 길이 별로 정렬하는 것을 ‘수동’으로 진행했다. 그렇지만 생어는 이것을 전기영동을 활용함으로써, 자동으로 배열되도록 했다. 전기영동에 아까의 DNA 분자들을 넣으면, 길이 순서대로 내려가게 되고 이것을 감지기가 감지하면서 염기서열을 읽어나가는 것이다.
이렇게 자동화를 통해 당시에는 혁신적으로 시간을 단축시킬 수 있었다. 그래서 이 방법은 인류 역사상 가장 큰 프로젝트 중 하나인 인간게놈프로젝트에 사용된 방법이다. 그런데, 이 생어의 방법의 한계점은 이 인간게놈프로젝트를 통해 나타나게 된다. 염기서열 분석법으로는 인간의 게놈과 같이 대량의 DNA를 분석하기에는 부족하다는 것이다.
차세대 염기서열 분석법, NGS의 발명

위에서 언급한 ‘대량의 DNA 분석’을 위해 만들어진 것이 차세대 염기서열 분석법; NGS(Next Generation Sequencing)인 것이다. 보통 1000 염기 정도를 한번에 분석할 수 있는 생어의 염기서열 분석법과는 달리, NGS를 이용하면 100만에서 10억 염기까지 한번에 분석할 수 있다.
NGS도 여러가지가 있는데, 여러 방법들 모두에게서 공통적으로 나타나는 특징이 있다. 첫째로는 DNA 증폭이 필요하다는 점이다. DNA를 조각내고, 각 조각들을 증폭하여 양을 늘린다. 주번째는, 증폭된 DNA를 어떤 곳에 ‘부착’한다는 점이다. 이 ‘부착’을 위해서, 증폭된 각 조각들은 특별히 만들어진 부착 서열과 결합하게 된다. 이렇게 부착을 통한 분석 방법의 큰 장점은 바로 방향성을 조절할 수 있다는 것이다. 그래서 3’에서 5’ 방향과 5’에서 3’ 방향을 조절하여 양 방향의 DNA를 모두 읽어낼 수 있다.
이런 공통점이 있는 NGS는 구체적인 방법에 따라서 크게 3가지로 구분할 수 있다.
[Pyrosequencing]
먼저, 가장 널리 쓰이는 일반생물학 교재인 캠벨에 소개된 방법은 Pyrosequencing이다. Pyrosequencing은 DNA 단일가닥을 비드(bead)에 부착하고, DNA 중합효소를 통해 반대쪽 가닥을 합성하면서 염기서열을 읽어나간다. Pyrosequencing은 그 이름에서 Pyro에서 알 수 있듯이, 중합 시 발생하는 피로인산을 통해 알 수 있다. 먼저, dATP를 넣는다. 이때 만약 중합 되어야 할 염기가 아데닌이라면, 피로인산이 나오면서 DNA가 신장될 것이다. 이때 발생한 피로인산은 일련의 화학반응을 거치게 되어 빛을 내고, 이 빛을 감지하여 염기서열을 읽는다. 만약 이때 빛이 나오지 않았다면 아데닌이 아니라는 것이고, 반응물을 씻어내고 구아닌, 티민, 사이토신에 대해서 같은 일을 반복하여서 빛이 언제 발생하는지 알면 어떤 염기인지 알 수 있을 것이다. 이런 Pyrosequencing의 장점으로는 한번에 긴 서열을 읽을 수 있다는 점이다. 그러나 단점은 반응물에 들어가는 비용이 크다는 것과 두번째는 같은 염기가 6개 이상 반복될 경우 오차가 크게 발생한다는 점이다.
[Sequencing by synthesis]
두 번째는, Sequencing by synthesis이다. 이것은 말 그대로 DNA 중합반응을 이용한 염기서열 분석이다. 이 분석법은 어떤 면에서 생어의 분석법과 상당히 유사하다. 이 분석법에서는 조금 변형된 뉴클레오타이드를 사용하는데, 이 뉴클레오타이드는 DNA 분자에 연결될 때 형광이 발생하며, Teminator cap이라는 부위가 있어서 DNA가 더 이상 연장되지 못하도록 막는다. 이것은 ddNTP와 유사한 특징을 가진다. 하지만 여기서 다른 점은 ddNTP는 절대 연장되지 못하지만, Terminator cap의 경우 효소를 통해 잘라낼 수 있기 때문에 원하는 순간에 다시 DNA 연장을 재개할 수 있다. 이 분석법은 이렇게 변형된 뉴클레오타이드의 특성을 활용하여 염기서열을 알아낸다. 네 종류의 뉴클레오타이드(A, T, G, C)는 각각 다른 형광을 띄고, 그러므로 한 염기가 결합했을 때 발생하는 형광의 종류를 분석하면 어떤 염기가 그 위치에 들어가는지 알 수 있다. 그 뒤, Teminator cap을 잘라내고 다음 염기를 중합하게 되면, 형광이 또 발생하고 이를 통해 그 다음 염기의 종류를 알아내고, 이 과정을 계속 반복하여 염기서열을 쭉 읽어낼 수 있다. 이 방식의 장점은 위의 Pyrosequencing에서 동일한 염기만 반복되는 경우 오차가 커지는 문제를 해결할 수 있다는 것이다. 그러나 이 방식은 긴 염기서열을 읽을수록 오차가 커지는 문제가 있다.
[Seqeuncing by ligation]
세 번째는, Sequencing by ligation은 앞에서와 조금 다른 방식을 사용한다. 앞에서는 뉴클레오타이드를 DNA 중합효소를 이용하여 단일 가닥에서 이중 가닥으로 합성하는 과정을 사용하는데, 이 방법의 경우 인위적으로 설계된 작은 DNA 조각을 DNA ligase로 연결하는 방식이다. 이 방법의 경우 굉장히 짧은 서열 밖에 읽지 못한다는 단점이 있다.
각각의 장단점이 있는 세가지 방법은 상황과 목적에 따라 다르게 쓰인다. 셋 중에 가장 널리 쓰이는 것은 두번째 방법인 Sequencing by synthesis이나, 읽어야하는 샘플의 크기에 따라 사용하는 방법은 달라진다.
차세대 염기서열 분석법의 의의
사실 차세대 염기서열 분석법이 아직까지는 정확도 측면 등에서 생어의 방법보다 부족하다. 그럼에도 불구하고 NGS를 사용하는 이유는 앞서 언급했듯이 ‘대량의 DNA’를 읽기 위함이다. 물론 생어의 방법으로도 읽을 수는 있다. 그러나 인간게놈프로젝트가 13년에 걸쳐 무려 30조원의 비용이 든 것을 생각하면, 비용과 시간적 측면에서 많은 양의 DNA 분석에 생어의 방법을 사용하기 어렵다는 결론이 나온다. 반면 NGS는 방법마다 조금의 차이는 있지만 비용이 100만원대로 극적으로 줄어들었다. 그만큼 NGS는 대량의 DNA분석에 반드시 필요한 도구가 된 것이다.
심지어 이제는 NGS를 넘어선 3세대 염기서열 분석법 또한 개발되고 있다. 이 3세대 염기서열 분석법은 DNA 증폭 과정을 생략하고 분석할 수 있도록 하는 기술로, 점점 상용화 단계에 접어들고 있다고 한다.
NGS가 가지는 가능성은 무한하다. DNA 분석을 응용하여 RNA 분석 등 다양한 범위에서 응용되고 있다. 그리고 무엇보다도 위에서 말한 듯이 대량의 DNA 분석 비용을 극적으로 줄였기 때문에, 이제는 개인이 각자 자신의 DNA를 분석할 수 있을 정도의 비용이 되었다. 물론 아직은 조금 비싸지만, 앞으로 좀 더 비용이 내려가게 되면 DNA 분석이 보편화될 날이 올지도 모르겠다.
바라던 바이오 2019 여름호
작성자: 18-018 김보현
분야: 유전공학
참고문헌:
[1] Next Generation Sequencing(NGS) An Introduction https://www.abmgood.com/marketing/knowledge_base/next_generation_sequencing_introduction.php#SBDNT
[2] DNA 염기서열 자동 분석법 _ 네이버 지식백과
https://terms.naver.com/entry.nhn?docId=799198&cid=43121&categoryId=43121
이미지: (-> Bold 꼭꼭!)
[1] Sanger Sequencing
https://www.abmgood.com/marketing/knowledge_base/next_generation_sequencing_introduction.php#SBDNT
[2] Next Generation Sequencing
https://www.abmgood.com/marketing/knowledge_base/next_generation_sequencing_introduction.php#SBDNT
ⓒ KOSMOS Biology