33.jpg
55.jpg

KAIST부설 한국과학영재학교 온라인 과학매거진 코스모스

  • 블랙 페이스 북 아이콘
  • 블랙 인스 타 그램 아이콘

생물의 족보 : 햅맵 프로젝트, 이브를 논하다

Introduction : 자네는 본관이 어디인가?

기자가 어릴 때, 기자는 할아버지를 따라 할아버지의 오랜 친구분들을 뵙고는 했다. 용돈도 주시고, 맛있는 음식도 먹을 수 있어 매번 반갑기는 했으나, 매번 기자를 괴롭혔던 딱 하나의 문제가 있었다. 할아버지를 옆에 둔 기자에게 매번 나이 지긋하신 백발의 노인 분께서 이렇게 물으시는 것이었다.


“그래. 이름이 이준하라고? 그렇다면 자네, 본관은 어딘가? 껄껄껄.


굉장히 인자하신 어조로 말씀하신 것임에도 불구하고 어린 시절의 기자는 매번 이 질문을 두려워했다. 기자가 띄엄띄엄 답을 한다.


“엄, 그 저는 광주 이씨…”


어렸던 기자에게 복잡한 한자어와 헷갈리는 숫자로 구성된 본관을 기억하기란 가히 불가해에 가까웠고, 이를 보시는 할아버지께서는 매번 조금 안타깝다는 목소리로 말씀하셨다.


“에잉, 쯧. 이씨 집안의 00대 장손이 집안의 뿌리마저 기억 못한다니… 족보 없는 집안도 아니고 말이야.”


족보는 해당 집안의 시조와 계통을 알 수 있는 문헌자료로, 각 가문에서 자체적으로 발간하기도 하고 국가에서 호구조사 등을 위하여 제작하기도 하였다.

어른 시절의 이런 기억은 기자에게 큰 영향을 주었다. 지금에 이르러, 본관은 자다가 누가 깨운 뒤, 물어봐도 술술 나올 지경에 이르기까지 했으니 말이다. 족보에 대한 트라우마라고 할 수도 있을 기억이다. 물론 할아버지의 말씀이 이해가 가지 않는다는 것은 아니다. 족보란 오랜 세월에 거쳐 한 시조로부터 내려오는 무수히 많은 사람들에 대한 기억과 연관이기에, 자신의 뿌리를 가르쳐주는 간접적인 수단이기에 분명 중요한 것은 사실이다.


그리고, 생물학에는 더욱 많은 족보가 존재한다. 바로, DNA이다. 족보가 한 세대, 한 세대 걸쳐 내려온 것과 마찬가지로, DNA 역시 무수히 많은 세대를 거쳐 지금의 우리에게로 도달했을 것이다. DNA의 정보는 단지 족보가 존재하던 시기로 한정되지도 않는다. 역사시대의 아주 오랜 날은 물론, 문자가 존재치도 않던 선사시대, Homo sapiens라 불리는 종으로 분화되기 전 Australopithecus afarensis의 시대까지 더욱더 많은 정보를 포함하고 있다. 그렇기에, 자연의 족보 DNA를 인간의 잣대로 해석한 분석한의 계통수라는 족보는 현존하는 종만큼, 존재했던 종만큼 엄청난 양의 정보를 가지고 있다. 이 정보를 따라가며 만나는 무수히 다양한 생명체 하나하나가 지금 이 글을 읽는 독자의 조상이자 친척이 될 수 있다. 이 가지를 지나치며 알게 되는 여러 유전 정보가 해답을 알기 힘들었던 어떤 유전병의 기적적인 돌파구가 될 수 있다.


그래서 우리는 분류학을 알아야 할 필요가 있다. 아직도 현대 사회에서 본관이 종종 중요해지는 순간이 오듯, 생물학에서 계통수가 너무나도 중요하기에. 이제부터 가장 오래된 족보, DNA를 파헤쳐보자.



그것이 알고 싶다 : 아담이 아빠야, 단군이 아빠야?

족보가 인간 사회에서 친족과 혈족의 계통도를 기록 및 편찬하던 오랜 문헌이라고 한다면, 가계도는 이를 현대적으로 재표현한 것이라고 이야기할 수 있다. 특히 생물학에서의 가계도는 실제 유전적 형질 등을 분석하고, 가족 및 혈족 간의 관계 등등을 가장 효과적으로 표현할 하나의 다이어그램으로, 더욱 깊은 족보 연구를 가능하게 한다. 그러나, 이 가계도를 족보로부터 만드는 것은 굉장히 어렵다. 이에 대한 이유는 크게 3가지로 나눠질 수 있다.


안동권씨 성화보는 한반도에 현존하는 가장 오래된 족보이다.

우선, 전세계 어떤 사회를 가건 조상을 기억하기 위해 족보라는 것을 만들어 놓은 집안이 차지하는 비율은 극히 낮다는 것이다. 기본적으로 족보는 한국 등 동양 지역에서 서양 지역에 비하여 크게 발달하였다. 조상 세대에 관한 기록은 존재하여 연구가 되기는 하지만, 모든 혈족 사이의 관계도를 따로 편찬하는 경우는 거의 없었다. 북아메리카 및 남아메리카의 인구 구성은 이민자가 90% 이상을 차지하고 있어 족보가 없는 것이나 마찬가지이며, 유럽 역시 인구의 대다수를 차지하는 중세 농노 계층이 족보를 편찬할 리 만무했다. 몇몇 왕족에 한해서 족보가 편찬되었을 뿐이다. 그나마 동양의 경우, 아주 오래 전 중국 상나라 대부터 <재계>라는 제왕연표가 편찬되어 역사가 깊을 뿐더러, 왕족 외의 개인이 족보를 가지게 된 것은 진나라의 뒤를 이어 중원을 평정한 한나라 대에 이르러서이다. 한나라에서 도입된 현량과 제도를 위하여 가족의 범죄 기록, 관직 기록 등을 확인하고자 도입되었다. 현존하는 가장 오래된 족보로 알려진 공자 가문의 족보는 2,500년 이상의 역사를 가지고 있는 것으로 알려지니 그 역사가 가늠된다. 한반도의 경우, 신라 말 최치원에 의하여 편찬된 <제왕연대력>이 왕실의 계보를 체계화한 최초의 문헌으로 알려져 있다. 그러나 이러한 왕실 계보를 명백하게 체계화한 것은 고려 건국 이후이다. 고려가 건국되며, 고려 왕조 실록과 함께 태조 왕건의 조상 계보도를 정리한 <성원록>이 편찬되었다. 지방 호족의 권력이 강했던 후삼국 시대의 분위기와 더불어 지역의 각 세력가 역시 자체적인 족보를 편찬하기 시작했다. 한반도에 남아 있는 가장 오래된 족보는 안동 권씨 가문의 <성화보>로 조선 대부터 편찬되었다.


중국 마오쩌둥 집권기에 일어난 문화대혁명은 반봉건, 반서구, 반유교 등의 가치를 앞장 세운 1970년대 중국의 주요 사회 정책이다. 개혁의 목적에서 실현되었으나, 문화재를 파괴하고 요리사, 유학자 등을 탄압하는 등 마오쩌둥 정권 유지를 위한 수단으로 크게 악용되었다. 혹자는 제2의 분서갱유라 칭하기도 한다

그리고 여기서 2번째, 문제가 발생한다. 족보가 너무나도 많이 소실되었다는 것이다. 몽골의 침입 등 잦은 전쟁과 세월의 풍파로 <제왕연대력>, <성원록> 등은 소실된 지 오래이다. 개경 (현 개성), 평양, 의주 등 고려 및 조선 대의 여러 주요 도시가 북한 지역에 위치한 것도 연구의 어려움으로 작용한다. 김일성 독재 체제를 강화하며 북한에서는 족보를 유교의 적폐로 규정하여 크게 탄압하였다. 중국에서도 1970년대 마오쩌둥 집권기 당시 문화대혁명을 거치며 유교의 흔적을 지우고자 한다는 이유로 무수히 많은 가문의 족보가 소실되었다. 지금 시점에서 한반도에서 고려 대의 족보를 연구하려면, 북한과의 협력을 거쳐 추가적인 사료를 확보하기 위한 대규모 협력 사업이 필요하고, 중국 역시 상당한 노력이 소모되는 문헌 검증 작업 등을 필요로 하는 시점이다.

마지막으로, 남아 있는 족보 자료마저 신뢰할 수 없다는 것이다. 조선 초기, 양반의 수는 1%였으나, 현대에 이르러 본인이 반가 출신임을 주장하는 이는 무려 98%에 육박한다. 조선 말에 이르러 횡행해진 족보 매매 및 신분사회의 붕괴로 인하여 남아 있는 족보가 실제 생물학적 가계도의 신뢰성을 크게 상실하게 된 것이다. 유럽 역시, 왕족의 족보의 뿌리는 신화로부터 시작된다. 게르만의 앵글로 색슨족으로부터 유래된 영국 왕실은 북유럽의 최고신 오딘을 시조로 두고 있으며, 중세 유럽에서 편찬된 왕정 족보의 시조는 아담과 이브인 경우 역시 발견된다. 어디서부터가 진실이고 거짓인지 알기 힘들다는 것이다. 당장 우리의 시조가 단군왕검이라 주장을 한들, 혹은 아담과 이브라 주장을 한들, 족보를 통해서는 이를 검증하기 어렵다는 것이다.

그렇기에, 족보를 연구하여 역사를 논하고자 하는 역사학자에게도, 본인의 시조를 찾으려는 개인에게도, 일제강점기 재산의 법적 상속이 정당한가를 따지려는 법원에게도, 생물학적으로 어떤 특징이 특정 지역 및 문화권에서 나타나는지 알고자 하는 생물학자에게도 진실된 계통도를 얻어야 할 필요가 생기게 되었다.


이때, 이용되는 것이 바로 DNA이다.


인간 지놈의 구성

DNA가 유전정보를 저장하고 전달하는 기본 물질이라는 것은 기사를 읽는 독자들 역시, 쉽게 알고 있는 상식이라 생각된다. 그렇기에, 많은 사람은 DNA의 차이가 표현형의 차이가 된다는 것을 당연스럽게 인지하고 있다. 그러나, 이는 항상 헷갈리는 정보이기도 하다. 어떤 뉴스에서는 인간과 침팬지의 DNA 차이가 고작 1% 밖에 되지 않는다고 설명하면서, 친자 검사에서 0% 일치한다는 드라마의 이야기를 보며 도대체 무엇이 같고 무엇이 틀린 지 헷갈리는 것이다. 전자의 경우, 즉 인간과 침팬지의 DNA 차이를 비교하는 것은 뉴클레오타이드 그 자체를 비교하는 것이다. 정확히 그 자체를 비교하는 것도 아니다. 진핵 세포의 지놈은 모든 부분이 하나의 유전자가 되지 않는다. 유전자로서, 일부는 단백질로 번역이 되기도 하고, 일부는 miRNA 등 특이한 RNA가 되기도 하며, 일부는 프로모터의 형태로서 존재하기도 한다. 그리고, 무수히 많은 부분은 인트론의 형태로 번역이 되지 않기도 한다. 여기서, 인간 지놈의 대부분을 차지하는 것은 중복서열이라고 불리는 부분이다. 연구자들이 이러한 중복 서열이 나누어져 나타나는 형태, 다른 횟수로 반복되어 나타나는 형태, 뒤집어져 나타나는 형태 등을 1개로 치부, 완전 제외하여 계산한 것이다. 그렇기에, 인간 DNA의 25%와 침팬지 DNA의 18%를 제외한 다음 비교했을 때, 99%에 육박하는 수치의 공통점을 보였다는 이야기이다.



반면에, 후자의 경우, 이야기하는 부분은 DNA 뉴클레오타이드 1개, 1개가 아닌 특정 해플로타입 (haplotype)의 차이를 의미한다. 여기서, 해플로타입이란, 반수체를 뜻하는 haploidy라는 단어와 유전형을 뜻하는 genotype의 축약형으로, 염색체의 DNA 특정 좌위에 나타나는 염기 배열을 의미하는 것이다. 즉, 상동 염색체 상에서 나타나는 대립유전자를 나타내는 것이다. 쉽게 생각해보자. 많은 진핵 세포의 경우, DNA를 2명의 부모로부터 물려받는다. 이때, 일반적으로 인간과 같이 각 염색체는 한 쌍의 비슷한 염색체, 상동염색체로 묶이게 된다. 당연히, 각 상동염색체 중 각 부모로부터 물려받은 것이라 할 수 있다. 이러한 여기서, 한 쌍을 구성하는 한 벌의 염색체 집합을 반수체라고 하는 것으로, 반수체 유전형이라 할 수 있는 해플로타입은 이러한 염색체 위의 유전적 서열을 의미하는 것이다. 크게는 1개의 염색체 전체를 의미하기도 하고, 작게는 9kbp의 서열을 의미할 수도 있다.


최근, 좀 더 널리 사용되는 해플로타입은 이와 조금 차이가 난다. 이렇게 넓은 의미의 해플로타입이 아니라, 좀 더 좁은 차원에서, SNP (Single Nulceotide Polymorphism), 즉 단일 핵산염기 다형현상 대립유전자가 통계적으로 연관된 경우로 한한 것이다. 이렇게 좁은 의미의 해플로타입을 사용하는 이유는 좁은 의미의 해플로타입이 공통조상을 찾는 데에 큰 장점을 발휘하기 때문이다. 그렇기에, 공통조상과의 해플로타입 일치성을 토대로, 직계인지 아닌지를 비교할 수 있는 것이다.



해플로타입과 해플로그룹 : 뿌리를 찾기 위한 시작

SNP는 생식계열에 위치한 세포의 지놈의 특정 위치에서 일어나는 뉴클레오타이드 치환으로 개체군 내에서 이를 가진 비율이 1% 이상인 경우를 의미한다. 인간의 지놈에서 수백만 개가 존재하며, 약 200-300bp 정도에서 이가 반복된다. 이해를 돕기 위해, 예를 들어보자. 인간 지놈에서 특정한 뉴클레오타이드 자리에서 거의 대부분의 사람이 G/C 뉴클레오타이드 쌍을 갖는다고 해보자. 만약 이 자리가 SNP 위치라면, 개체군에서 아주 낮은 비율의 사람에 한하여, A/T 뉴클레오타이드 쌍을 갖는 것이다. 이는 질병을 찾는 데에 있어서도 굉장히 유용하게 사용될 수 있다. SNP 자체는 당연히 coding sequence보다는 noncoding sequence에 더욱 많이 존재한다. (Noncoding sequence가 기본적으로 coding sequence에 비하여 길이가 훨씬 길고, 특정 염기서열이 반복되는 경우가 많음을 기억하자.) 이는 SNP가 프로모터 등에 위치하여 유전자 발현을 조절하는 요인으로 작용할 수 있음을 보여주기도 한다. 나아가, SNP 자체가 실제 특정 대립유전자의 위치를 말해주기 보다는 특정 대립유전자와 매우 가깝게 위치하여 연관됨을 토대로, 유전자 재조합 등을 찾는 상황에 매우 요긴하게 사용된다. 그렇기 때문에 SNP를 찾는다면 굉장히 다양하게 이용될 수 있다. 특정 질병 유전자를 찾기 위한 유전적 탐침자로 사용될 수도 있으며, 인간 개체군을 분석하기 위해 사용되는 수단도 될 수 있다. Coding sequence에 위치한 SNP의 경우, 동의돌연변이 (synonymous mutation), 비동의돌연변이 (non-synonymous mutation)의 형태로 구분되어, 실제 유전자 발현 및 단백질 형태에 영향을 줄 수도 있다.

즉, 해플로타입이란, 하나의 염색체에서 SNP와 연관된 대립유전자를 나타내는 단위로서, SNP와 연관되어 정자, 난자 등이 형성되는 감수분열 과정에서 재조합에 영향을 받지 않는 염기 서열이라는 것이다. 그렇기 때문에, 동일한 형태의 해플로타입의 개수와 종류를 토대로 실제 계보를 거슬러 올라가 분석할 수 있다는 것이다.


해플로타입을 결정 지어야 한다고 생각해보자. 2개의 좌위를 생각해보자. 첫 번째 좌위을 A/T에 관하여, 두 번째 좌위를 G/C에 관하여 정의할 경우, 둘 모두 각각 AA, AT, TT나 GG, GC, CC라는 3가지의 유전자형을 가질 것이다. 즉, 이러한 상황에서 동형접합인 AA, TT, GG, CC의 경우, 고민 없이 해플로타입을 추정할 수 있으나, AT, GC 간의 결합인 경우, 해플로타입을 바로 알 수 없다. AG TC의 형태인지, AC TG의 형태인지 단순 유전자형만 봐서는 모르기 때문이다. 이로 인하여, 정확한 해플로타입을 찾기 위해서는 직접적인 시퀀싱이 필요하다. 이에 대한 한계가 존재하기 때문에, 보다 넓은 샘플링을 토대로, 해플로타입의 확률을 추정할 수 있다.

이렇게 얻어진 여러 해플로타입을 다시 하나의 거대한 카테고리로 묶는 것이 바로 해플로그룹이다. 해플로그룹은 일반적으로는 특정한 SNP 돌연변이를 통하여 그룹을 결정한다고 할 수 있다. 특정 해플로그룹을 구분함으로써 우리는 조상의 유연관계를 명확하게 판단할 수 있다.

즉, SNP를 통하여 해플로타입을 찾을 수 있고, 이렇게 찾은 해플로타입들을 같이 유전되는 경향을 띠는SNP 종류에 따라 묶은 거대한 카테고리가 해플로그룹이라는 것이다.


해플로타입이 유전자 재조합의 영향을 받지 않고 감수분열을 거치는 일종의 최소 단위라고 할 수 있고는 만큼, 이를 통해 얻어지는 것이 해플로그룹이기 때문에, 이에 관한 연구 역시 굉장히 다양하게 되고 있다. 이 중에서 가장 많이 사용하는 해플로그룹이 바로 Y 염색체의 해플로타입과 미토콘드리아 염색체의 해플로타입이다. 이는 이들 염색체는 진핵 세포 내에서 반수체의 형태로 존재하기 때문에 상대적으로 찾기도 쉬울 뿐만 아니라, Y 염색체는 부계, 미토콘드리아 염색체는 모계 유전이라는 성질로 인하여, 실질적인 족보 파악에 매우 용이하기 때문이다.

여기서, Y 염색체 해플로타입의 경우는 예외적으로 2가지로 구분한다. Unique-event polymorphism인 SNP로 대표되는 Y-UEP와 STR (Short Tandem Repeats)으로 대표되는 Y-STR이다. Y-UEP는 일반적으로 말하는 SNP를 이용한 해플로그룹 분석에서 사용된다. STR은 짧은 염기서열이 무수히 많이 반복되는 것으로, 인간에서는 각 염색체의 STR 개수를 토대로, 이를 구분하기도 한다. 예를 AATTC라는 서열이 16번 반복된 Y 염색체를 가진 사람은 AATTC라는 서열이 5번 반복된 Y 염색체를 가진 사람과 동일하지 않은 사람이라는 것이다. Y-STR 해플로타입의 경우 돌연변이 확률이 Y-UEP에 비하여 상대적으로 매우 높다. 이때문에, SNP는 주로 개인특징식별분석 등 아주 정확한 정보가 필요한 경우 이용되고, STR은 부모형제 친자확인 검사 및 유전자가계보 제작 등에 이용된다. 반면, 미토콘드리아 해플로타입의 경우는 UEP를 의미한다.



해플로타입의 다양성은 위와 같이 구분된다. 해플로타입의 다양성이 높은 개체군일수록, 기존 해플로타입이 크게 분리되어 있지 않던 조상에서 더욱 멀리 분화된 것으로 추정할 수 있다.



드디어 아담과 이브를 논하다 : 햅맵 프로젝트와 해플로그룹