打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
40%的中国人的Y染色体来自3个新石器时代的超级祖先



2013年10月15日,我在arXiv文章数据库挂出了一篇文章(http://arxiv.org/abs/1310.3897 ,带附件的下载地址见http://vdisk.weibo.com/s/qGPNPvCSIf0t ),题目是?Y Chromosomes of 40% Chinese AreDescendants of Three NeolithicSuper-grandfathers?,即《40%的中国人的Y染色体来自三个新石器时代的超级祖先》,基本内容如下:首先是对110个东亚样本做Y染色体测序,得到质量可以接受的序列共78个。从里面找到了4000多个新的SNP位点,命名以F(复旦)打头。因为我们捕获来测序的范围是随机的(取的Y染色体上没有重复的约4Mbp的很多不连续片段的集合,与已知支系信息无关),范围又比较大,所以可以画一棵明确且没有偏向的演化树(因为绝大多数位点都是没有回复突变的),然后就能按传统的分子钟方法计算时间了。

计算相对时间只要数每支的突变个数再相比就行了(因为有波动,具体时间还是按最大似然法综合算的),但绝对时间,就是说平均一个突变到底需要多少年,是需要标定的。这里我们先只用了一个1×10-9/年/碱基的突变率。文里用SNP算的相对时间能比用STR算出来的准很多(文中说了,准确度的误差范围和用于计算时间的SNP数开根号成反比)。标定的绝对年代(即SNP的绝对突变率)也许还有些误差,但至少结果也在以往各种方法估出来的范围之中(以往算出走出非洲年龄最小的不到4万年,最大的8万年,我们算出5.4万)。


文章的结论

文章最大的亮点有两个,一个是能相对以往准确得多地算出分支时间,至少是相对时间,另一个是发现O3下面的三个大的星状扩张(下面具体谈到)。以往用Y-SNP不能算时间是因为实验是特地挑的已知SNP来做的,数量少,且本身带有偏向性。而本实验是不带任何人群方面的预设来找的SNP,是不带偏向性的。线粒体全测能算时间也是同样道理。当然因为Y染色体位点多,平均每100年左右就能有一个突变(用全序,即10Mbp左右的范围),而线粒体平均要2000多年才能在全长上有一次突变,因此Y染色体算出的时间精度能比线粒体好很多。

支系方面比较重要的结论有以下几点:

1.走出非洲的C、DE、F三大支的分支年代在5万多年。虽然C和F在一起而DE是早分出的,而因为E主体的分布是在非洲,本来有人提出CF和D可能是两批分别走出非洲的,但我们发现CF共有的SNP只有3个,对应大概不到1000年,这样C,DE和F仍是准三叉,根据奥卡姆剔刀原理,还是M168+整体迁出非洲然后E那支再回流非洲的可能性稍大一些。

2. F支经历过极强的瓶颈,以致于和C分开后过了差不多2万年才再一次产生下游分支G, H,IJ, K,K下面的分化也很快(NO,P和LT目前来看也是个准三叉,M和S因为没有样本,现在拓扑关系还不明朗),也就是说,F支下面按字母分的单倍群从树干上分出的时间大体都在3.6– 2.4万年前之间,尤其3.6 –3万年前是一个快速扩张的时期。O3-M122与O1-M119、O2-M268分开后不久,O1、O2再分开。而下游的分化总的次序是O2最早,其次O3,而O1最晚(不过可能和这次测序的O1样本多数取自华东有关,多取一些南方少数民族的O1样本可能会有一些更早的分支。)

3. O系的地理布散,尤其是O3a-M324(占中国人口的一半以上),主要发生在1.9 –1万年前,即末次冰盛期(2.3 –1.8万年前)之后的旧石器时代。这段时间全球气候逐渐回暖,海平面从现在海面以下上百米一直升到和目前海平面接近的高度,人类的可活动范围大大扩展,技术上也有了一些创新,比如陶器的发明,农业也出现了萌芽。

4.在树上观察到,5000到6000多年前左右,在中国出现了三个超级祖先,一个在M117下,一个在M134的另一个分支,即F444下,还有一个在002611的下游F11下。这三个超级祖先出现的年代很接近(次序按不同方法算出来有所区别)。我把他们分别称为Oα,Oβ和Oγ,算作对现有单倍群命名系统的一个改进。这三个大约6000年前的人的后代构成了现在汉族人群的40%以上。之所以很特别(因为一个人群往上推总会推到某个时候有个祖先的后代占了一大半),是因为在这三个扩张以前的Y染色体树的所有分支,都是二叉,而这三个扩张是星状扩张,即突然从一个人演化出难以分出先后(这篇文章的测序精度是平均250年一个突变)的5– 7个支系,而且这5 –7支是都有后代一直延续到现在的。长支或二叉当中的那些古人当然不是说那些人都没有兄弟,而是说无数辈的兄弟都没能传下男性后代,当时的人口扩张也相对缓慢,只有这几支幸运儿的后代终于活到了现代。

5.C3-M217是占中国10%左右的大支系,很清楚分为南北两支,2.6万年前分开,比O3和O1’2分开还略早。结合STR结果来看,汉族的C3基本都是南支,且存在一个6000多年前的扩张(可能比O3下的三大簇略早)。汉族和北方民族都常见的C3d-M407属于南支那个扩张下游的。而星簇(starcluster,以前Zerjal etal.说是成吉思汗生出来的)、448-del两个重要支系(应该也有C3c-M48)属于北支。C3的北支基本在汉族里不存在。关于C单倍群的更多细节,我的同事兰海应该会发表一篇paper来说明。

6.N单倍群的最早分化也在1.6万年前。也分为南北两支。结合STR来看,原先的N1a-M128和N1c-M46(应该也有N1b-P43)都是北支的。关于N的更多细节,我也会另外写一篇paper来讲。


文章里没写的(因为文章本来要投大杂志的,因篇幅有限或说了会被审稿人挑刺所以没放在文章里,或者被别人抢去的,或是证据不足的猜想):

7.时间估计的不精确性。因为原先文章里的用STR计算突变率有一些问题,在后来投的稿里这部分被砍掉了。但相对的STR时间计算是没有问题的。这里给出两张散点图,比较相同的两个样本用17-STR得出的时间和直接数相差的SNP数的对比。前一张图是所有样本间的两两比较。后一张图是Oγ星状扩张中每对共祖于星点的两个样本的STR计算时间和相差的SNP数的对比。因为是同一个星,理论上两个样本的共祖时间几乎相同。可见SNP算出的时间精度远好于STR算出的,而STR得到的结果经常可能差出一个数量级以上。或者说,两个样本STR很远的可以排除近期的共祖,但STR近的,实际共祖时间可能很晚但也不排除实际很早但是因为巧合而STR接近了。经常有人问,我们两个人STR差4个点,到底能差多少年,我说100年到1万年都没准,这确实不是搪塞。




8.这三个超级祖先到底是什么人。首先,这个扩张年代正好在五六千年前,属新石器时代晚期,对应的文化包括仰韶时代晚期和大汶口文化晚期等(我知道有人认为这三个扩张不是发生于黄河流域的,留以后发现更多证据,尤其是古DNA证据来回答了。)这个时代我知道的有两个大的变革,一个是农业的大发展,谷类从采集、狩猎的辅助食物变成了食物的主体部分,人们的食物开始严重依赖农业,同时聚落的分布密度大大增加,说明人口增加。同时又有一个社会结构的变化,墓葬从群体葬逐渐发展出了单人葬和对偶葬,说明社会从母系社会变成了父系社会。因此,对于这三个超级祖先,有两种解释:其一,他们是最早的集约化农民,因为生产力(谷物和人口的)大幅发展,成了超级祖先,因此称Oα,Oβ和Oγ分别为“农民甲”、“农民乙”和“农民丙”。有人不相信这种解释,认为他们肯定是很伟大的部落首领,有巨大的权力而能占有很多女人,建议用三皇来称呼,我按照计算出的时间,分别把Oγ,Oβ和Oα分别称作“天皇”、“地皇”和“泰皇”。(还有建议把他们称作“炎帝”、“黄帝”和“蚩尤”的,因为时间不符合,而且因为可能有历史原型而对应支系可能被证伪,再加上“蚩尤”从民族学上看大概对应苗瑶的O3a2b-M7而不属这三大簇,所以我觉得还是用纯神化的三皇更合适一些。)当然用三皇命名有些人会觉得神棍一些,宁可用“农民”,不过其实把人类父系共祖称作“Y染色体亚当”同样神棍。我觉得反正这三簇是客观存在的,短时间也不容易证明到底他们是什么样的人物,那称作农民还是三皇就看个人信仰了。

9.除了三个O3下面的超级祖先,另有两支也需要关注,一个是C3下面F1144的下游扩张,即南支,扩张时间可能比O3的三大簇略早,另一个是O1a1下面F78的下游扩张,年代可能只有4000年不到。这两支的人口大概也各占了汉族的10%上下,但因为高通量测序时没有足够的样本或有的样本测序质量不好,尚未能表现出星状扩张,但我相信如果能扩大测序样本的数目,也是能找到类似星簇的扩张的。(我还暂时没有给这两支起名字。)这样,把这两支也加上,这五个新石器祖先的后代就能占到汉族及中国人60%的比例了





(上图是五支祖先大致的分布范围和所占人口比例。不是严格计算,汉族之外的支系判断可能有错。)

10.关于华夏的起源。因为这篇文章计算了时间,所以明确了,汉族(或中华民族)的大多数姓氏的都起源于一个几千年前叫黄帝的共同父系祖先必然是不可能的。新石器时代晚期最大的簇(Oα)也不过占汉族父系的16%。不过,这篇文章同样也说明了,史前不远的时代,华夏确实有少数几个超级祖先,他们短时间繁殖出了大量的后代,也就是说这些有关共同祖先的传说确实是有其原型的,只不过其重要程度被夸大了


文章发表历经的坎坷

很多人,包括爱好者和业内人士,都知道我的结果早就出来了,这两年一直都在催问我文章什么时候能出来,位点什么时候能公布。首先,按照通常的科研规范,似乎文章没有经过同行评议,文章没有发出,是不能对外发布消息的。其次,文章是实验室老师辛苦申请基金、多人多年合作做出的结果,随便公布数据而没有相应文章发表是损害实验室利益的,而今后继续申请科研基金、评职称等等,按目前中国的体制,全看文章的影响因子,且只有一作和通讯作者算数。其他的,至少对于生物学来说,发中文文章不算有效工作,合作作者不算,出书不算,做科普不算,这些只能在有闲的时候做。所以,对于这篇文章,首先只能考虑发paper,而且杂志分数越高越好。

这篇文章首次投出是2011年11月,这两年先后投过Nature, Science,Nature Genetics, Nature Communications,PNAS。有的杂志是被编辑直接毙掉,还有的杂志是跟审稿人撦了好几次皮,先后投过3个版本,历经9个月,最后被拒掉的。几次投出之间还有过好几次大的内容的删改,比如突变率的计算方法和SNP-STR对照比较等,还有改文章的着重点等。前一次拒掉和下一次投出之间改文章经常又要花几个月。这两年,好几篇实验做得并不如我们的文章登上了Science或GenomeResearch这样的杂志,我们文章的新颖性也越来越差。

最终为了避免文章中的发现变得一钱不值,我出于促进知识传播和对我的青春负责的理念,决定还是先把文章公开到arXiv上。这个数据库是没有同行评审的,也就是说只有靠读者来衡量文章的价值。但这上面的文章能被引用。有同行评审的杂志我也还在投着,就算能发出去,分数也没多少了。从考核体系角度看,这四年的我和同事的工作和花的研究经费就算喂狗了,我的稳定教职也没戏了,只能继续做一个二站的博后。(话说,有时候很明显从编辑和审稿人打回的意见里能感觉到对中国或东方人的歧视。这篇文章的作者全都是中国人,复旦大学或者中科院计算生物所的成员。因为发表时间拖久了,文章本来的亮点一个个被别人的文章抢了去,也只得把题目从一个全球性的时间计算改成关于中国人祖先扩张的,导致文章更难发表。如果是关于犹太人或者欧洲人的文章,经常是随便一点儿数据都能发到高分杂志。之前曹操后代那篇文章也只投到了日本的Journalof Human Genetics杂志。)

这期间我如果做错了什么,或者什么原因造成的文章难以发表,有什么更好的信息发布方案,都可以帮忙指出,如果有办法能同时兼顾知识传播和实验室利益,我会很感激的。


首發於2013.10.18,新浪博客
修改於2014.01.30


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
爱新觉罗皇族的Y染色体
科学网
汉族基因的超级祖先 复旦大学严实博士对Y染... 来自了寂0910
这就是你祖宗:亚洲有8亿人是11个超级祖先的后代?!
一图流带你了解父系单倍群的形成与分布
父系溯源
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服