在现代DNA中寻找古人类的痕迹！

在深度学习技术的帮助下，古人类学家发现了人类谱系学失传已久的分支证据。深度学习技术能否帮助古生物学家和遗传学家找到古人类的踪迹？当现代人在7万年前第一次走出非洲时，欧亚大陆上至少有两个已经灭绝的亲缘物种在等着他们。这两个相关的种群是古人类尼安德特人和丹尼索瓦人，然后古人类和早期现代人类杂交。时至今日，非洲后裔的基因组中仍含有古人类的DNA片段。越来越多的迹象表明，这段历史远比我们所知道的更加精彩。一个研究小组在《自然》杂志上报告说，他们在西伯利亚的一个洞穴中发现了一块属于人类杂交后代的骨头碎片。这个后裔的母亲是尼安德特人，父亲是丹尼索瓦人。这块骨头碎片是第一代人类杂交的第一个化石证据。

遗憾的是，类似的化石非常罕见，比如对丹尼索瓦人的认识就是基于从一个指骨中提取的DNA。虽然那些来自早期杂交种群和其他祖先组合的组合很容易找到，但当涉及到物理证据时，它们可能很难被证明。他们出现过的线索，可能只存在于某些人的DNA里。即便如此，它们可能比尼安德特人和丹尼索瓦人的基因更加微妙。统计模型有助于科学家在没有化石数据的情况下推断这些种群的存在:例如，2013的古代人类和现代人类的基因变异模式显示，有一个未知的人类种群与丹尼索瓦人(或他们的祖先)杂交。但专家认为，这些方法也不可避免地忽略了许多细节。

今天还有谁对人类基因组做出了贡献？这些人口看起来像什么？他们住在哪里？它们与其他人类物种互动和交配的频率如何？在发表于《自然通讯》的一篇论文中，研究人员展示了深度学习技术的潜力，它可以帮助填补一些缺失的部分，一些专家甚至可能没有意识到这一点。通过深入研究，他们挑出了另一个种群存在的证据:欧亚大陆一个未知的人类祖先，可能是尼安德特人和丹尼索瓦人的混血儿，也可能是丹尼索瓦人的亲戚。这项研究工作指出了人工智能在古生物学中的未来用途，它不仅可以识别不可预见的痕迹，还可以揭示我们进化中缺失的部分。

目前的统计方法涉及同时检测四个基因组的* * *相同特征，这是一种相似性的检验，但不一定是实际祖先的检验；因为许多不同的方法可以解释它揭示的少量基因混合物。例如，这些分析可能表明现代欧洲人和尼安德特人的基因组有一些共同特征，但它们与现代非洲人的基因组不同。然而，这并不意味着这些基因来自尼安德特人和欧洲祖先的杂交。后者可能与尼安德特人有密切关系的种群繁衍，而不是尼安德特人本身。由于缺乏实物证据来表明这些古老的假设性基因变异是何时、何地以及如何起源于人群，因此很难明确指出众多假定祖先中的哪一个。

威斯康星大学麦迪逊分校的古人类学家约翰·霍克斯(John Hawks)说:这项技术简单而强大，但在理解进化方面仍存在许多问题。深度学习方法试图解释基因流动的水平。尽管与统计方法相比，基因流动的水平太小，但它提供了一个更广泛、更复杂的模型来解释它。通过训练，神经网络可以学习根据最有可能产生模式的群体历史对基因组数据中的模式进行分类，而无需被告知如何建立这些联系。

深度学习技术的使用可以找到研究人员从未怀疑过的古代人类的痕迹。首先，我们没有理由认为尼安德特人、丹尼索瓦人和现代人是人类历史语境中仅有的三个种群。根据霍克斯的说法，可能有几十个这样的种群。纽约州立大学石溪分校的人类学家贾森·刘易斯同意这一观点，他说:我们的想象力总是有限的，因为我们总是关注在欧洲、非洲和西亚发现的活人或化石。深度学习技术以一种奇怪的方式重新聚焦这些可能性，不再受限于我们的想象力。

深度学习似乎不太可能解决古生物学家的问题，因为这种方法通常需要大量的训练数据。以其最常见的图像分类器为例。当专家训练模型识别猫的形象时，专家有成千上万张图片可以训练，专家自己也知道是否有效，因为他知道猫应该是什么样子。由于缺乏相关的人类学和古生物学数据，想要使用深度学习技术的研究人员不得不创建自己的数据，使其更加智能。巴塞罗那国家基因组分析中心的研究员奥斯卡·劳(Oscar Lao)表示:我们正在玩一个肮脏的把戏，我们可以使用无限的数据来训练深度学习引擎，因为我们使用了模拟。

研究人员基于不同的人口统计细节生成了数千个模拟的进化史:祖先种群的数量和规模，他们彼此分离时的混血率，等等。从这些模拟历史中，科学家为现代生活创造了大量模拟基因组。他们在深度学习算法中训练这些基因组，以了解哪种进化模型最有可能产生给定的遗传模型。然后，研究团队发布了人工智能来推断最符合实际基因组数据的历史。最后，该系统得出结论，一个以前未确定的人类群体也对亚洲后裔的祖先做出了贡献。从涉及的基因模式来看，这些人本身可能是30万年前丹尼索瓦人和尼安德特人杂交产生的独特群体

或者是在那之后不久由丹尼索瓦的后裔演变而来的一个群体。这并不是深度学习第一次被这样使用。这个领域的一些实验室已经应用类似的方法来解决进化研究的其他线索。俄勒冈大学的安德鲁？由安德鲁·克恩(Andrew Kern)领导的一个研究小组使用基于模拟的方法和机器学习技术来区分包括人类在内的物种如何进化的各种模型。人们发现，进化所青睐的大多数适应并不取决于种群中有益的新突变的出现，而是取决于现有遗传变异的扩大。将深度学习应用于这些新问题正在产生令人兴奋的结果。

有一些问题。首先，如果实际的人类进化史与深度学习方法训练的仿真模型不同，那么这项技术就会产生错误的结果。这是科恩等人一直在努力解决的问题，要提高精度还有很多工作要做。普林斯顿大学的生态学家和进化生物学家约书亚·阿基(Joshua Akey)说:我认为人工智能在基因组学中的应用被大大夸大了。深度学习技术是一种奇妙的新工具，但它只是一种方法，并不能解决人类进化中我们想要理解的所有奥秘和复杂性。

一些专家甚至持怀疑态度。哈佛大学和皮博迪博物馆的古生物学家大卫·普尔比(David Pulby)在一封电子邮件中写道:我的判断是，除了深思熟虑、智能和人工分析之外，数据的密度和质量都不理想。然而，在其他古生物学家和遗传学家看来，这是一个很好的进步，可以用来预测未来可能的化石发现和几千年前就应该存在的基因变异。我觉得深度学习真的会促进群体遗传学的发展，对于其他我们可以访问数据但不能产生数据的过程的领域可能也是如此。

大约在科恩和其他种群遗传学家和进化生物学家开发基于模拟的人工智能技术来解决问题的同时，物理学家也在研究如何筛选大型强子对撞机和其他粒子加速器产生的海量数据。地质研究和地震预测方法也开始受益于深度学习方法。麻省理工学院和麻省理工学院布罗德研究所的计算生物学家尼克·帕特森(Nick Patterson)说:我真的不知道会发生什么，但有新方法总是好的。如果它能很好地回答我们的问题，我们会尽力开发它！

博科公园-科普|参考期刊:《自然》，《自然通讯》

文字:jordana cepelewicz/量子杂志/量子时事通讯

DOI:10.1038/s 41586-018-0455-x

DOI:10.1038/nature 12886

DOI:10.1038/s 41467-018-08089-7

博科花园——传递宇宙科学之美