求一篇2000字左右的论文:生物信息在生物学研究中的作用?

1,序列比对。

序列比对的基本问题是比较两个或多个符号序列的相似性或不相似性。从生物学的本意来说,这个问题包含以下含义:从重叠的序列片段中重建DNA的完整序列;从各种实验条件下的探针数据确定物理和遗传图谱存储,遍历和比较数据库中的DNA序列,比较两个或两个以上序列的相似性,在数据库中搜索相关序列和子序列,找出核苷酸的连续生成模式,找出蛋白质和DNA序列中的信息成分,比较DNA序列的生物学特征,如局部插入、缺失(前两者简称为indel)和置换。序列的目标函数获得序列间变异集的最小距离加权和或最大相似和。对齐的方法包括全局对齐、局部对齐、代沟惩罚等。动态规划算法常用于比较两个序列,适用于序列长度较小的情况,但不适用于海量基因序列(如人类DNA序列高达109bp),甚至算法复杂度是线性的。因此,启发式方法很难奏效。

2、蛋白质结构比较和预测。

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或相异性。蛋白质的结构和功能密切相关。一般认为,功能相似的蛋白质,结构一般是相似的。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(氨基酸)不等。蛋白质有很多功能,如酶、物质的储存和运输、信号传递等。抗体等。氨基酸的序列内在地决定了蛋白质的三维结构。一般认为蛋白质有四种不同的结构。研究蛋白质的结构和预测的原因是:在医学上了解生物体的功能,寻找对接药物的目标,在农业上获得更好的农作物基因工程。酶促合成用于工业。直接比较蛋白质结构的原因是蛋白质的三维结构在进化中比一级结构更稳定,也比AA序列包含更多的信息。蛋白质三维结构研究的前提是内部氨基酸序列与三维结构一一对应(不一定成立)。物理学可以用最小能量来解释。通过观察和总结已知结构的蛋白质结构规律来预测未知蛋白质的结构。同源建模和线程化都属于这一类。同源性建模用于寻找相似度高的蛋白质结构(30%以上氨基酸相同),后者用于比较进化家族中不同的蛋白质结构。然而,蛋白质结构预测的研究现状远不能满足实际需要。

3、基因识别,非编码区分析。

基因识别的基本问题是正确识别基因在给定基因组序列中的范围和确切位置。非编码区由内含子组成,通常在蛋白质形成后被丢弃,但从实验来看,如果去掉非编码区,基因复制就无法完成。显然,DNA序列作为一种遗传语言,不仅包含在编码区,它还隐含在非编码序列中。目前没有分析非编码区DNA序列的通用指导方法。在人类基因组中,并不是所有的序列都被编码,也就是某种蛋白质模板,编码的部分只占人类基因总序列的3-5%。显然,人工搜索这么大的基因序列是不可想象的。检测密码区的方法包括测量密码区中密码子的频率。一阶和二阶马尔可夫链,ORF(开放阅读框),启动子识别,HMM(隐马尔可夫模型)和GENSCAN,剪接比对等等。

4.分子进化和比较基因组学

分子进化是利用不同物种中相同基因序列的异同来研究生物的进化,构建进化树。既可以利用DNA序列,也可以利用其编码的氨基酸序列,甚至可以通过相关蛋白质的结构比较,在相似人种遗传相似的前提下完成。通过对比,可以发现不同种族中哪些是相同的。有什么区别?早期的研究方法通常使用外部因素,如大小、肤色和四肢数量,作为进化的基础。近年来,随着许多模式生物基因组测序任务的完成,人们可以从全基因组的角度研究分子进化。在匹配不同种族的基因时,一般要处理三种情况:正统:功能相同的不同种族的基因;旁系同源:功能不同的同种族基因;异种基因:通过其他方式在生物之间传播的基因,如病毒注射的基因。该领域常用的方法是构建系统发育树,通过基于特征(即氨基酸碱基在DNA序列或蛋白质中的具体位置)和距离(比对得分)的方法以及一些传统的聚类方法(如UPGMA)来实现。

5、序列重叠群组装

根据目前的测序技术,每次反应只能检测500个或更多的碱基对。比如短枪法用于测量人类基因,需要大量的短序列全部形成重叠群。逐渐拼接它们以形成更长的重叠群直到获得完整序列的过程被称为重叠群组装。从算法层面来看,序列的重叠群是一个NP完全问题。

6、遗传密码的起源

一般来说,对遗传密码的研究认为密码子和氨基酸的关系是由生物进化史上的一个偶然事件引起的,一直固定在现代生物的同一个祖先身上,直到现在。与这种“冷冻”理论不同的是,有人提出了三种解释遗传密码的理论,即选择优化、化学和历史。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真实性提供了新的材料。

7、基于结构的药物设计

人类基因工程的目的之一是了解人体内约654.38+百万种蛋白质的结构、功能、相互作用及其与人类各种疾病的关系,寻求包括药物治疗在内的各种治疗和预防方法。基于生物大分子和小分子结构的药物设计是生物信息学中一个极其重要的研究领域。为了抑制某些酶或蛋白质的活性,基于已知的蛋白质三级结构,可以利用分子排列算法在计算机上设计抑制剂分子作为候选药物。这个领域的目的是发现新的基因药物,有很大的经济效益。

8.生物系统的建模与仿真

随着大规模实验技术的发展和数据积累,从全局和系统层面研究和分析生物系统,揭示其发展规律,已成为后基因组时代的又一研究热点——系统生物学。目前其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70)、系统稳定性分析(非线性动力学心理生活Sci,2007,413-33)和系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-83)。以SBML为代表的建模语言(生物信息学,2007,1297-8)发展迅速,布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统(生物信息学,2007,336-43)已经出现许多模型是借鉴电路等物理系统的建模方法建立的,许多研究试图从信息流、熵、能流等宏观分析思路来解决系统的复杂性(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长的时间。尽管实验观测数据在大量增加,但生物系统模型辨识所需的数据远远超过了当前数据的输出能力。比如对于时间序列的芯片数据,采样点数不足以使用传统的时间序列建模方法,庞大的实验成本是目前系统建模的主要难点。系统描述和建模方法也需要开拓性的开发。

9.生物信息学技术和方法研究

生物信息学不仅仅是生物学知识的简单排列和数学、物理、信息科学等学科知识的简单应用。海量的数据和复杂的背景导致机器学习、统一的数据分析和系统描述在生物信息学背景下快速发展。巨大的计算量、复杂的噪声模式和海量的时变数据给传统的统计分析带来了巨大的困难,这就需要更加灵活的数据分析技术,如非参数统计(BMC Bioinformatics,2007,339)和聚类分析(Qual Life Res,2007,1655-63)。高维数据的分析需要偏最小二乘(PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,利用并行计算、网格计算等技术扩展算法的可实现性。

10,生物图像

为什么没有血缘关系的人长得这么像?

外貌是由点组成的。重叠的点越多,看起来就越像。为什么这两个不相关的点会重叠?

生物学基础是什么?基因相似吗?不知道,希望专家解答。

11,其他

如基因表达谱分析和代谢网络分析;基因芯片设计和蛋白质组学数据分析逐渐成为生物信息学中新的重要研究领域。在学科方面,由生物信息学衍生出来的学科,包括结构基因组学、功能基因组学、比较基因组学、蛋白质的研究、药物基因组学、中药基因组学、肿瘤组学、分子流行病学和环境基因组学,已经成为系统生物学的重要研究方法。从目前的发展不难看出,基因工程已经进入后基因组时代。对于如何应对与生物信息学密切相关的机器学习和数学中可能出现的误导,我们也有了清晰的认识。