2012年4月12日 星期四 生命科学导论精品课程欢迎你!
生物信息学在人类基因组计划中的应用

    生物信息学是当前生物学领域的研究热点,预计在未来的若干年它将变得越来越重要、越来越引起人们的重视。

    近期任务

    由于未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展:

    大规模基因组测序中的信息分析

    大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设讨和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。

    新基因和新SNPs(单核苷酸多态性)的发现与鉴定

    人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含的6千多个基因,大约60%是通过信息分析得到的。

    当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至关重要的。

    完整基因组的比较研究

    现在,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析,比如:研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为0.1%;人猿间差别约为I%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑到整个研究组、考虑染色体组织上的差异。总之,这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。

    大规模基因功能表达谱的分析

    随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?于是他们提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲出(knock-out)或基因过度表达的影响是什么;多基因的表现型如何,等。概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。

    为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术,也称蛋白质组技术。

    生物大分子的结构模拟与药物设计

    随着人类基因组计划的执行,估计几年之内就可找到人类的8万到10万个基因,也就是发现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础,必须进一步知道它们的三维结构。与此同时,要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。

    远期任务

    生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。从而阐u若干生物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区。

    非编码区信息结构分析

    近年来完整基因组的研究表明,在细菌这样的微生物中非编码区只占整个基因组序列的10%到 20%。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看来,随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明:这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。

    对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),很多资料说u这部分序列只占基因组的3%到5%,也就是说,人类基因组中多达 95%到97%是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。

    遗传密码起源和生物进化的研究

    自 1859年Darwin的物种起源发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。近年来,随着序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子序列所重构出的进化树,只能反映这种序列的系统发育关系,并不一定能代表物种之间真正的进化关系,即可能存在着基因树与物种树之间的差异。同时,对垂直进化和水平演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更为丰满的进化模式,它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。 总之,当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这是一个难得的机会,我国应尽早利用这些数据就可能走在国际科学界的最前沿。

上海交通大学生命技术学院 版权所有 2008 Copyright 2008 by SJTU Life Science
意见建议请与cf2001@sjtu.edu.cn 联系! Design By runyoo.cn