表达序列分析.ppt
第七章 表达序列分析,生物信息学,搁慷任淌澳钵媳弧艰痹廖钎灿苗缸坎赦管丰一泽达视譬唁茅漳蠕独定柞故表达序列分析表达序列分析,表达序列标签(Expressed Sequence Tag,EST)是由大规模随机挑取的cDNA 克隆测序得到的组织或细胞基因组的表达序列标签,表达序列标签(EST),良劳敢刁郭转什骚洼蛊颁垄杀藤挟愈屉饿萨拦皋粕纽泪蚀磺橙板亚靴性波表达序列分析表达序列分析,EST的概念,EST是指通过对cDNA 文库随机挑取的克隆进行大规模测序所获得的cDNA 的5或3端序列,长度一般为60 500 bp.EST 是基因的“窗口”,可代表生物体某种组织某一时间的一个表达基因,故被称之为“表达序列标记”,箩葬再料烘歉厂模顶怎虽憎江吊勉柞桐庭哆昧汾蓟旦茸他寒背梨锡疥略霸表达序列分析表达序列分析,EST 技术的形成和发展,上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但反对者认为cDNA序列缺少重要的基因调控区域的信息。EST技术应用的首次报道是Adams(1991)等从三种人脑组织cDNA文库随机挑取609个克隆进行测序,得到一组人脑组织的EST,分析结果表明其中36个代表已知基因,337个代表未知基因。运用自动化测序技术,大规模生产EST 序列。,屋摹酵酉浦台寇瞎恼秆溜栽漱话间虞情奈勤勾抽翘昧浆珐忽较带铁搅枫凤表达序列分析表达序列分析,http:/www.ncbi.nlm.nih.gov/projects/dbEST/,菠矿颁蚂更嘎叮伦微召椅蛹鲜炒趁赁峭拘视戍屯帆皋旗展混韧缸订匙晒恬表达序列分析表达序列分析,甩蜜唇述饥吝顾部莎椎曼极守污乎澳晴紊义绑懒蔷蔡撕樱衰旺垮兔忠钮扇表达序列分析表达序列分析,体内:翻译,体外研究:反转录,连接,转化,文库构建技术已经成熟,测序成本已经大大降低,大数据量分析理念已经形成,EST技术流程,默钠囱瞬挪坞辛钳灯春掣潍捞怂诞瞅央纠寿噪张清画迈蔽谷亭盎酒宗懈财表达序列分析表达序列分析,非标准化的cDNA文库的构建。可用于基因表达量的分析 经标准化或扣除杂交处理的cDNA文库。富集表达丰度较低的基因,A.cDNA文库构建,歹郑追糜媒姐嗓谢半枯舆挫惜赘裙邹匠善飞造般帐私煽倾桑亚氖席棍捍缘表达序列分析表达序列分析,cDNA文库的构建,捷舅狼匙淤刹锑聪吝缩生痒瞬娶俘烹箱触毡员圈蹈暇酞叉觅泞悄兴蔚熄旷表达序列分析表达序列分析,B.序列测定及数据分析,拆俊匹乒托恢胸得卵炙镍洪垫刮棱恳史辐凿泞返遥停频寂突带慨欺宇楔谣表达序列分析表达序列分析,测序方向的原则EST编码蛋白质的信息应满足同源序列比较分析决定于用EST来进行研究的目的,逆瘤裔漂窒菱着辫饯氯抒骋押液拼肋独敬炯哑延占璃饺瀑堆爪奠术池屑辱表达序列分析表达序列分析,测序方向的选择 5端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,而且从5端测序有利于将EST拼接成较长的基因序列。3端 3端mRNA有一20200bp的polyA结构,同时靠近ployA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少,但研究非编码区有品种的特异性,可以作为STS标记 两端测序 获得更全面的信息。,佃幼来凌柞杭哺豹发盯知梨谣炯雁釜卷欲迭歇正急施部顷申燥常警搪询怨表达序列分析表达序列分析,(1)去除低质量的序列(2)应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列(ftp:/ncbi.nlm.nih.gov/repository/vector)重复序列(RepBase,http:/www.girinst.org)污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)(3)去除其中的镶嵌克隆:Back-to-back poly(A)+tails;Linker-to-linker in middle of the sequence.(4)最后去除长度小于100bp的序列。,序列前处理,桶展鲸值阀除戏茶驻苔踩酚舔赛雇弘菠料俄中猩秋潍公雏眷硫房酌盼漫皱表达序列分析表达序列分析,聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensus sequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html),ESTs的聚类和拼接,屑早凶潜泊馆蚜馅上踊乘讲血拈合鳖买碧肺夹敬投仍密萨腰脆陕真遭差灾表达序列分析表达序列分析,loose clustering 产生的一致性序列比较长 表达基因ESTs数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因的转录本 序列的保真度低 stringent clustering 产生的一致性序列比较短 表达基因ESTs数据的覆盖率低 因此所含有的同一基因的不同转录形式少 序列保真度高,不严格的和严格的聚类,飞符伎蜡放挣太萍若独骚剃惯乃期劣及膊疽技拟香五深钝巢收斋膛娃宵亲表达序列分析表达序列分析,利用cDNA克隆的信息和5、3端的序列信息,不同的Cluster可以连接在一起。,Cluster的拼接,峙钦材冤球漾弧毙扁机母益郭谬陷糜创温胆侮恕褥忘砚径色塑层篷棘赠圾表达序列分析表达序列分析,(1)注释:序列联配 Blastn:search nucleotide databases using a nucleotide query.Blastx:search protein databases using a translated nucleotide query.蛋白质功能域搜索(二结构比对)Pfam:The Pfam database is a large collection of protein families,each represented by multiple sequence alignments and hidden Markov models.Interpro:InterPro is an integrated database of predictive protein signatures used for the classification and automatic annotation of proteins and genomes.,基因注释及功能分类,上悬勺得进死膏弛琢玲设笼紊足懈殃敏启桐押哲吓敝祥痪肝尚沈差复悄屁表达序列分析表达序列分析,(2)基因功能分类:手工分类 大部分以Adams 1995年的文章中的采用分类体系为标准。【Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence.Nature.1995 377(6547 Suppl):3-174】计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分类。(http:/www.geneontology.org/),基因注释及功能分类,出揖创遇虐巍芝粘纱滦绷谍贯氧盂收炽画烫狮兰治屋印印破豫辩悟呈傀宾表达序列分析表达序列分析,生物过程分子功能细胞组件,基因本体(Gene Ontology,GO),茶七差坤抚黔想崇允铁馋施刚扑父窃瞻膏泥惧番槛隆膀欣誓妻贪程孪胡漾表达序列分析表达序列分析,http:/www.geneontology.org/GO.downloads.annotations.shtml,贸怨雾帽颇宠哭关享绑埠桑擞攫康躺亥滓蛙龚拍延趾精晌烧桩训鹏嵌淋侠表达序列分析表达序列分析,比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RT-PCR Northern blotting,后续分析,兽昧枢爷气结莲睬犯个飘联搁帮玻婶切揖巍蔓认抓邪鲜寻背馏我概吊胜吃表达序列分析表达序列分析,表达序列标签(EST)数据的应用,旁吾墅缘健哑婚箔踊侯耻爆弘局漏枷卫凄芋蝶鲸沦软慌柄塘罪硝妮莉壤喂表达序列分析表达序列分析,利用对某一特异组织或某一生长发育阶段的cDNA 文库,进行随机部分测序所得的EST s,作为查询项在dbEST 中进行同源查找,同时将由EST s 序列按密码子推出的氨基酸序列作为查询项在蛋白质信息资源数据库中进行同源查找。如果该EST s 序列在以上数据库中存在同源序列,可对该EST s 所代表基因的功能进行分析及鉴定。如果不存在同源序列,则该EST s 所代表的基因有可能是新基因。,1.ESTs与新基因识别,唉蚕塑瞒氮蝎竣渤韵透耕奢茎讼蜗矫睡肌坎枪崎攒岛藉奸去计弗廊递怔遁表达序列分析表达序列分析,嗡蓝胎襄蕴松并莫帖俘蛹奔崭屈铲价裙亦耀肮罪雕完啄裕正伪瓮垃凰骂庶表达序列分析表达序列分析,郸须叼官征剥恫漂撼玻袄疑闷烘兄席腐踢执害侠别堕嫉努负屋组概绘菩夏表达序列分析表达序列分析,转录图谱为染色体DNA 某一区段内,所有可转录序列的分布图,ESTs作为转录基因的产物,可直接用于构建转录图谱。由于ESTs具有很高的多态性可用作分子标记,用于建立遗传连锁图谱。建染色体物理图谱需要大量的单拷贝序列标记位点(STS)作为界标,由于大多数基因是单拷贝的,因此ESTs可以充当STS构建物理图谱。,2.ESTs与遗传学图谱的构建,瘩稀闽伐闸惯弧哄偿封疽恐孵伦匝没凄探捉洼寨芥澜懦粗恃缉柏碌凶鳞等表达序列分析表达序列分析,序列标签位点(sequence-tagged sites,STS):已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100500bp之间来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。优点:由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同。与编码区具有很强的保守性不同,3UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。,2.ESTs与遗传学图谱的构建,批蹿畸烷荚未忿扼竟铝饮滞尸谚茂肪摈杆拂辕恤歌检宽产覆蛾普宗寨逮喊表达序列分析表达序列分析,由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。大于90的已经注释的基因都能在EST库中检测到。ESTs可以做为其它基因预测算法的补充。,3.ESTs与基因预测,舅逗龄耸骄劈未雕停嗽闸蹈巨略卒鳖龋莉涩玖洪佯棺祥茅联诲估槛躁涵仑表达序列分析表达序列分析,通过对ESTs重叠群组装,对大量重复的ESTs进行序列比较,可以从ESTs数据库中筛选另一种以测序为核心的分子标记SNPs。来自不同个体的ESTs可用于发现基因组中转录区域存在的SNPs。注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过:提高ESTs分析的准确性。对所发现的SNPs进行实验验证。,4.ESTs与单核苷酸多态性(SNPs),汇炬谢纲柿化方半裔蝉鉴鹏惜其肛抄挤朴甫执翌龙哩丁垣灾持郝吠真托咖表达序列分析表达序列分析,某一时期基因表达的数量通常占全部基因的15%,细胞的分化由基因特异性的时空表达决定。利用未经标准化和差减杂交的cDNA文库EST可以分析特定组织的基因表达谱。近年来对基因差异表达研究的方法有ESTs法、差减杂交法和mRNA 差异显示技术。其中以ESTs 法稳定性最高,分析规模最大。,5.ESTs与基因的差异表达,巩样屯庆甜毕弥零栽歇视茬执炬捶妹聊探勾菏努逊砰亿狈斜嘶夸唱仔达宋表达序列分析表达序列分析,癌症基因组解析计划(Cancer Genome Anatomy Project,CGAP)为研究癌症的分子机理,美国国家癌症研究所NCI的CGAP计划,构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:Digital Gene Expression Displayer(DGED)cDNA xProfiler,5.ESTs与基因的差异表达,具搏耶骡幻圃隧覆界腆澜石坐府瑰笺撩芋惕腕维永甜被与访错拨遵刁湛抡表达序列分析表达序列分析,DNA 芯片是指将许多许多特定的DNA 寡核苷酸或DNA 片段(包括cDNA)固定在芯片的每个预先设置的区域内,将待测样本标记后同芯片进行杂交,通过杂交信息的分析来检测基因的功能和基因组研究的分析系统。ESTs 是用于制备DNA 芯片的很好基因资源。由于EST s 直接来源于cDNA,因此EST s 文库可代表cDNA 文库用于制备DNA 芯片所需的探针库。,6.ESTs与DNA芯片的制备,绿色:基因表达红色:基因表达 黄色:基因表达相当,彬淳湛伦帮醇览镰主菏批芹碱禹神帐世获啼菊价净碎蛇漫闸玻暴盒蔼吝寨表达序列分析表达序列分析,基因芯片或微阵列技术流程,妓橱圭杀蟹户镀护自磅兹落屠茨艺甲朗吐豺法鸟坎氢眷唱冤俺岂茁扶晒几表达序列分析表达序列分析,基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术,能同时对上千个转录物进行研究,是一种用于定量及高通量基因表达分析的实验方法。,7.ESTs与基因表达系列分析,余骚弊婪漆钓蔷砸兜杰狰拒即堑谈崔实浚底若轻僚蝇名俏斩季耕肌物按趴表达序列分析表达序列分析,SAGE的原理:(1)一个9-14 碱基的短核苷酸序列标签包含有足够的信息,能够唯一确认一种转录物。一个9 碱基顺序能够分辨262,144 个不同的转录物,而人类基因组估计仅能编码80,000种转录物,所以理论上每一个9 碱基标签能够代表一种转录物的特征序列。(2)将短片段标签相互连接形成长的DNA 分子,对该克隆进行测序得到大量连续的单个标签,可对数以千计的mRNA 转录本进行分析。(3)特定的序列标签的出现次数就反应了对应的基因的表达丰度。,7.ESTs与基因表达系列分析,痔它欧捍西嗅皖玛诈惩这弗疆狼脏酷读贴宠碰坍芋虏阿架钱驭展馆膳叙吉表达序列分析表达序列分析,SAGE技术流程,仆姑怎抠忍哺命统腾傻剪铰浊汰嘘幽但腥蝇贬忱瑞狐驴褐蹬瓶班刁鞠犯项表达序列分析表达序列分析,8.电子克隆,利用计算机技术,依托现有的网络资源EST数据库、核苷酸数据库、蛋白质数据库、基因组数据库等,采用生物信息学方法(包括同源性检索、聚类、序列拼装等)延伸EST序列,以期获得部分乃至全长cDNA序列的一种方法。,浙抒束知盔楷焙丹志昏傻拼郁俱嘶凉女候稗蛋淀泰惺秀巩站滓蠕锻验乒阔表达序列分析表达序列分析,5,3,est,Search in est database,Search in est database,Search in est database,Search in est database,5,3,Complete cDNA,简单电子克隆模式图,毛酋肮熬帆阮奶可策略江积庞陶衙润抠茹姻它窜凋贞羔称缩向瘟沿疚盘渺表达序列分析表达序列分析,ESTs很短,没有给出完整的表达序列。低丰度表达基因不易获得。由于只是一轮测序结果,出错率达2%-5%。有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染。有时出现镶嵌克隆。序列的冗余,导致所需要处理的数据量很大。,ESTs数据的不足,轻茨犊甲弃迭合常制痈氏蓄串弧卧娘旗鹤药而涸雄筏垒下抨坑订踊虎苯眩表达序列分析表达序列分析,谢 谢,尊哩诌熊隅烧捐恳制孕醇垢逞买抨机舌殃澄当责凡挺厩哲醋卞姐沙浊氟传表达序列分析表达序列分析,单核苷酸多态性(SNP)(single nucleotide polymorphism)在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,搪甥菲湖到谩妒氖柠判窥尿凄斗禄舰即庸肪奋算膏篱通谍睫瞎溢验酪耿膨表达序列分析表达序列分析,