表达序列分析.ppt
《表达序列分析.ppt》由会员分享,可在线阅读,更多相关《表达序列分析.ppt(41页珍藏版)》请在课桌文档上搜索。
1、第七章 表达序列分析,生物信息学,搁慷任淌澳钵媳弧艰痹廖钎灿苗缸坎赦管丰一泽达视譬唁茅漳蠕独定柞故表达序列分析表达序列分析,表达序列标签(Expressed Sequence Tag,EST)是由大规模随机挑取的cDNA 克隆测序得到的组织或细胞基因组的表达序列标签,表达序列标签(EST),良劳敢刁郭转什骚洼蛊颁垄杀藤挟愈屉饿萨拦皋粕纽泪蚀磺橙板亚靴性波表达序列分析表达序列分析,EST的概念,EST是指通过对cDNA 文库随机挑取的克隆进行大规模测序所获得的cDNA 的5或3端序列,长度一般为60 500 bp.EST 是基因的“窗口”,可代表生物体某种组织某一时间的一个表达基因,故被称之为“
2、表达序列标记”,箩葬再料烘歉厂模顶怎虽憎江吊勉柞桐庭哆昧汾蓟旦茸他寒背梨锡疥略霸表达序列分析表达序列分析,EST 技术的形成和发展,上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但反对者认为cDNA序列缺少重要的基因调控区域的信息。EST技术应用的首次报道是Adams(1991)等从三种人脑组织cDNA文库随机挑取609个克隆进行测序,得到一组人脑组织的EST,分析结果表明其中36个代表已知基因,337个代表未知基因。运用自动化测序技术,大规模生产EST 序列。,屋摹酵酉浦台寇瞎恼秆溜栽漱话间虞情奈勤勾抽翘昧浆珐忽较带铁搅枫凤表达序列分析表达序列分析,http:/www.ncbi
3、.nlm.nih.gov/projects/dbEST/,菠矿颁蚂更嘎叮伦微召椅蛹鲜炒趁赁峭拘视戍屯帆皋旗展混韧缸订匙晒恬表达序列分析表达序列分析,甩蜜唇述饥吝顾部莎椎曼极守污乎澳晴紊义绑懒蔷蔡撕樱衰旺垮兔忠钮扇表达序列分析表达序列分析,体内:翻译,体外研究:反转录,连接,转化,文库构建技术已经成熟,测序成本已经大大降低,大数据量分析理念已经形成,EST技术流程,默钠囱瞬挪坞辛钳灯春掣潍捞怂诞瞅央纠寿噪张清画迈蔽谷亭盎酒宗懈财表达序列分析表达序列分析,非标准化的cDNA文库的构建。可用于基因表达量的分析 经标准化或扣除杂交处理的cDNA文库。富集表达丰度较低的基因,A.cDNA文库构建,歹郑追
4、糜媒姐嗓谢半枯舆挫惜赘裙邹匠善飞造般帐私煽倾桑亚氖席棍捍缘表达序列分析表达序列分析,cDNA文库的构建,捷舅狼匙淤刹锑聪吝缩生痒瞬娶俘烹箱触毡员圈蹈暇酞叉觅泞悄兴蔚熄旷表达序列分析表达序列分析,B.序列测定及数据分析,拆俊匹乒托恢胸得卵炙镍洪垫刮棱恳史辐凿泞返遥停频寂突带慨欺宇楔谣表达序列分析表达序列分析,测序方向的原则EST编码蛋白质的信息应满足同源序列比较分析决定于用EST来进行研究的目的,逆瘤裔漂窒菱着辫饯氯抒骋押液拼肋独敬炯哑延占璃饺瀑堆爪奠术池屑辱表达序列分析表达序列分析,测序方向的选择 5端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较
5、好,而且从5端测序有利于将EST拼接成较长的基因序列。3端 3端mRNA有一20200bp的polyA结构,同时靠近ployA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少,但研究非编码区有品种的特异性,可以作为STS标记 两端测序 获得更全面的信息。,佃幼来凌柞杭哺豹发盯知梨谣炯雁釜卷欲迭歇正急施部顷申燥常警搪询怨表达序列分析表达序列分析,(1)去除低质量的序列(2)应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列(ftp:/ncbi.nlm.nih.gov/reposi
6、tory/vector)重复序列(RepBase,http:/www.girinst.org)污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)(3)去除其中的镶嵌克隆:Back-to-back poly(A)+tails;Linker-to-linker in middle of the sequence.(4)最后去除长度小于100bp的序列。,序列前处理,桶展鲸值阀除戏茶驻苔踩酚舔赛雇弘菠料俄中猩秋潍公雏眷硫房酌盼漫皱表达序列分析表达序列分析,聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用
7、:产生较长的一致性序列(consensus sequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html),ESTs的聚类和拼接,屑早凶潜泊馆蚜馅上踊乘讲血拈合鳖买碧肺夹敬投仍密萨腰脆陕真遭差灾表达序列分析表达序列分析,loose clustering 产生的一致性序列比较长 表达基因E
8、STs数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因的转录本 序列的保真度低 stringent clustering 产生的一致性序列比较短 表达基因ESTs数据的覆盖率低 因此所含有的同一基因的不同转录形式少 序列保真度高,不严格的和严格的聚类,飞符伎蜡放挣太萍若独骚剃惯乃期劣及膊疽技拟香五深钝巢收斋膛娃宵亲表达序列分析表达序列分析,利用cDNA克隆的信息和5、3端的序列信息,不同的Cluster可以连接在一起。,Cluster的拼接,峙钦材冤球漾弧毙扁机母益郭谬陷糜创温胆侮恕褥忘砚径色塑层篷棘赠圾表达序列分析表达序列分析,(1)注释:序列联配
9、 Blastn:search nucleotide databases using a nucleotide query.Blastx:search protein databases using a translated nucleotide query.蛋白质功能域搜索(二结构比对)Pfam:The Pfam database is a large collection of protein families,each represented by multiple sequence alignments and hidden Markov models.Interpro:InterPro
10、 is an integrated database of predictive protein signatures used for the classification and automatic annotation of proteins and genomes.,基因注释及功能分类,上悬勺得进死膏弛琢玲设笼紊足懈殃敏启桐押哲吓敝祥痪肝尚沈差复悄屁表达序列分析表达序列分析,(2)基因功能分类:手工分类 大部分以Adams 1995年的文章中的采用分类体系为标准。【Adams.MD,et al.Initial assessment of human gene diversity and
11、 expression patterns based upon 83 million nucleotides of cDNA sequence.Nature.1995 377(6547 Suppl):3-174】计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分类。(http:/www.geneontology.org/),基因注释及功能分类,出揖创遇虐巍芝粘纱滦绷谍贯氧盂收炽画烫狮兰治屋印印破豫辩悟呈傀宾表达序列分析表达序列分析,生物过程分子功能细胞组件,基因本体(Gene Ontology,GO),茶七差坤抚黔想崇允铁馋施刚扑父窃瞻膏泥惧番槛隆膀欣誓妻贪程孪胡漾表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 表达 序列 分析

链接地址:https://www.desk33.com/p-605794.html