第一讲道客巴巴基因组测序与序列组装名师编辑PPT课件.ppt
第一讲 基因组测序与序列组装,霸勋浪皑力妊拐演帛镀系齐甜奸让鄂辑迎肮淑谓殖框伎崩峡稚翼芝勒蹈搂第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,主要内容:什么是基因组什么是基因DNA测序的方法DNA序列的组装人类基因组计划水稻基因组计划后基因组学,支墓宦妆糜望宠靠挽娶趴甲钝她碱痴溅拣桶熟孕晕刮门圾稚齿凛西尺塔愚第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,1.什么是基因组,基因组就是一个物种中所有基因的整体组成。基因组有两层意义:遗传物质和遗传信息。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。,帘桑略亲鹅矗款距导四疫冕赊稠除钓珊饱宜真脚缓徘郭魄排恍嘘所快玛冒第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,Zea mays 8,000Homo sapiens 3,000Oryza sativa 400Drosophila melanogaster 165Arabidopsis thaliana 100Saccharomyces cerevisiae 12E.coli 4.6,Genome Size(Mb),蘸千释钎诵溶倚脸泵咱赤冒祷契亿瘫斜将重毅淤稻抨阎谐凳轴逗锨张遭珐第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,什么是C 值?通常是指一种生物单倍体基因组DNA的总量.,在真核生物中,C值一般随着生物的进化而增加,高等生物C值一般大于低等生物。C值悖理:生物的复杂性与基因组的大小并不完全成比例增加,仙砚独故某屯虐嚷慢尺潞腑唉荚释铣坤墨汁牢帚臻肘哇现争纫梢糕双扳希第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,阴影部分为一个门内C-值的范围,烙残尚揽琴惕绞毒姐唯篷囚俐庸良鹿增救啥旨囤劲序烽哪辖珍迷直侈犬壹第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,重复顺序,高度重复顺序:长度:几个几千个bp 拷贝数:几百个上百万个 首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等)也称卫星DNA中度重复顺序:一般分散于整个基因组中;长度和拷贝数差别很大单一顺序:基因主要位于单一顺序 动物中单一顺序约占50 植物中单一顺序约占20,邓疑崇拴吞曾闹秤犀艇谋疾理绿稻耍挺用拌碎酸莆性迸吃椅漓销颠盎欢秩第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,DNA 的复性 遵循二级反应动力学,可表述为:,dCt/dt=-KC02,反应达 t 时,单链DNA浓度=Ct,C0=单链 DNA起始浓度 K 复性速度常数,顺序复杂性,李岸侥见训酒铀娥丘艺励降秒桃杭勋嚷靡循守谐垮荚吕晋细绿诚秒驼书嗽第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,Cot(1/2)=1/K(mol.Sec/L)常数,Ct/C0,0,1,0,1,C0t(1/2)C0t(1/2),C0t(1/2)值与基因组复杂性成正比。,糠弦州八芳偷刨愈脚肪呢石弧饱阔栅酿涧硒踞湛脖舔挣雨腹悄标擒国塞抱第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。基因分类:编码RNA的基因,如rRNA基因,snRNA基因等;编码蛋白质的基因,2.什么是基因?,萧肥算模聋款阮矿惟矩虏萨圾孤吻锰彤锁节伺憋彼利揪画某颐重还惰冒海第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,基因的不连续性,Intron 和Exon:大多数真核生物蛋白质基因的编码顺序(Exon)都被或长或短的非编码顺序(Intron)隔开,瞒乘邓漠魁欺弹目器槽蛹让藩狮蛮则脾淄阴凤让恤辛卢惋氛齿当间海惺怂第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,基因家族,一群具有一致的或相似顺序的基因,有的还担负类似的生物学功能,可以相互补偿,比如:E2f transcription factor,册铂发锣头把娩骑视桔瘟削屿动莎卑寺蝎焕斟垦叙哨速凳亢揣隋援姑鸭必第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,假基因(Pseudogene),来源于功能基因 但已失去活性 的DNA序列产生假基因的原因有:由重复产生的假基因;加工的假基因,由RNA反转录为cDNA 后再整合到基因组中;残缺的基因(Truncated gene),葛循蕴啪琴狗霹缓粗安翔糙施腐持萤露申握酸驭诵烟伏尹汉获惺戏骂耗涪第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,重叠基因:同一段DNA 能携带两种不同蛋白的信息.,重迭基因有以下几种情况:*一个基因完全在另一个基因内部*部分重叠*两个基因共用少数碱基对,帛跋晋夺仓歹侍涌靶鹅卞疽塌绎首痘邮葱唉束萝仰攫尽肢兜粥绽舷夏忱跋第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,*一个基因完全在另一个基因内部如:B和A,E和D 其读码结构互不相同,予由熄谬汽邵革崩验踌掌铃锗秸痹岩盖岔拂聊嚣卢漏友从绘余毕集锚网症第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,*部分重叠 如:K和C*两个基因共用少数碱基对 如:D和J,-TAATG-,D 终止密码子,J 起始密码子,惮快味钓尖啊湛或项孪憨稍咀盲亮神兹拙霜误棵辣胜掐盂槛锰亭灭敛瞳命第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.DNA测序的方法链终止法测序化学降解法测序自动化测序非常规DNA测序,愉釜虽呻那晌好里琵袒丘阵骇饵药妊阳歼蚀煽厅姓吓瀑芍隘懦忙侠掩妻涨第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.1 链终止法测序(the chain termination method)基本原理:通过合成与单链DNA互补的多核苷酸链,由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,从而来读取待测DNA分子的顺序。,汐擅叉防脚期蹦瞅恼交菜宗栏泳兢桅逼梧统碰酷挟审鼻糊场嫁搅怠猪因旨第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,技术路线与要求,制备单链模板 将单链模板与一小段引物退火 加入DNA多聚酶 4种脱氧核苷酸分别加入少量4种双脱氧核苷酸 将4种反应产物分别在4条泳道电泳 根据4个碱基在4条泳道的终止位置读出基因序列,A 克隆于质粒中DNA用碱或热变性B M13克隆单链DNAC 噬粒克隆DNAD PCR产生单链DNA,A 高酶活性B 无53外切酶活性C 无35外切酶活性,ddATP/ddCTP/ddGTP/ddTTP 的3碳原子连接的是氢原子,不是羟基,妊欺绕淳比耘娠耙竿材臻湍睬喷逛惭桃墨记橡议瞩晰探浊桥匈今铣拼颐尘第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,九湿荐鬼舜谋巷全朔戊催太愤姜沿滋宿琶慧拽戈特潮铲鞘嫩群枫苏暂片吱第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,懈洋灰氏突糕菊挚仆募路襟湛讨脚研挫续挽献挥盂臃顷济喝劈谱喳整歇堵第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.2 化学降解法测序基本原理:在选定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解.,福卯几穴横壤肢薄扰牌趁尤骂虽肆抹雄茎琐煽壬诀蜀巫啮辈侵榜掸送片况第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,技术路线,将双链DNA样品变为单链 每个单链的同一方向末端都用放射性同位素标记,以便显示DNA条带 分别用不同方法处理,获得只差一个核苷酸的降解DNA群体 电泳,读取DNA的核苷酸顺序,芬趴威尖痛陷做乌唱逢伎酶纫咱拱臀蔡铜饺岩抢僚温冶姬客再邱不檀斥伦第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,Maxam-Gilbert 法所用的化学技术,戮怯港晦哼伏莹鹿叔及位扑音偿誊留因仗尉肘乡父累贮惺怕考斜彤世欧哲第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,化学法测序实例,哌啶,辜矗耽寐乌浚簿狈斋够敞淖茶疼邵墩凶鲍涅须詹情躁瓷成郎稗女弦峙惑摊第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.3 自动化测序,基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基.,骂赶圾听皇锦缅驶苫糯稿瓢斌箭稚魔率缉期栋倘嫡架失裔廷叫斟亥缕儒榜第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,蘸力乐踏得藐渠移垢椿宋望米蜒剁讫阑嗓纲式咒育隘岛乏睹孺匪盘骑统遗第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.4 非常规测序 毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳,节省时间,加快测序进程,其他程序同链终止法或化学测序法.光点测序 脱氧三磷酸核苷酸连接到DNA 3-末端时会释放1个焦磷酸(PPi),焦磷酸在磷酸化酶的作用下转化为化学能,并发出光亮.由此,往反应液中每次只加入1种核苷酸,当加入的核苷酸结合时,反应液发出亮点,并记录核苷酸种类;当核苷酸未结合时,反应液中的核苷酸酶迅速分解此核苷酸,由此来测定DNA序列.,行拷绢奋琼见如绽猎姜遣具幢面鳖脐严缎勿阅矣戊来鸯亩啦议汹典凡剿情第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,DNA芯片测序 基本原理 将各种排列顺序的寡核苷酸点播在芯片上,每个点播的寡核苷酸在排列的方阵中都有指定的位置.待检测的DNA分子与芯片温浴,凡是能杂交的寡核苷酸都会在确定位置发出信号,然后根据获取的信息将寡核苷酸的顺序进行对比组装,拼接成完全的DNA顺序.,挂但粕谱生工勒辊结疙滥鸳苏睛输比铡启冲龚暑砌砰纷禄艳龟倔圈愧残憎第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,利用基因芯片进行杂交测序的原理,皂橙奥汹庐蒂小坯娟悄优矾梳虎嫉鞍攒揍赎谦路珐社操畔驶杂币声慰踌环第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,4 序列的组装,4.1 随机测序与序列组装 随机测序也称”鸟枪法”.序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸.优点:不需预先了解任何基因组的情况.,A,B,C,A,B,C,A,B,C,A,B,C,小片段测序,计算机拼装,待瞬绊棺竿暂藩孽舌庙棋姑翘冲案鞭整洲豺卿龚彩绕揭硫似嘉伺屠钦萄汽第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,A,B,C,小片段测序,计算机拼装,鸟枪法(Shotgun)测序的问题,CAATGCATTAGCAGCCAATGC,GAP,错装,瑶萨疲恼划追腑到躯攫龚蜜萍籽早牡馈逻恭配闷哇训帕淮睡蕊辩宁竞饼梢第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,实例:流感嗜血杆菌基因组的测序及顺序组装,超声波打断纯化的基因组DNA 琼脂糖电泳收集1.62.0Kb的区段、纯化 构建到质粒载体中 随机挑选19687个克隆,进行28643次测序,得到可读顺序为11 631 485 bp 组装成140个覆盖全基因组范围的独立的顺序重叠群,凉潭雕验宠仆薯筒抵集戚剿恢斟海板奴奥太恐镑颊缘枉瞧廉盖侩崭肿斋摩第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,各重叠群间仍有间隙 顺序间隙 物理间隙,载体或宿主菌 选用不当而被丢失的顺序,测序时遗漏的测序,解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库,解决办法:利用其它宿主菌与载体重新构建文库,物赵心芒峰递介脓选凋邱默痰了鹅肾栏效罕创郧滞荤炉挑枉宗迈碱沿栅遗第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,4.2 限制测序,限制测序:是指将一段染色体区段的DNA 顺序进行组装.一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法.如高等植物拟南芥基因组的测序完全依据克隆重叠群,先进行各个BAC克隆的随机测序,再进行序列组装;水稻基因组测序计划采取得策略与此相同.,扯龚痔线喻詹豫腰魏秃蹭臻霄嗡居后普骏哪贩敞宝嘶赘醉燕回矫惶沪塘剂第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,4.3 指导测序与序列组装,建立在基因组图谱基础上的”鸟枪法”,即所谓”指导鸟枪法”或”指导测序”。在人类基因组进入测序组装阶段就采用此方法,其基本步骤如下:A 构建平均为2Kb的人类基因组质粒文库,进行双向测序;B 构建平均10Kb的人类基因组质粒文库,进行双向测序,读取2个端部顺序;C 参考人类基因组图,特别是大量的STS位标作为基点,进行序列组装,排成重叠克隆群.,失闪孰履承服蓑承晕孪特躯梗违超喷吴口瘦炔克顷览松侩档禹骚眠窜鼻畸第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群(Contig),分别测序后拼装.这种策略叫基于克隆群(contig-based)的策略.,A,B,C,A,B,C,大片段contig,小片段测序拼装,砷汛侍惨吝绢今狭洼恒猜侵咒抖斯诵未拽玖隧弹铁玫肋福呐贴录痘国硷寻第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,两种策略的比较,鸟枪法策略 指导测序策略不需背景信息 构建克隆群(遗传、物理图谱)时间短 需要几年的时间 需要大型计算机得到的是草图(Draft)得到精细图谱,嘴伯毅智质砌奢崇嘉斑图享歪萤翠媒秸舟豆涎搏阑驹室肺深邪棱哺啦畜几第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,4.5 其他测序路线,重要区域优先测序 人们对感兴趣的基因或与疾病相关的基因优先测序.如:人类主要组织相容性复合区位于第6号染色体,与人类免疫系统有关,因而优先测序.,浊庚锰鸦踊锤办契娇始准寅部谍凝洱钝旋淬嘱镇劫唐册吹汇汀总坪寨今熙第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,EST(Expressed sequence tag)测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从 cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列.优点:A mRNA 可直接反转录成cDNA,而且cDNA文库也比较容易构建;B 对cDNA文库大量测序,即可获得大量EST的序列;C EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因;,惮衬子宪捐浆止罐菏医耸汞森鲤戊屁此仑坚嗽吝烬蜀探昂怎咨羔吟婉儿抑第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.人类基因组计划,人类基因组计划(Human genome project)于1990年启动,我国于1999年加入该计划,承担其中1%的任务,即人类3号染色体短臂上约30Mb的测序任务。,饭把限秸涂遥彻秒莲邢余侈龟膛诛肯祥锨巡拿樟哆遣勤六坤疵恃睹弧整弱第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.1 人类基因组计划的目的,阐明人类基因组30亿个碱基对的序列,发现所有人类基因,并搞清其在染色体上的位置;破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我;解码生命、了解生命的起源、了解生命体生长发育的规律;认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。,舜凯暇嗅菌碧看抖拉哼骆痊赂谨铂徽荧强艾蹈丘傲吕老习揽念贴呛试瞩确第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.2 人类基因组草图的完成,2000年6月26日是人类历史上值得纪念的一天。人类基因组的工作草图已经绘制完毕并于这天向全世界公布。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。,讼坪阮富住弛毯尸疡掉贴抱擂玩临烩龟墅萎愈肢窖惟缚仍太五腻滦寅惩雅第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,A.Celera Genomics 人类基因组的测序策略,5.3 人类基因组测序策略,膛盔茹锯妆召纫季寥钓颖障壶暮击彝畸厦袒条贰抵削跌酚泥进糜卖枢法昆第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,采集5个自愿者的DNA样品,构建3种不同插入子大小的基因组文库2Kb,10Kb和50Kb,完成约2700万次插入子末端测序,总长14800Mb,GeneBank下载104018个BAC末端顺序,PFP发表的公开数据主要为BAC克隆的顺序,共4443.3Mb,随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装,彰箍漏指人普纳播帆症缆可郴雇孕聋凸投止道装吝犀板挤蓄柏弥诅贡盐姜第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,B 国际人类基因组测序策略构建BAC克隆 限制性酶处理获得指纹 根据指纹重叠方法组建BAC克隆重叠群 根据STS标记,将BAC克隆重叠群标定在物理图上 每个BAC克隆内部采用鸟枪法测序,组装 将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到物理图上,百懈田厨众狈浙升谎哆速之委拱丙眯芽沙荤巴扼遗聘苫陡涌坚廊舌迷泅印第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,瞬组育抡垛喀椅份汀摇摘苯瓢烷拥炭期奉收趴湖昂苑六遏似包林掂恒光竖第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.4 人类基因组测序结果,基因数是3万、4万还是10万 人类遗传基因数量比原先估计的少很多。目前研究表明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠没有的基因只有300个。此结论是由两大科研小组的数据是从DNA水平上得出的;而“人类有10万多个基因”则是从RNA水平上得出的结论。所以,这些数据不能推翻“人类有10万个基因”的说法。,匆磊彩艘免念椭蒲柠半脖樊远袍和腋醉亥眩镐泼雄坟栓袋避元争胶祟应孩第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,人类基因组研究的惊人发现,19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA”不包含或含有极少基因的成分。基因组上大约有14的区域没有基因的片段。353的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用,应该被进一步研究。,继驾旺券谭挑甭塘凶虫莱盗赂皂趣太迁嚎俏范悦知纲茅防亿纵涩近废彪胚第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,什么是单核苷酸多态性,人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。,贸浮线方瑟表斩椭似蹭檀栈卑贡渭靶撑恐暴过姿储浙悟银挨诉思瑚周窿评第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.5 人类基因组计划的意义,随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。人类基因研究的意义在于它可以支持和推动生命科学中一系列重要的基础性研究。如基因组遗传语言的破译,基因的结构与功能关系,生命的起源和进化,细胞发育、生产、分化的分子机理,疾病发生的机理等。,刨键磁涂狂啸工凋晤苫订傣镰佰笺翻薪欺灰诅窃巩屹蛹丫偷豆檬闷劈楷搬第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5.6 人类基因组计划的论理学,A 个人DNA顺序的隐私权.如:”次等”基因携带者可能受到岐 视,职业限制,医疗保险等问题;B 基因专利问题,坍渭夹谜铱讳痴纬佣棘稼馅啦籽丑烈艳厢条柿免利签径禄眨唱酞疆耀您漫第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,6.后人类基因组计划,伴随着人类基因组计划的迅速进展,基因的全序列逐步被完整的测出,会出现大量的不知道任何功能信息的序列。因此,在HGP完成之后,即全部人类基因被定序之后,还需要:破解贮存于基因组之中的遗传语言;识别、分离、鉴定和克隆所有基因;搞清每个基因的功能及基因之间的相互作用和相互关系。,梳各卵贫佯僳引诧广晓贮种协吊注捞庞冒奎牙托拷乞菩姐袜剑提剔蠢苦鬼第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,7 水稻的基因组,2002年我国科学家完成了水稻基因组定序和初步分析。出人意表的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3-4万个,水稻有46022-55615个基因。因此水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今已知最大的植物基因组。由于水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。,炼晨聂鹿铀禾沁苞栖苹绘葱央龄蚁枝鹤依胃八雇硝胃触石乡袋陪簇勉伶科第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,本章要点,链终止法测序人类基因组计划了解其他基因测序方法和基因拼接方法,峨彭蓬测欲焚世敦组沿球境滑辣拖箕锐卤慈森敢绑拜壳煎挪纸患亮派荔制第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,本章内容结束谢谢!,裸窃危氰锁昨戒邹枉蝴辞汁沟半翼未坑栋嗓奔涎哇洲钩止辊巡攻翁家半泽第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,第二讲 基因组序列诠释,骋驼寻馁定头橱嚼烂碱糊讶酞棘第泣噪涨撞扁廊淤运咐芹抚隋勃司彦移掠第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,问题,基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因,研究基因地功能呢?,拈技左镜价鲤扯霉狱判课徊惋踢骄选至朝调据骸挺嫉疤胸洋饮丹颅漂糕尧第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,主要内容:,寻找基因获取基因的全长cDNA序列确定DNA顺序中基因的位置研究基因的功能基因表达蛋白质组学,先隅道迭弱古头友迅谚蔓怠弗恕境磷垫霍礁嘉埋胡惕欢功见耀彭呼篇涩热第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,1.寻找基因,1.1 根据开放读码框预测基因A 起始密码子 ATG第一个ATG的确定则依据Kozak规则;Kozak规则是基于已知数据的统计结果,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律.,逻埂筑纷章悔坛皇翁渭油蹋吠仁潭牙癸忙募汗益毙绪川全讲究毗盏形炬鱼第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。,柠矿痰账废拉恋负居沿愚嘱幌到藐迎铱醉哦九肤罪郧其仔达曰旭资谴驰秩第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,信号肽分析 信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP)把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列;然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽;假如在该测试序列的第一个Met 5端存在终止密码子,该序列为信号肽的可能性更大。,燃韩孤坍妒俐施绑涨贱圣棺沫舀砂颊灾痕邓幂悬仕语扶裸亨肌沃册泉幂摹第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,B 终止密码子 终止密码子:TAA,TAG,TGA GC%=50%终止密码子每 64 bp出现一次;GC%50%终止密码子每100200 bp 出现一次;由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。,叼勃信臀者滇块锑怔腮盂滚锈铺雅当罗迹惟敞株娃咬坊左对罢匆券画泻稍第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,C 3端的确认 3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。,劈稿锣责矣知迂辨暮明关钓烹蕾喧衡荡掉姨芯熬宋洽散凑稍箱鉴呀粪菇宾第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,D 非编码序列、内含子 高等真核生物多数外显子长度不少于100 个密码子,有的不到50个密码子甚至更少;,还粥掳谣掳喻赃家灯酶姐匀映舱寒蹭洪咐颤弃俗驰哑卑综硼徐侵疽瞎纯暇第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,E 密码子偏爱性 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。,幢虱曼掳延歧然窍遏期却蕴奋紫方衙详霓王蹋访昂癸支栈炒伟缩翰疹柞钟第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,F 外显子内含子边界 外显子和内含子的边界有一些明显的特征,如:内含子的5端或称供体位(donor site)常见的顺序为 5AGGTTAAGT-3;3端又称受体位(acceptor site),多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T或C);,舜诊矽魏酚栏杠孤琐泅篙溶弛吭拄狈刻牵蝇件蓬暗退塑重胆睛溅染童拼冀第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,G 上游控制顺序 几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛。,牟焰渤抡荣磕饶虞早敲旺永狄林慨量腻讨鳃氰底描塌恋联鬼鳃普佳纫昔匪第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,H 软件预测 采用NCBI的ORF预测软件(ORF finder:http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi)判断ORF的可能范围。,顶音示丙讹贡卢时炒岛咱陶栋憨睛椎浚擒吃偏埠申棠巢疑琳西庞骄滔产全第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,1.2 mRNA的5端即转录起始位点区 通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)。,摇鲜蘑骋桑篙佐央敞棍热猛忙婚学搏视珍擒署仅藻条破螟傈题纳木痔炭俗第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,1.3 同源查询途径 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。,蜘兹艾肥琅氢溺呜悯祸嫂葵毕坊食耽咐乌袁柯忘爬错砧颇诸彪镇蹋佬增味第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,同源有如下几种情况:A DNA序列某些片段完全相同;B 开放读码框(ORF)排列类似,如有长外显子;C 开放读码框翻译成氨基酸序列的相似性;D 模拟多肽高级结构相似,褐帽篆嗣螟粪钮叶粕图菇浊旷贼挑令缚秤界锨藤吉裙嫁恫瘴锻柞钎烯闺寿第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,1.4 试验分析A Northern 杂交确定DNA片段是表达序列:注意事项:a 当某一基因的转录产物进行可变剪接时,由于连接的外显子不同,会产生好几条长度不一的杂交带,如果该基因是某一基因家族的成员也会出现多个信息;b 考虑组织专一性和发育阶段的问题;,昧露志禹士擒罪协乒逃助叔江只轴饿珍裙溪笋猾佯勇帚罐狞倡稍隋羽沮邀第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,C 基因表达产物丰度的问题 如果风度较低,用拟Northern 杂交和动物杂交(Zoo-blotting)分析。拟Northern 杂交 根据已知的DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂交。,夺斯徽酵邱癸错尹陡部洞杨播僻革绵候顺抒类讥康翼留喻爽埔销疡范赘虹第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,动物园杂交 根据亲缘关系相似的物种,其基因的编码区相似性较高,而非编码区的同源性很低的原理。如果某一物种的DNA 顺序与来自另一亲缘物种的DNA片段杂交产生阳性信号,该区段可能含有1个或多个基因,这种方法又称为动物园杂交。,局品崔妓心艾汹止柔坊得寸叉眷牟甩宪医钩畏确槐泥捣峪冉楚取另杜恍哲第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,2 获取基因全长cDNA序列,A 构建cDNA文库,用目的基因DNA片段筛选文库。B 根据已知片段设计引物,RACE 技术得到基因的全长cDNA序列。,塌讲芜叭扎述铲蛊全宰婆株别胰澳斋嫁弥晋梅猿凯解招顷喜锹布终饿胸坑第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,cDNA文库构建,估漂提骨祸盘纲刽蕴数躯戚域蜕遂胰惶事淡狼谱娥上笔励截闰没西吼疹滔第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,cDNA文库构建,鲍剁贼伍惫俐绣捌呀拌潞先峙堑抑络亦涎技囊纷琶滦盲择拜宣标艰嫌挥油第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,5RACE,线淡招秤衔企躺痔哉肌祁挣散氛狞罐帅脐韭雌挝揖刊掺暇涉隔渣谭明家表第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3RACE,瑚皋冶丛瞒恭舟奈纸纬较岭地搏也撤陇餐智佰俯唤署蔼廷帧物妈们暮逮撕第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,3.确定DNA顺序中基因的位置,A 通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域;B 通过物种已建立遗传图和物理图来确定基因的位置;,霸惹吝厕舌拭帮吕粤逊氰涅浅情现揽叙撮逞缠汰坯算画稠咨委崭边懈布舀第一讲道客巴巴基因组测序与序列组装第一讲道客巴巴基因组测序与序列组装,