系统生物学合成生物学与转录组学.ppt
人工生命artificial life,2007年6月 美国科学家克雷格文特尔和他领导的研究小组宣布,他们首次实现了完整的基因组在物种间的移植,这一成功为首个人造生命的降生奏响了序曲。文特尔说,这次成功让他向着制造出首个人造生命又迈进一步,他将在几个月内利用人工合成的基因组展开类似的移植试验,实现科研史上零的突破。如果试验成功,文特尔就能宣布他造出全球第一个合成生命形式。2010年5月20日 J.Craig Venter Institute(JCVI),a not-for-profit genomic research organization,publishedresults today describing the successful construction ofthe first self-replicating,synthetic bacterial cell.The team synthesized the 1.08 million base pair(1080kb)chromosome of a modified Mycoplasma mycoides genome.Thesynthetic cell is called Mycoplasma mycoides JCVI-syn1.0and is the proof of principle that genomes can bedesigned in the computer,chemically made in thelaboratory and transplanted into a recipient cell toproduce a new self-replicating cell controlled only bythe synthetic genome.This research will be published by Daniel Gibson et alin the May 20th edition of Science Express and willappear in an upcoming print issue of Science.,Genome transplantation inbacteria:changing onespecies to another,天然完整基因组种间转移:As a step toward propagation ofsynthetic genomes,we completelyreplaced the genome of a bacterialcell with one from another species bytransplanting a whole genome asnaked DNA.Intact genomic DNAfrom Mycoplasma mycoides(蕈状支原体)large colony(LC),virtuallyfree of protein,was transplanted intoMycoplasma capricolum(山羊支原体)cells by polyethylene glycol(PEG)-mediated transformation.Cellsselected for tetracycline resistance,carried by the M.mycoides LCchromosome,contain the completedonor genome and are free ofdetectable recipient genomicsequences.These cells that resultfrom genome transplantation arephenotypically identical to the M.mycoides LC donor strain as judgedby several criteria.-Science.2007 Aug 3;317:632-8,合成基因组-Science论文,Science 2 July 2010:Vol.329.no.5987,pp.52-56,Creation of a Bacterial Cell Controlled by a Chemically,Synthesized Genome,Daniel G.Gibson,1 John I.Glass et al,We report the design,synthesis,and assembly of the 1.08megabase pair,Mycoplasma mycoides JCVI-syn1.0 genome starting from digitizedgenome sequence information and its transplantation into a M.capricolum recipient cell to create new M.mycoides cells that arecontrolled only by the synthetic chromosome.The only DNA in thecells is the designed synthetic DNA sequence,including watermarksequences and other designed gene deletions and polymorphisms,andmutations acquired during the building process.The new cells haveexpected phenotypic properties and are capable of continuous self-replication.,合成生命的关键步骤,First Self-Replicating Synthetic Bacterial Cell 20-May-2010,1)合成供体的基因组DNA:首先,将蕈状支原体的全基因组测序,并按照该序列信息将其合成为1078条平均长度为1080bp的DNA片段。这些片段两两间 具有80bp的部分重叠,所有片段拼接起来构成蕈状支原体的全长基因组。值得注意的是这些合成的片段较天然基因组略有一些改动,包括去除了14个不重要的 基因、为阻断基因而设计的两个插入序列、27处单核苷酸多态性(其中19处在意料之中)以及4条用来区分于天然序列模本的“水印”标记(Watermark),这些改动都不影响细胞正常的生命活动。该过程涉及到计算机对合成序列的精密计算。,2)合成DNA片段的拼接:将以上合成的1078条DNA片段分别连接到载体,使其能在酵母细胞中通过同源重组拼接起来。于是,平均1080bp的DNA片段,10个一组拼接为大约10kb的片段(109个),然后将这些连接有目的基因片段的载体从酵母中分离出来,转入大肠杆菌E.coli中进行扩增,以限制酶筛选出阳性克隆;之后再将阳性克隆质粒中的这109条10kb左右的片段按同样的方法每组10个拼接成100kb的片段(11个);这11条片段最终拼接成完整的总共1077 947bp的基因组(由于携带太大片段的载体在E.coli中不能稳定传代,因此后两步拼接中采用多重PCR来筛选阳性克隆)。此过程除了2个衔接反应是在体外用酶处理构建,其余所有的片段都是在酵母细胞内依靠同源重组拼接而成。,3)人工基因组的甲基化修饰:由于供体细胞(蕈状支原体)和受体细胞(山羊支原体)共用同一套限制酶系统,而天然的供体基因组是经甲基化修饰的。因此,拼接完成的基因组DNA还需在体外用甲基化酶(从蕈状支原体或山羊支原体提取物中纯化)进行修饰,以避免受体细胞限制酶系统的阻碍。4)人工基因组移植入受体细胞:将构建好的人工合成基因组移植入山羊支原体内。细胞经过不断分裂传代,具有人造基因组的细胞在含抗生素的培养基中筛选出来,同时含有天然DNA的细胞逐渐消失殆尽。最终只剩下含有山羊支原体细胞质但由合成DNA控制的人工嵌合体细胞。虽然蕈状支原体和山羊支原体在基因组上75%是同源的,但该人造细胞明显表现出蕈状支原体的生长特性。,合成生命操作图,解,取名 Synthia:人造儿创造这个可复制的试验性单细胞生物花费了4,000万美元,人工合成基因组中的水印,The secret amino acid messages contained in watermarks,that were embedded in the worlds first manmade bacterial,genome.,NCBI checked into the genetic sequence submitted by,Venters Institute and found the watermarks hidden in,plain sight.,The five coded messages that will go down in history as,embedded in the first synthetic genome,VENTERINSTITVTE,CRAIGVENTERHAMSMITH,CINDIANDCLYDEGLASSANDCLYDE,代表5个作者:Craig Venter,Hamilton Smith,John Glass,Clyde Hutchison,人工基因组组装与检测,合成基因组结构图,Transcriptomics,转录组学,Transcriptome:An evolving definition,(The population of)mRNAs expressed by a genome at any given time(Abbott,1999),转录组(Transcriptom):细胞所包含mRNA的总和。与基因组不同的是,转录组的定义中包含了时间和空间的限定。转录组学(Transcriptomics):研究细胞在某一功能状态下所含mRNA的类型与拷贝数;比较不同功能状态下mRNA表达的变化,搜寻与功能状态变化紧密相关的重要基因群。,新定义,The complete collection of transcribed elements of the genome.(Affymetrix,2004)mRNArRNA,tRNAsnmRNAs(small non-messenger RNAs)microRNAs and siRNAs(small interferring RNAs)snoRNAs(small nucleolar RNAs)核仁小分子RNAsnRNAs(small nuclear RNAs)Other non-coding RNAsLong non-coding RNA(lncRNA),转录本,All transcripts,All mRNAs,Transcriptomics,Definition The study of characteristics and regulation of the functional RNA transcript population of a cell/s or organism at a specific time.Scopethe population of functional RNA transcripts.the mechanisms that regulate the production of RNA transcriptsdynamics of the trancriptome(time,cell type,genotype,external stimuli),一、转录组学研究全部RNA的表达及功能,转录组(transcriptome)指特定状态下一种细胞或组织所能转录出来的所有RNA的总和。包括编码RNA,即mRNA和非编码RNA(non-coding RNA,ncRNA)转录组学(transcriptomics):是在整体水平上研究细胞基因转录情况及转录调控规律的科学。RNA组学(RNomics):是分析、鉴定非信使小RNA(small non-messenger RNA,snmRNA)在特定状态下表达情况、功能及其与蛋白质的相互作用。,转录组的特点:受到内外多种因素的调节,因而是动态可变的。能够揭示不同物种、不同个体、不同细胞、不同发育阶段及不同生理病理状态下的基因差异表达信息。,基于测序:cDNA文库、illumina测序基于杂交:cDNA芯片(GeneChip,microarray)基因表达聚类,转录组学的研究方法,(一)微阵列是大规模基因组表达谱研究的早期主要技术,大规模表达谱或全景式表达谱(global expression profile):是生物体(组织、细胞)在某一状态下基因表达的整体状况。微阵列或基因芯片(DNA chip):利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸探针,并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。,Spotted MicroarrayscDNA ArraysOligo Arrays,In Situ Oligo SynthesisPhotosynthesisPlaner surfaceMicrofluidics chipE-field synthesis,Integrated Chips Integrated uF,microarray and detection chips with PCR,fluorescence or e-detection,MicrofluidicsPlasticsCeramics SiliconOther materials,不同的生物芯片技术平台,点样芯片,原位合成芯片,微流体芯片,整合型芯片,基因芯片的探针,Tagged RNA fragments flushed over array,基因芯片的杂交实验,Experimental overview:,Cy3和Cy5,Cy3激发波长532nm,Cy5激发波长635nm,图像扫描,Cy5,Cy3,归一化,Limit of Detection:1 in 30,000 transcripts 20 transcripts/cell,Red increase of Cy5 sample transcriptsGreen increase of Cy3 sample transcriptsYellow equal abundance,差异基因筛选,原理:采用cy3/cy5的ratio值对差异基因进行 判断,或采用统计方法对差异基因进行统计推断。方法:倍数法:cy3/cy5比值大于2或者小于 0.5Z值法:Z=(X-)/作用:发现两个样本间的差异表达基因,便于后续分析。,Microarray and GeneChip Approaches,Advantages:RapidMethod and data analysis well described and supportedRobustConvenient for directed and focussed studiesDisadvantages:Closed system approachDifficult to correlate with absolute transcript numberSensitive to alternative splicing ambiguities,高通量测序,高通量测序技术(High-throughput sequencing)是指能够一次并行对几十万到几百万条DNA分子进行序列测定,每一次序列测定的读长一般较短的测序技术。高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。,高通量测序中重要名词解释,1、测序深度:测序得到的总碱基数与待测基因组大小的比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10。2、覆盖度:测序获得的序列占整个基因组的比例。由于基因组中高GC含量,重复序列等复杂结构的存在,测序最终拼接组装的序列往往无法覆盖所有的区域,这些区域就叫做Gap。二者的关系:测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。当测序深度在1015X以上时,基因组覆盖度和测序错误率控制均得以保证。,3、RPKM(reads per kilobase per million reads)是每百万读段中来自于某基因每千碱基长度的读段数。其公式为:其中,total exon reads指映射到某个基因上的reads数,mapped reads指map到所有基因的总的reads数。RPKM不仅对测序深度作了归一化,而且对基因长度也作了归一化,使得不同长度的基因在不同测序深度下得到的基因表达水平估计值具有了可比性,是目前最常用的基因表达估计方法。,基于illumina测序的转录组分析:RNA-seq,样品检测文库制备Cluster StationIllumina Sequencing生物信息分析,Total RNA样品检测,Agilent 2100 检测OD260/280:1.82.2 RNA 28S:18S 1.0;RIN7,第一天,消化DNA,mRNA的分离,mRNA的打断,cDNA的合成,第二天,末端修复,加接头,胶回收,3端加A,第三天,PCR,PCR胶回收,文库制备,cDNA:为具有与某RNA链呈互补的碱基序列的单链DNA即complementary DNA之缩写。以mRNA为模板,经反转录酶在体外反转录成cDNA,与适当的载体(常用噬菌体或质粒载体)连接后转化受体菌,则每个细菌含有一段cDNA,并能繁殖扩增,这样包含着细胞全部mRNA信息的cDNA克隆集合称为该组织细胞的cDNA文库。,cDNA文库,真核mRNA的纯化,mRNA的纯化主要通过磁珠吸附原理从而分离纯化Oligo(dT)25磁珠纯化原理主要是mRNA的3的poly A与磁珠在bindingbuffer的作用下相结合。磁珠通过MPC(磁分离器)从溶液中分离出来。mRNA与磁珠结合后,再用Tris-HCL在加热条件下解离洗脱到溶液中。,mRNA反转录,纯化过的mRNA样品加入1 l的fragment buffer 70作用1.5min。加入1l的stop buffer终止反应。加入沉淀剂(NaAc 糖原 无水乙醇)沉淀酶切产物。,末端修复cDNA 3末端加AAdapter连接,不同方法比较,碱基片段杂交,合成第一个碱基,Cycle 1:按顺序加入反应试剂,清除未反应的碱基和试剂,激发碱基荧光并收集荧光信号 去除阻断基团和荧光基团,Cycle 2-n:重复前面的步骤,基于SBS测序技术,Cluster station,剩下的复制链其一端“固定”在芯片上,另外一端随机和附近的另外一个引物互补,被“固定”住,形成“桥”(bridge)。形成的单链桥,以周围的引物为扩增引物,在芯片表面进行扩增,形成双链。双链经变性成单链,再次形成桥,并作为下一轮扩增的模板继续扩增反应。反复若干轮扩增,每个单分子得到了大量扩增,成为单克隆“DNA簇群”。,生物信息分析,基因表达聚类分析,转录组学方法的应用导致基因表达数据爆炸性增长。如何对这些数据进行分析,从中提取有意义的生物学信息,已成为转录组学的研究热点和技术瓶颈。聚类分析技术能将待处理的对象分配到相应的聚类中,使得同一聚类中的对象差别较小,不同聚类之间的对象差别较大。聚类分析技术在转录组学研究中,非常适合大批量分析基因群的功能。,基因表达聚类的数据表现,Systematic variation in gene expression patterns in human cancer cell lines.Nature,2000,Ross et al.,有参考基因组序列信息分析流程,Reads 在基因组上的分布,基因结构优化,(Nagalakshmi,U.et al.,2008),通过转录组测序鉴定出酵母3 和5 UTR区域,鉴定基因可变剪接,exon1,exon2,exon3,exon1,exon2,exon3,exon1,exon3,common reads,junction reads,mRNA,鉴定融合基因,新转录本预测,N Eng J Med 2009,SNP分析,Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome,Genome Res 2010,Rice Transcriptome,Material callus root at seedling stage(14d)shoot at seedling stage(14d)flag leaves(2 stages)panicle(3 stages)Methods RNASeq(paired-end&single end)DGE small RNA(18-30 nt),基因功能注释基因结构分析鉴定出大量新转录本可变剪接鉴定基因融合鉴定,无参考基因组生物信息分析,Unigene功能注释Unigene的GO分类Unigene代谢通路分析预测编码蛋白框(CDS)Unigene表达差异分析Unigene在样品间的差异GO分类和Pathway富集性分析,De novo reads组装流程,Unigene GO 分类,Unigene COG 功能分类,基因表达差异分析,N1:total tag Number in sample A N2:total tag Number in sample BX:Gene expression level in sample A y:Gene expression level in sample BReference:Audic S.et al.The significance of digital gene expression profiles.Genome Res.1997 7(10):986-995,Unigene pathway 富集性分析,Pathway富集性分析列表,MicroRNA 简介,(1)长度为21nt左右核苷酸的内源性单链小分子RNA;(2)存在65nt左右的发夹结构前体;(3)基因座位于蛋白质基因间隔区;(4)其DNA序列在近源物种间高度保守。miRNA具有十分重要的调控功能,它们主要参与基因转录后水平的调控。能够通过与靶mRNA特异性的碱基配对引起靶mRNA的降解(植物中较为常见)或者抑制其翻译(动物中较为常见),从而影响了靶mRNA的表达。目前发现miRNA是一个庞大的小分子调控RNA家族,广泛存在于各种动植物中,参与细胞增殖和分化、细胞凋亡、胚胎发育、形态建成以及疾病发生等一系列重要的生命过程。最近发现一系列与肿瘤发生相关的和人类病毒编码的miRNA,揭示miRNA在哺乳动物基因表达调控中具有重要作用。,68,Rana(2007)J Cell Physiol,*Small RNA biogenesis-RISC formation-RNAi&Its Mechanism-Cell Phenotypy*,69,Rana(2007)Nature Rev Mol Cell Biol,70,*Overview on RNA Interference,Genomic loci transcribed by RNA Pol II,III and IV to form double-stranded RNAs(dsRNA)or viral RNA dependent RNA polymerase(RdRP)to generate dsRNA.DsRNA trimmed by RNase III(Drosha in nuclear and Dicer in cytoplasm)to small duplex RNA with 19-30 bp.A single stranded RNA unwound by Argonaute as guide RNA and loaded into RISC(RNA induced silencing complex).Complementary to target RNA by guide RNA in RISC and triggered RNA interference.,RNA InterferenceTarget RNA to be degradation.Target RNA to be translational repression or destabilization.Target RNA to be transcriptional repression.The genomic locus of target RNA to become heterochromatin or degradation.,71,*Biogenesis of miRNAs and siRNAsBartel(2004)Cell,