基因组学复习资料整理.docx
基因组学I .简述基因组的概念和其对生命科学的影响。基因组:指一个物种的全套染色体和基因。广义的基因组:核基因组,线粒体基因组,叶绿体基因组等。基因组方案对生命科学的影响:研究策略的高通量,彻底认识生命规律:基因组研究高通量,研究手段和研究策略的更新,加强了生命科学研究的分工与协作,从不同层次深入研究生命现象。促进了相关学科的开展:分子生物学遗传学生物信息学生物化学细胞生物学生理学表观遗传学等物种的起源与进化:I.重要基因的开掘、别离和利用:遗传疾病相关基因,控制衰老的基因,工业价值的细菌基因,重要农艺性状基因等。II .充分认识生命现象:基因的表达、调控,基因间的相互作用,不同物种基因组的比拟研究,揭示基因组序列的共性,探讨物种的起源和进化o伦理学法律问题:伦理问题,知识产权问题,法律问题,社会保险问题。2 .AcDs转座因子Ac因子有4563bp,它的大局部序列编码了一个由5个外显子组成的转座酶基因,成熟的mRNA有35OObp。该因子本身的两边为IIbP的反向重复末端(IR),发生错位酶切的靶序列长度8bp。DS因子较Ac因子短,它是由Ac因子转座酶基因发生缺失而形成的。不同的Ds因子的长度差异由Ac因子发生不同缺失所致。AcZDs因子转座引起的插入突变方式:玉米BZ基因是使糊粉层表现古铜色的基因,当AcZDs转座插入到BZ基因座后,糊粉层无色。当Ac/Ds因子在籽粒发育过程,局部细胞发生转座,使BZ靶基因发生回复突变,从而形成斑点.Ac/Ds两因子系统遗传特点:1) AC具有活化周期效应,有活性的Ac+因子被甲基化修饰后会形成无活性的ac-因子,反之无活性的ac-因子去甲基化成有活性的Ac+因子。2) AC与d$因子有时表现连锁遗传但更多表现独立遗传。3) AC对d$的控制具有负剂量效应。4) Ac/Ds可引发靶基因表现为插入钝化、活性改变、表达水平改变和缺失突变等。5) Ds的结构不同,插入同一靶基因的位点可能不同,形成的易变基因的表型也不同。(分子生物学79-81)3 .正向遗传与反向遗传正向遗传学研究指从突变体开始的遗传学研究,关心的问题是突变体表型的变化是由哪一个基因功能丧失后引起。反向遗传学研究指从基因序列开始的遗传学研究,关心的问题是基因功能丧失后会使植物的表型产生什么样的变化。4 .分子标记,构建遗传图谱,原理,步骤遗传作图的遗传学原理:主要依据经典孟德尔遗传学的连锁和交换定律减数分裂时,同源染色体彼此靠拢,同源区段并排形成双联体。在双联体中,并列的染色体臂在等价的位置发生DNA交换的频率与在染色体上所间隔的距离成正比,重组率那么可成为衡量基因之间相对距离的尺度。通过重组率可判断基因在染色体上的相对位置,从而绘制遗传图。步骤:选择适合作图的DNA标记根据遗传材料之间的DNA多态性,选择用于建立作图群体的亲本组合建立别离群体测定群体中不同个体的标记基因型对标记基因型数据进行连锁分析,构建标记连锁图显性标记:仅能检测显性等位基因,不能够区分纯合和杂合基因型的遗传标记。共显性标记:同时能检测出显性和隐性等位基因,能够区分纯合和杂合基因型的遗传标记。5 .平衡化CDNA文库,原因及原理原因相关:为了将低丰度表达的基因识别和克隆出来,常采用均一化方法构建CDNA文库,其主要目的是减少测序量,尽量获得更多基因尤其是低转录基因的信息.。基因组中绝大多数基因属于中等或低表达丰度保存了表达丰度低的基因信息原理相关:1)基于复性动力学原理:高丰度的CDNA在退火条件下复性速度快,而低丰度的CDNA复性需要较长时间,通过控制复性时间来降低丰度。2)基因组DNA饱和杂交:基于基因组DNA在拷贝数上具有相对均一化的性质,通过CDNA与基因组DNA饱和杂交而降低在文库中高拷贝存在的CDNA的丰度。6 .非编码RNA,miRNA,siRNAmiRNA产生机制:动物细胞中,miRNA首先在细胞核内转录出较长的初级miRNA(pri-niRNA),然后在核内由DrOSha加工成6070个核昔酸的发夹状RNA,即前体miRNA(pre-miRNA),在EXPrOtin-5复合物的指助下被转运出胞核,在胞浆中由DiCer剪切成为成熟miRNA,随即被整合进RNA沉默复合物(RISC)中,基于与mRNA完全或不完全配对来调节基因表达。SiRNA产生机制:由于RNA病毒入侵、转座子转录、基因组中反向重复序列找建等原因,细胞中出现了dsRNA,Rde-I(RNAi缺陷基因-1)编码的蛋白质识别外源d$RNA,当dsRNA到达一定量的时候,Rde-I引导dsRNA与Rde-I编码的DiCer结合,形成酶-dsRNA复合体。在DiCer酶的作用下,细胞中的单链靶mRNA与dsRNA具有同源序列)与dsRNA的正义链互换,原来dsRNA中的正义链被mRNA代替而从酶-dsRNA复合物中释放出来,然后,在ATP的参与下,细胞中存在的一种RNA诱导的沉默复合体(RlSC)利用结合在其上的核酸内切酶的活性来切割dsRNA上处于原来正义链位置的靶mRNA分子中与市RNA反义链互补的区域,形成21-23nt的dsRNA小片段,这些小片段即为SiRNA。两者异:1)miRNA是内源的,siRNA主要为外源导入;2) miRNA不仅能介导靶RNA的降解,还可与靶RNA通过不完全互补方式阻抑蛋白质的翻译。两者同:形成都需要DiCer,形成的复合体中具有相同的蛋白组成,人工的SiRNA在体内能产生类似miRNA的功能,内源的miRNA在与靶RNA完全互补的前提下,也能表现剪切靶RNA的干预效应,两者可能具有根本相同的作用途径。(分子生物257)7 .全基因组测序的原理和步骤。全基因组鸟枪法测序的主要步骤:第一,建立高度随机、插入片段大小为2kb左右的基因组文库.克隆数要到达一定数量,即经末端测)序的克隆片段的碱基总数应到达基因组5倍以上。第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TlGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反响,测序总长度达6倍基因组。第三,序列集合。TIGR开展了新的软件,修改了序列集合规那么以最大限度地排除错误的连锁匹配。第四,填补缺口。对某基因组文库全部克隆片段进行末端序列测定中未测到的碱基数,即缺(gap)。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-2Okb的入文库以备缺口填补。鸟枪法测序的缺点:随着所测基因组总量增大,所需测序的片段大量增加,各个片段重叠或一个连续体的概率是2n2-2n。高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。对鸟枪法的改良:(I)CIoneContigfio首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。(2)靶标鸟枪法(diretedshotgun)。首先根据染色体上基因和标记的位置来确定局部DNA片段的相对位置,再逐步缩小各片段之间的缺口。8 .全长CDNA文库的构建的三种方法。SMART技术:在合成CDNA的反响中事先参加的3末端带OligO(dG)的SMART引物,由于逆转录酶以mRNA为模板合成CDNA,在到达mRNA的5'末端时碰到真核mRNA特有的帽子结构,即甲基化的G时会连续在合成的CDNA末端加上几个(dC).SMART引物的OIigO(dG)与合成CDNA末端突出的几个C配对后形成CDNA的延伸模板,逆转录酶会自动转换模板,以SMART引物作为延伸模板维续延伸CDNA单链直到引物的末端,这样得到的所有CDNA单链的一段含有Oligo(dT)的起始引物序列,另一端有的SMART引物序列,合成第二锌后可利用通用引物进行扩增。由于有5'帽子结构的mRNA才能利用这个反响得到扩增的cDNA,因此扩增得到的CDNA就是全长cDNA。(2) Cap-trapper法:首先向反响体系中参加了海藻糖、山梨糖醇。第二,全长CDNA的获得。利用高碘酸钠的氧化特性,在低温、避光条件下特异氧化cDNA/mRNA复合体中mRNA5,和3'端末位核糖上的两个相邻的羟基.第三,为防止揭短CDNA的掺入,采用RNaSel对双链复合体进行酶切,RNaSel可以消化以单链状态存在的mRNA,而且没有碱基特异性。第四,第二链CDNA的合成。第二链引物结合位点的引入可采用两种方法:一种是通过末端转移酶在单链CDNA的3'端加上一段Poly(G),另一种是在利用DNA连接酶在CDNA的3加上一段寡核昔酸。(3) Oligo-CaPPing法:首先,以mRNA为起始材料,利用细菌碱性磷酸酶(BAP)水解5'端不完整mRNA上的5'磷酸基团,防止截短的mRNA与寡聚核昔酸链连接;再用烟草酸焦磷酸酶(TAP)除去mRNA5,端的帽子结构,在原mRNA的5'端帽子处只留下一个磷酸基团;通过用T4RNA连接酶在mRNA的5'端连上一个寡聚核糖核酸,作为引发二链合成的引物,再经过反转录,PCR扩增,这样只有完整的mRNA才能够被合成cDNA,即全长cDNA.9 .简述三种分子标记的原理与优缺点。1) RFLP限制性片段长度多态性):这种多态性是由于限制性内切酶酶切位点或位点间DNA区段发生突变引起的。RFLP标记的特点:I探针的制备:单拷贝DNA克隆或cDNA。II应具有探针/酶组合.HI具有共显性、信息完整、重复性和稳定性好等优点。IV过程较复杂,同位素操作。VRFLP标记两端测序,可转化为STS标记。2) SSLP(简单序列长度多态性):SSLP是一系列不同长度的重复序列,不同的等位基因含有不同数目的重复单位。有两种类型:小卫星minisatellite)也称为可变数目的串联重复(Variablenumberoftandemrepeat,VNTR)o重复单位长度为几十个核昔酸;微卫星或简单序列重复(simplesequencerepeat,SSR)它的重复单位较短,通常为二、三或四核昔酸单位,重复次数一般为10-50。I可变数目的串联重复多态性VNTR:利用PCR扩增,所得PCR产物通过电泳可比拟其长度的变异许多小卫星序列太长,PCR无法扩增需要利用DNASoUthern杂交和放射性标记探针检测动物基因组中存在大量的小卫星序列植物基因组中的小卫星带谱很多,分析复杂谱带较困难,不太适合作图研究U.SSR标记的特点:关键在于SSR引物的开发:SSR克隆的侧翼序列;检索数据库标记的多态性依赖于根本单元重复次数的变异设计引物和PCR反响,开发本钱较低操作简便,稳定可靠3)单核昔酸多态性SNP,SNP与基因组制图:构建最精细的遗传图谱:核昔酸水平将遗传图、物理图、序列图统一。应用于多基因性状定位:连锁不平衡。应用于单基因性状定位:直接把生物性状与基因突变联系起来,即CSNPS(COdingSNPS)和启动子区pSNPs(promoterSNPS)O用于基因诊断和基因治疗。10 .表观遗传学,三种表观遗传学现象并简述其中一种。表观遗传学:所谓表观遗传就是不基于DNA差异的核酸遗传,即遗传信息不通过基因序列改变而传递的遗传学。例如,隔离子,增强子,弱化子,DNA甲基化,组蛋白修饰等等。三种表观遗传学现象:DNA甲基化:在DNA甲基转移酶的催化下,利用S-腺昔蛋氨酸提供的甲基,将胞嘘咤第5位碳原子甲基化,从而使胞嗑吃转化为5甲基胞喀(5-Methylcytosine,5-mC)。组蛋白共价修饰:组蛋白不仅包装DNA成为核小体,其N末端的各种共价修饰也构成了独特的组蛋白密码,可以被一系列特定蛋白质或蛋白质复合物所识别,从而将这种密码翻译成特定的染色质状态,调节基因的表达。组蛋白共价修饰主要包括:乙酰化、甲基化、磷酸化、泛素化、SUMo化、生物素化和ADP-核昔化等。依赖ATP的染色质重塑:在广义上,染色质重塑指与基因表达调节相伴随的染色质结构的动态调整或重新塑造染色质结构。在狭义上,染色质重塑专指由ATP提供能量、通过依赖ATP的染色质重塑复合物改变组蛋白与DNA的结合状态,在靠近核心组蛋白的DNA外表建立特殊的构象,使转录因子较易于接近DNA的过程。RNAi介导的表观遗传:RNAi的效应主要包括降解mRNA、翻译抑制以及染色质改变其中前两个效应属于转录后水平调控RNA指导的DNA甲基化(RNA-directedDNAmethyIalion,RdDM)和RNAi介导的异染色质形成会使胞嗑陡和组蛋白出现共价修饰,改变染色质状态从而影响基因表达,这个过程属于RNAi的转录水平调控效应。11 .指纹作图克隆指纹是指DNA样品所具有的特定DNA片段组成,一个克隆的指纹表示了该克隆所具有的特定的顺序特征。克隆指纹(clonefingerprinting)排序是在基因组范围内查找重叠克隆的最好方法。如果两个克隆有指纹重叠,说明这两个克隆具有共同的序列。12 .转录因子的4个结构域及各自特点DNA结合区:指转录因子识别DNA顺序作用元件并与之结合的一段氨基酸序列,相同类型转录因子DNA结合区的氨基酸序列较为保守。转录调控区(包括激活区和抑制区):转录抑制区的作用方式:与启动子的相关位点结合后,阻止其他转录因子与该启动子的结合;通过对其他转录因子的抑制作用而阻止转录;改变DNA的高级结构使转录不能进行。寡聚化位点:寡聚化位点是不同转录因子借以发生相互作用的功能域,它们的氨基酸序列保守,大多与DNA结合区相连并形成一定的空间结构。核定位信号:核定位信号是转录因子中富含精氨酸和赖氨酸残基的核定位区域,转录因子进入细胞核的过程受该区域控制。13 .T-DNA标签,鉴定和克隆基因转座子、T-DNA标签法:利用同源或异源转座子、T-DNA随机插入基因组中引起基因失活,产生出易识别的突变表型的特点,鉴定未知基因。然后,通过别离转座子两侧的宿主基因组的I)NA序列,从文库中别离目的基因。利用T-DNA突变体别离和克隆基因:正向:T-DNA插入突变表型;别离T-DNA侧翼序列;突变表型与T-DNA共别离检测;基因的别离克隆反向:T-DNA侧翼序列数据库;筛选特定基因的T-DNA标签;突变表型的鉴定14 .SAGE原理与real-timePCR原理.SAGE的根本原理:一个特异的固定长度寡核甘酸序列(914bp)可以代表一种转录本,这些短序列称为SAGE标签。(SAGEtag),可以将这些标签从CDNA中别离制备SAGE标签库。每种标签在全部标签中所占的比例反映了它所代表的转录本在整个转录体系中的表达丰度金一次测序可以得到多个标签序列,与大规模CDNA测序相比测序量大大降低。将SAGE标签与RACE技术结合可以别离全长的CDNA。荧光定量PCR:一种在PCR反响体系中参加荧光基团,利用荧光信号积累实时监测整个PCR进程,最后通过标准曲线对未知模板进行定量分析的方法。该技术不仅实现了对DNA模板的定量,而且具有灵敏度高、特异性和可靠性更强、能实现多重反响、自动化程度高、无污染性、具实时性和准确性等特点。15 .什么叫图位克隆,以水稻矮化突变体为例简述别离该表型基因的根本步骤。图位克隆(Map-basedcloning):又称定位克隆(positionalcloning),1986年首先由剑桥大学的AIanCoUISon提出,采用该方法别离基因是根据目的基因在染色体上的位置进行的,无需知道基因表达产物的有关信息。图位克隆应开展如下工作: 寻找与目标基因紧密连锁的分子标记 遗传作图将目标基因定位在染色体的特定位置 构建大片段的基因组DNA文库 与目标基因连锁的分子标记筛选基因组文库 获得含目的基因区段的克隆重叠群 染色体步查获得含目的基因的亚克隆 目的基因预测和基因功能互补验证16 .基因组重测序(MUtMaP)(第四章,P9、10)基因组重测序:是对基因组序列的物种进行不同个体的基因组测序,并在此根底上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核甘酸多态性位点(SNP),插入缺失位点(InDel,InsertionZDeIetion)、结构变异位点(SV,StructureVariation)位点、拷贝数变异(CNV,CopyNumberVariation)等信息。我们使用水稻为例来介绍mutmap方法的原理。我们首先使用突变剂(例如,甲基磺酸乙酯)来突变有参考基因组序列的水稻栽培种(编号X)。经过突变产生的水稻(编号为Ml)经过自交产生第二代(Mz)或者更多代来使得突变的基因纯合。通过观察M2代或者以后的世代,我们找出了农业重要性状发生改变的隐性突变体(recessivemutants),例如植物株高,分蕖数和每穗粒数。一旦鉴别出突变体,就将突变体与野生型水稻栽培种(编号X)一样的水稻进行杂交。由此产生的第一代(编号Fl)植株进行自花授粉产生第二代(F2)o并且种植第二代(100)来为表型打分。由于这些(F2)代植株是由突变体与它的亲本野生型水稻杂交来的,所以在大多数情况下与表型改变的有关的的基因的数量是最小的并且因此即使是很小的表型的不同也能够被明显的观察到。在经由突变剂突变的突变体中所有的核昔酸改变将会被检测,这种检测是由在突变体和野生植株中的单核昔酸多态性(SNPs)和插入删除(insertion-deletions(indels)来实现的。在F2代中,大局部对的SNPS会以1:1突变体/野生型的比例别离。然而,在表现为突变表型的后代中与表型改变相关的SNP是纯合的。如果从F2中隐性突变体搜集DNA并且以大基因组的覆盖率进行扩增测序(10x覆盖率),在测序结果中,对于与突变表型无关的SNP,我们期望有50%突变体和50%野生型序列测序read(ps:所谓read就是指测序完成后的一段DNA片段,这句我的理解就是在F2突变体DNA上对于与突变表型无关的DNA序列中有一半的序列是来自野生型另一半来自突变体)。然而对于对于因果SNP(CaUSalSNP)和紧密连锁的SNP应该表现为100%得到突变体read和0%的野生型read。(ps:这句话就是指在F2代突变体中对于突变的性状所有的DNA序列都是来自突变体)。对于与突变性状有些关系的SNP应该有50%的突变和50%的野生型read。如果我们定义以突变体的SNP数量与相应的SNP总数的比例作为一个SNP指标,我们期望得到因果基因(causalgene)(ps:控制突变性状的基因)附近的指标等于1而对于不相关的基因SNP指标应该等于0.5。可以在全基因组的范围内搜索SNP指标来找到SNP为1的区域,这个区域有突变表型相关的基因。17 .深度测序的应用(第四章,P9)1)基因组重测序2)遗传多样性的开掘与全基因组关联分析(GWAS)3)突变位点的定位4)基因组水平鉴定DNA甲基化5)ChlP-Seq技术研究蛋白质和DNA的互作6)RNA的深度测序7)蛋白-蛋白互作研究