实验概要
类CPP基因家族(CPP-like gene family)属于一类成员数目较少的基因家族,该基因家族成员编码的蛋白质序列含有一到两个富含半耽氨酸的结构域,即CXC结构域。该基因家族在植物和动物中广泛存在,但是没有在酵母中发现。为了解CPP-like基因家族在植物中的进化规律,本研究对拟南芥和水稻基因组中的CPP-like基因家族进行了比较分析和分子进化研究。
实验步骤
1. 序列搜索
在NCBI数据库中获得拟南芥的TSO1和大豆的CPP1基因编码的蛋白质序列,并以这两段蛋白质序列为检索序列,通过BLASTP检索TIGR拟南芥基因组注释数据库(http://www.tigr.org/tdb/e2k1/athl/)和TIGR水稻基因组注释数据库(http://rice.tigr.org/tdb/e2k1/osal/index.shtml)。若检索出的蛋白质序列满足E≤10-l0,将被作为候选蛋白序列。然后利用Pfam工具检测候选序列中是否存在CXC结构域,若存在CXC结构域,则将其作为CPP-like基因编码的蛋白质序列。最后在利用新检索出的拟南芥和水稻的CPP-like蛋白质序列重新对上述数据库进行重新检索,直到没有新的序列检出为止。本研究中涉及的CPP-like基因的核昔酸序列,编码序列和编码的蛋白质序列均来自于TIGR数据库。此外本研究还利用TBLASTN和BLASTP分别检索了NCBI和Swiss-Prot数据库,以获得其他植物物种中已知的CPP-like基因。
2. 多序列联配和系统发生树的构建
对植物基因组中CPP-like蛋白质序列的多序列联配采用的是CLUSTAL W软件,参数为默认。将多序列的结果输出到MEGA 4软件中,并利用MEGA构建系统发生树,方法为邻接法(Neighbor-Joining,NJ),参数为P距离模型(p-distancemodel)和空位/缺失数据的成对删除模式(pairwise deletion of gaps/missing data),并利用bootstrapping方法对树进行评估。系统发生树的展示同样利用MEGA 4。
3. 基因扩张模式的分析
植物基因组中最重要的两种基因扩张模式为串联重复和片段复制。串联重复指的是同一家族的基因出现在染色体的同一区段或相邻区段。而片段重复则通常表现为一大片段区域中所有基因的重复,而不是单个基因或少量几个基因的重复。本研究中利用Gramme对基因组注释的结果将获得的CPP-like基因定位在染色体上。首先确定若在同一区段出现的CPP-like基因则被认为是通过串联重复形成的。对片段重复方式的研究,首先通过TIGR对拟南芥和水稻基因组的注释,找到每一CPP-like基因上游和下游各10编码基因的蛋白质序列,然后利用本地BLASTP软件分析是否在一对CPP-like基因的两侧还存在其它的旁系同源基因对,若存在其它的旁系同源基因对,则表明这对CPP-like基因起源于一次片段重复事件。
4. 正选择作用分析
核苷酸的非同义替换率(dN)和同义替换率(dS)的比值(dN/dS)是衡量选择压力的分子进化参数,通常用ω表示。ω>1表示正选择压力(positive selection);ω<1表示纯化选择压力(purifying selection);而ω=1表示中性选择或自然选择压力(neutral selection)。正选择作用的分析采用的是极大似然方法来确定具有正选择作用的系统发生树节点以及这些节点包含基因的多序列联配中经历正选择作用的氨基酸位点。由于这些方法的适用条件是至少包含三段同源序列,所以本研究分析了系统发生树中包含三个以上基因的节点。首先对每一待分析的节点中包含的蛋白质序列进行了多序列联配,然后利用PAL2NAL软件将蛋白质的多序列联配结果转换为编码序列的多序列联配,并去除多序列联配中产生的空位(gap)。将编码序列的多序列联配结果再导入到PAML4软件的CODEML程序中,并利用该程序计算相应的dN/dS(ω),即非同义替换率与同义替换率的比值。根据系统树和序列对位排列结果,采用“位点特异性”模型(site-specific model)下的各种密码子替换模型来计算每个位点上的ω。似然比测验(LRT)可以用于比较嵌套间差异的显著性,前提是似然比的比较结果基本遵循卡方分布,其自由度为两个模型间自由参数之差。在本研究中采用M3(离散模型)对M0(单个ω)模型检验位点间是否存在选择压力的差异;并用M8对M7模型检验正选择压力。M7和M8模型均采用离散刀分布来估计每个位点的ω值,并通过参数p和q来描述刀分布,M8和M7的不同之处在于M8添加了一类ω>1的位点,可用于检验正选择。若M8对M7的统计检验达到显著水平,并且M8模型具有ω>1,再通过贝叶斯方法估计经历正选择作用的位点。
5. 结构域的协同进化分析
大部分植物的CPP-like基因编码的蛋白质序列中包含两个CXC结构域,而且结构域序列及两段结构域之间的序列均是高度保守的,因此本研究认为两段CXC结构域在进化过程中很可能是协同进化的。本研究对CXC结构域的协同进化现象进行了研究。分析中,包含两段CXC结构域序列的蛋白质被分成5个部分,分别为N-末端序列、CXC结构域1、结构域之间的序列、CXC结构域2和C-末端序列。由于N-末端序列和C-末端序列的保守性较差,所以在本研究中重点考虑了CXC结构域1、结构域之间序列和CXC结构域2之间的协同进化现象。首先分别将这三段序列进行多序列联配,并利用MEGA 4来计算两两之间的进化距离。获得进化距离之后,再求取三段序列进化距离之间的相关系数(r)。显著高于0的相关系数被认为是正向的协同进化,显著小于0的相关系数被认为是负向的协同进化,而若与0表现出没有显著差异,则认为不存在协同进化现象。
对计算所得的相关系数采用两种方法进行了统计显著性检验,首先对相关系数:按照bootstrapping的方法进行了1000次重抽样,其次通过随机的方式对进化距离矩阵进行了1000次重抽样,并进而获得1000个随机的相关系数,以此来估计真实相关系数的概率(p)。以上的模拟工作是在Matlab软件中完成的。
衰老对身体产生的可见影响有时与基因活动的无形变化有关。DNA甲基化的表观遗传过程会随着年龄增长而变得不再精确,造成基因表达的变化。而这种变化与随着年龄增长而出现的器官功能衰退和疾病易感性增加有关。如今......
有些人比同龄人更显年轻,而有些人看着更显老;有些人年逾九旬仍身心康健,而另一些人早在数十年前就饱受糖尿病、阿尔茨海默病或行动障碍的困扰;有些人能轻松应对严重摔伤或流感侵袭,而有些人一旦住院就再难康复。......
近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......
记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......
国际期刊《内分泌学前沿》日前刊登的一项新研究揭示,一种特殊基因对肠道吸收维生素D及其后续代谢过程至关重要,阻断或抑制该基因能够选择性抑制癌细胞生长。这一发现在癌症治疗等精准医学领域具有广阔应用前景。维......
记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,解析了关键基因对大豆种子油脂和蛋白比例(油蛋比)的调控机制,为高油或高蛋白大豆品种选育提供了新方向。......
茶树是以收获新梢为主的叶用经济作物,茶芽大小不仅直接影响鲜叶的产量和品质,还与茶类适制性密切相关。解析茶树芽大小的遗传调控机制,有助于改良茶树品种、提高茶叶产量。近日,中国农业科学院茶叶研究所种质资源......
玉米作为全球重要的粮食、饲料和工业原料作物,其高产对保障粮食安全至关重要。近日,东北农业大玉米遗传育种团队完成的研究在《农业科学学报(英文)》(JournalofIntegrativeAgricult......
水稻作为起源于热带或亚热带的粮食作物,其生长发育对低温胁迫敏感。伴随全球气候变化加剧,极端低温事件发生频率显著上升,发掘耐冷基因并解析分子机制,有利于水稻高产稳产遗传改良。目前,利用自然群体挖掘的水稻......
东南亚人群基因组计划概念图。受访者供图东南亚是全球最重要的人类演化区域之一。该地区人群拥有极高的遗传多样性,但基因组学研究却长期缺失,制约了人类环境适应性进化与疾病遗传机制的深度解析,因而被称为全球人......