发布时间:2019-04-20 11:48 原文链接: 植物CPP基因家族的分子进化研究

实验概要

类CPP基因家族(CPP-like gene family)属于一类成员数目较少的基因家族,该基因家族成员编码的蛋白质序列含有一到两个富含半耽氨酸的结构域,即CXC结构域。该基因家族在植物和动物中广泛存在,但是没有在酵母中发现。为了解CPP-like基因家族在植物中的进化规律,本研究对拟南芥和水稻基因组中的CPP-like基因家族进行了比较分析和分子进化研究。

实验步骤

1. 序列搜索

在NCBI数据库中获得拟南芥的TSO1和大豆的CPP1基因编码的蛋白质序列,并以这两段蛋白质序列为检索序列,通过BLASTP检索TIGR拟南芥基因组注释数据库(http://www.tigr.org/tdb/e2k1/athl/)和TIGR水稻基因组注释数据库(http://rice.tigr.org/tdb/e2k1/osal/index.shtml)。若检索出的蛋白质序列满足E≤10-l0,将被作为候选蛋白序列。然后利用Pfam工具检测候选序列中是否存在CXC结构域,若存在CXC结构域,则将其作为CPP-like基因编码的蛋白质序列。最后在利用新检索出的拟南芥和水稻的CPP-like蛋白质序列重新对上述数据库进行重新检索,直到没有新的序列检出为止。本研究中涉及的CPP-like基因的核昔酸序列,编码序列和编码的蛋白质序列均来自于TIGR数据库。此外本研究还利用TBLASTN和BLASTP分别检索了NCBI和Swiss-Prot数据库,以获得其他植物物种中已知的CPP-like基因。

2. 多序列联配和系统发生树的构建

对植物基因组中CPP-like蛋白质序列的多序列联配采用的是CLUSTAL W软件,参数为默认。将多序列的结果输出到MEGA 4软件中,并利用MEGA构建系统发生树,方法为邻接法(Neighbor-Joining,NJ),参数为P距离模型(p-distancemodel)和空位/缺失数据的成对删除模式(pairwise deletion of gaps/missing data),并利用bootstrapping方法对树进行评估。系统发生树的展示同样利用MEGA 4。

3. 基因扩张模式的分析

植物基因组中最重要的两种基因扩张模式为串联重复和片段复制。串联重复指的是同一家族的基因出现在染色体的同一区段或相邻区段。而片段重复则通常表现为一大片段区域中所有基因的重复,而不是单个基因或少量几个基因的重复。本研究中利用Gramme对基因组注释的结果将获得的CPP-like基因定位在染色体上。首先确定若在同一区段出现的CPP-like基因则被认为是通过串联重复形成的。对片段重复方式的研究,首先通过TIGR对拟南芥和水稻基因组的注释,找到每一CPP-like基因上游和下游各10编码基因的蛋白质序列,然后利用本地BLASTP软件分析是否在一对CPP-like基因的两侧还存在其它的旁系同源基因对,若存在其它的旁系同源基因对,则表明这对CPP-like基因起源于一次片段重复事件。

4. 正选择作用分析

核苷酸的非同义替换率(dN)和同义替换率(dS)的比值(dN/dS)是衡量选择压力的分子进化参数,通常用ω表示。ω>1表示正选择压力(positive selection);ω<1表示纯化选择压力(purifying selection);而ω=1表示中性选择或自然选择压力(neutral selection)。正选择作用的分析采用的是极大似然方法来确定具有正选择作用的系统发生树节点以及这些节点包含基因的多序列联配中经历正选择作用的氨基酸位点。由于这些方法的适用条件是至少包含三段同源序列,所以本研究分析了系统发生树中包含三个以上基因的节点。首先对每一待分析的节点中包含的蛋白质序列进行了多序列联配,然后利用PAL2NAL软件将蛋白质的多序列联配结果转换为编码序列的多序列联配,并去除多序列联配中产生的空位(gap)。将编码序列的多序列联配结果再导入到PAML4软件的CODEML程序中,并利用该程序计算相应的dN/dS(ω),即非同义替换率与同义替换率的比值。根据系统树和序列对位排列结果,采用“位点特异性”模型(site-specific model)下的各种密码子替换模型来计算每个位点上的ω。似然比测验(LRT)可以用于比较嵌套间差异的显著性,前提是似然比的比较结果基本遵循卡方分布,其自由度为两个模型间自由参数之差。在本研究中采用M3(离散模型)对M0(单个ω)模型检验位点间是否存在选择压力的差异;并用M8对M7模型检验正选择压力。M7和M8模型均采用离散刀分布来估计每个位点的ω值,并通过参数p和q来描述刀分布,M8和M7的不同之处在于M8添加了一类ω>1的位点,可用于检验正选择。若M8对M7的统计检验达到显著水平,并且M8模型具有ω>1,再通过贝叶斯方法估计经历正选择作用的位点。

5. 结构域的协同进化分析

大部分植物的CPP-like基因编码的蛋白质序列中包含两个CXC结构域,而且结构域序列及两段结构域之间的序列均是高度保守的,因此本研究认为两段CXC结构域在进化过程中很可能是协同进化的。本研究对CXC结构域的协同进化现象进行了研究。分析中,包含两段CXC结构域序列的蛋白质被分成5个部分,分别为N-末端序列、CXC结构域1、结构域之间的序列、CXC结构域2和C-末端序列。由于N-末端序列和C-末端序列的保守性较差,所以在本研究中重点考虑了CXC结构域1、结构域之间序列和CXC结构域2之间的协同进化现象。首先分别将这三段序列进行多序列联配,并利用MEGA 4来计算两两之间的进化距离。获得进化距离之后,再求取三段序列进化距离之间的相关系数(r)。显著高于0的相关系数被认为是正向的协同进化,显著小于0的相关系数被认为是负向的协同进化,而若与0表现出没有显著差异,则认为不存在协同进化现象。

对计算所得的相关系数采用两种方法进行了统计显著性检验,首先对相关系数:按照bootstrapping的方法进行了1000次重抽样,其次通过随机的方式对进化距离矩阵进行了1000次重抽样,并进而获得1000个随机的相关系数,以此来估计真实相关系数的概率(p)。以上的模拟工作是在Matlab软件中完成的。


相关文章

新酶让CRISPR准确靶向绝大多数人类基因

美国杜克大学领导的一个研究团队开发出一种方法,可扩大CRISPR技术的覆盖范围。最初的CRISPR系统只能靶向人类基因组的12.5%,而新方法使CRISPR技术能够准确靶向几乎所有人类基因,使人们通过......

基因组与健康全球联盟与INCF共同打造全球神经科学数据社区

 基因组与健康全球联盟(GA4GH)和国际神经信息学协调中心(INCF)周五宣布,它们已合作建立了被称为神经科学社区的项目,旨在连接全球神经科学和基因组数据。作为近年来由GA4GH创建的几个......

本周要闻:Centogene、ARUP实验室、OxfordNanopore、GenTegra等新动向

Centogene本周表示,已完成与Lifera(沙特阿拉伯公共投资基金(PIF)全资拥有的生物制药公司)组建合资企业的计划。这项交易最初于六月宣布。这家位于利雅得的合资企业将命名为LiferaOmi......

Personalis继续削减成本,裁员65人

Personalis上周在一份监管文件中表示,已经批准裁员多达65名员工,约占其员工总数的20%,预计将在2024年1月底前完成。该公司预计,这一员工减少将为2024财年节省约1,400万美元。与此同......

首个基因测试公司23andMe爆发数据泄露风波,690万用户信息外泄

23andMe于周一披露,10月份的数据泄露影响了总共690万用户档案。在上周五的一份监管文件中,这家消费者基因测试公司表示,它的调查发现0.1%,约14,000个用户账户最初被一名威胁行为者使用从其......

突破性合作!Evonetix与AnalogDevices共建基因合成工厂

Evonetix与模拟器件公司AnalogDevices签署协议,扩大热控酶促DNA合成技术的生产能力 NEWYORK-英国合成生物公司Evonetix周三表示,已与半导体制造商Analog......

基因调控网络深度解读2型糖尿病发展,RFX6基因关键引领早期胰岛细胞缺陷

研究人员通过包括基因表达、遗传风险和功能数据在内的分析,已经开始揭示2型糖尿病(T2D)背后的基因调控网络,强调了转录因子编码基因RFX6的关键作用。《自然》杂志上周一报道称,研究人员依赖于细胞分类的......

一文速览!10月国内外15家生物药企融资超40亿!

据不完全统计,10月份,共有15家国内外创新生物药企完成了融资事件,总金额超40亿人民币。从融资轮次来看,早期融资仍占多数,其中B轮以前融资占比超过75%,仅有2家企业完成B轮融资。从融资金额来看,披......

大脑共变模式揭秘基因/心理与疼痛敏感性之谜

疼痛是不愉快的主观体验,但对疼痛感知的敏感性存在较大的个体间差异。探究疼痛敏感性个体差异的产生机制,对于阐释慢性疼痛的易感性并进行个性化疼痛管理具有重要意义。已有研究提示,疼痛敏感性的个体差异可能受到......

Cellectis股价飙升超180%!阿斯利康又投2.45亿

今日,阿斯利康与Cellectis达成了一项利润丰厚的合作协议,将向这家法国生物技术公司投资2.45亿美元,进一步加强了其致力于开发细胞和基因疗法产品的承诺。该消息令Cellectis的股价在周三盘前......