发布时间:2020-06-23 21:20 原文链接: 数据分析介绍(II)Cytoscape

本期为大家介绍一个开放源码的生物资讯软件 –Cytoscape,它可以建构可视化的分子交互作用网络,并可将已有的基因表达信息(gene expression profiles) 整合进此网络中,轻易观察分子间 (蛋白质—蛋白质 或 蛋白质—DNA…) 的关联性。

Cytoscape 是 Institute for Systems Biology (Leroy Hood 实验室)、加州大学圣地亚哥分校 (Trey Ideker 实验室)、加州大学旧金山分校 (Bruce Conklin 实验室)、Memorial_Sloan-Kettering 癌症研究中心 (Chris Sander 实验室)、Pasteur 研究院 (Benno Schwikowski 实验室) 等研究单位共同合作开发的一个开放源码的生物信息分析软件。Cytoscape 的核心即是网络 (图一),每个节点 (node) 是基因、蛋白质或分子,而节点与节点之间的连接 (edge) 则代表着这些生物分子之间的相互作用 (图二)。

使用 Cytoscape 案例

我们先举一些有使用 Cytoscape 的文献作为例子,让大家知道它所带来的意义为何。Jie Wang1 等人利用华联的 HOA 和 HmiOA 芯片产品,于今年发表了一篇文章,研究是否可以从 mRNA 和 miRNA 基因表现整合的网络调控关系中找出影响疾病 (有 BSS 症状的心绞痛病人) 可能的关键因子(biomarker);实验结果发现 23 个 miRNA 被正向调控 (up-regulated) 以及 408 个基因被负向调控,作者将这些资料全部丢进在线分析网站miRTrail (Laczny2 等人于 2012 年发表整合 mRNA 和 miRNA 芯片表现分析工具) 进行分析, 利用内建的 microCosm 预测 miRNA 对应的标的基因 (target genes) 并和 408 基因做交叉比对,发现交集的基因总共有115个;并依据预测标的基因和 408 基因交叉比对且符合负向调控程度较高的基因群,作优先选择的 miRNA 标的(前百分之五),从 23 个 miRNA 中挑出了 6 个(miR-146b-5p, miR-199a-3p, miR-199a-5p, miR-326, miR-423-3p and miR-484)。最后将找到的 115 基因和 6 个 miRNA 绘制成 network (图三),我们就可以清楚观察这 6 个 miRNA 和经过芯片实验验证的基因之间调控的关系,找出交互作用频率高的基因_(尺寸较大的圆圈)。作者最后挑选了miR-146b-5p、miR-199a-5p 以及 TP53、CALR 基因,另外找了一群病人 (包含控制组 15 人、BBS 症状的心绞痛疾病 30 人以及非 BSS 症状的心绞痛疾病 30 人)做 RT-PCR 验证,也得到一致的结果,可以当成医生治疗这类病人的重要生物指标。

另外,蛋白质之间的调控作用本来就是 Cytoscape 的分析强项,所以为了观察 115 负向调控基因对应的蛋白质之间的交互作用(PPI,Protein-Protein Interaction),作者将 Reactome FI 这个配件 plug-in 于 Cytoscape 中,将对应的蛋白质交互作用,以图形方式呈现(图四),也提供后续蛋白质研究做一个参考。

除了利用颜色观察表现量的变化,也可以用来表示其他量化的连续性数据;2012 年 Pahl 3 等人的研究中利用 TargetScan、MirTarget2 以及 Pictar 提供的数据库预测实验有显著表现差异miRNA 所对应的标的基因,并使用 Cytoscape表现之间的相关性(图五)。这些预测的标的基因和 miRNA 也被放入 RNAhybrid version 2.1 程序中仿真计算 mRNA-miRNA 之间杂交的minimum free energy (△G,kcal/mole),藉此评估 mRNA-miRNA 之间键结的强度。前提是计算 minimum free energy 必须于 Ensembl Biomart 取得标的基因的 3’UTR 序列,若没有对应的序列数据将无法计算,图中会以黑线和黑色圈圈表示。从图中的四个 miRNA network 中,可以得知 miR-331-3p 拥有最低的 minimum free energy,表示此 miRNA 和对应的标的基因之间有较强的亲和性;miR-133a 和 miR-133b 因为序列相似所以对应到大部分重复的标的基因,但由于两者之间差了两个 base pair,导致和基因之间的亲和性不同。作者也进一步找出图中可能的潜在标的基因,例如:CSRNP1、SLC7AB、PLK3、FURIN 同时是 miR-133a、miR-133b、miR-331-3p 的预测 target genes;DNM2、DNAJB1、TGFBR1、TGOLN2、BCL11A、EDEM1、SFXN2、YTHDF3 八个基因同时是miR-204、miR-133a、miR-133b 的预测标的基因, 而Hypermethy- lated_in cancer 2 (HIC2) gene 则是唯一被四个 miRNA 同时所预测的标的基因;它属于 HIC1 家族基因,极可能是重要的肿瘤抑制基因。

如何使用 Cytoscape

要完成一个 Cytoscape 的网络分析,基本上有 4 个步骤:(搭配影片教学,事半功倍!)

  1. Create a network

2. Import a attribute / expression profile

3. Filtering & editing

4. Annotation & data analysis

步骤 1,要先有一个网络,可以是从已知的数据库中取得某个特定的网络,例如有 TP53 参与的基因网络、Apoptosis pathway 基因网络…,或可自行建立,而后续的动作则会架构在此网络上进行分析;步骤 2,加载想要分析的属性数据,亦或是使用华联芯片服务得到的 gene expression profile (fold change、p-value…);步骤 3,由于加载的数据往往是很庞大的,要利用筛选、编辑,变成想要的信息;步骤 4,最后可利用此结果再进行后续的批注或分析。

小结

Cytoscape 源自系统生物学,用于将生物分子交互网络与高通量基因表达数据和其他的分子状态信息整合在一起。其最强大的功能在于大规模蛋白质与蛋白质相互作用、蛋白质-DNA或遗传分子交互作用的分析。Cytoscape 是开放源码的软件,任何人都可依自己的需求作修改,或是 Plug-in 后,修改成自己想要的形式,若有厉害的程序开发高手,亦可快速建构出新的功能。各位在使用上若有任何问题,都欢迎与我们讨论。

另外,带来一个好消息:华联 2013 最新力作,累积 6 年服务经验深蕴,整合推出 30 项生物信息分析服务 - BiXOneArray,带给大家从初阶到进阶的全方位分析服务 !


参考资料

(1) Jie Wang et. al. A Systems Biology Approach to Characterize Biomarkers for Blood Stasis Syndrome of Unstable Angina Patients by Integrating MicroRNA and Messenger RNA Expression Profiling. Evidence-Based Complementary and Alternative Medicine (2013) March 29

(2) Laczny C et. al. miRTrail - a comprehensive webserver for analyzing gene and miRNA patterns to enhance the understanding of regulatory mechanisms in diseases. BMC Bioinformatics (2012) 13:36

(3) Matthew C Pahl et. al. MicroRNA expression signature in human abdominal aortic aneurysms. BMC Medical Genomics (2012) 5:25


相关文章

西安医学院姜超团队的论文被撤回涉数据分析存在不足

肝细胞癌(HCC)对人类健康构成严重威胁。ADCY2基因多态性可能与HCC易感性有关。因此,该研究探索了ADCY2基因多态性是否与中国汉族人群的HCC风险相关。2021年9月1日,西安医学院姜超团队在......

我国科学家开发高效基因组序列分析工具

类的疾病易感性和生理特征等常见性状的差异,往往由DNA序列变化造成,这些DNA片段缺失、增加、异位等变化被统称为遗传变异。全基因组关联研究(Genome-WideAssociationStudy,GW......

百奥智汇推出一站式单细胞数据分析软件OmniAnalyzer

2021年8月3日,百奥智汇发布首款一站式单细胞数据分析软件OmniAnalyzer。该软件内置多种算法,包含从原始数据处理、批次效应校正到细胞分群、细胞类型识别、差异表达分析、轨迹推断等全套数据分析......

妇幼保健检验医学论坛第二日——数据分析助科研曲径通幽

分析测试百科网讯2019年10月26日,第四届北京妇幼保健检验医学论坛第二日会议如期举行。国内外著名检验医学和临床医学专家学者近200人参加了此次会议,分析测试百科网作为此次会议的支持媒体,为您全程跟......

PaulBonnington、KimbalMarriott教授荣获安捷伦“思想领袖奖”

2019年2月18日,安捷伦科技公司(纽约证交所:A)日前宣布授予PaulBonnington和KimbalMarriott“安捷伦思想领袖奖”,以支持他们在数据分析、机器学习、人工智能和信息可视化方......

骐骥联手Waters发布QiMetA软件为组学提供场景化分析利器

分析测试百科网讯2018年9月9日,由北京骐骥生物技术有限公司和沃特世科技有限公司主办的QiMetA软件全球发布会在北京举办。来自临床、科研和投资等多领域的50余人参加了此次活动。活动现场主持人:北京......

高通量测序数据分析

1.是不是一定要用大型计算机?除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。2.是不是一定要用L......

23GENEBANK正式发布GBGIAS基因组数据分析一体化服务平台

23GENEBANK的基因组数据分析系统,从GB-CHIP,GB-WGS-REPORT,GB-TARGRUG等一路走来,历经15项核心技术突破,完成了从基因芯片到二代测序,从定制靶向捕获测序到全基因组......

欧盟发布2016年食品和饲料中化学污染物数据分析报告

2017年5月5日,欧洲食品安全局发布2016年度食品和饲料中化学污染物数据分析结果报告。总体来说,从29个国家或地区收集到12.5万个样品,经检测共得到159种化学污染物的83.72万个结果数据。该......

权威学者Nature子刊公布数据分析新方法

生物数据大爆炸带来了无限可能,我们能从浩瀚的数据库中寻找到帮助临床医师们做出更正确判断,进行个体化医疗的许多信息,但是从设想走到现实还有很长的路要做。11月7日的NatureGenetics杂志公布了......