发布时间:2019-11-13 14:07 原文链接: 基因芯片数据的分析方法

研究背景:

基因芯片可以通过探针和荧光标记对某个时间点生物体的全部基因表达量进行检测,探针代表的基因荧光强度通过仪器转换成基本数据。这些数据的背后隐藏着很多的生物学意义,这就需要我们通过生物信息学的方法去分析和挖掘。不同实验设计方案产生的海量芯片数据,其分析方法和思路都大同小异,这里分享一个多组实验设计的乳腺癌侵袭性研究芯片数据分析方法。

实验设计:

主要通过芯片数据筛选与乳腺癌侵袭性相关的基因和分子生物通路来研究乳腺癌侵袭性的分子机制。实验分为正常对照组 2a,非侵袭性乳腺癌组 2b,侵袭性乳腺癌组 2c。正常对照组 2a 有 2a_1 和 2a_2 两个样本,非侵袭性乳腺癌组 2b 有 2b_1、2b_2、2b_3 三个样本,侵袭性乳腺癌组 3c 有 3c_1、3c_2、3c_3 三个样本,其中每个样本都使用 Aglient 芯片进行检测,仪器输出的数据通过归一化后进行接下来的数据分析。

研究方法:

1.芯片数据质控

1.1 数据 PCA 分析

使用 OmicsBean 组学数据分析系统(www.omicsbean.com:88)将基因芯片的原始矩阵数据和分组文件进行上传,使用其 PCA 功能模块进行分析得到各组表达量数据的分布图。

1.2 Clustering 分析

使用 OmicsBean 的 Clustering 功能模块对基因芯片的原始矩阵数据进行 Clusering 分析,得到各组数据的簇分析分布图。

1.3 HeatMap 分析

使用 OmicsBean 的 HeatMap 功能模块对基因芯片的原始数据进行 HeatMap 分析得到各组基因表达量数据的 HeatMap 分布图,从图中可以看到每个基因在不同分组中的表达量差异分布。针对分组和基因在热图的基础上又进行了簇分析。

2.差异基因筛选

使用 OmicsBean 分析系统将基因芯片的原始矩阵数据和分组文件进行上传,使用 T-test 方法和 FoldChange 进行差异数据的计算。FoldChange 设置参数为 2,T-test 设置参数 P-value 为 0.05,同时在分组矩阵中选择进行差异比较的两个组进行分析。系统会根据参数设置和进行比较的分组进行差异基因筛选,这样会得到差异筛选的分布图和差异基因的列表。接下来还可以针对多个差异列表再进行分析。这里选择了非侵袭性乳腺癌与正常组比较,侵袭性乳腺癌与正常组比较,非侵袭性乳腺癌与侵袭性乳腺癌比较。图中横坐标为 Log2(FoldChange),纵坐标为-Log10(P-Value),图中越靠近左下角和右下角的数据 P-value 值越小,FoldChange 值越大,差异越显著。

3.利用 Venn 分析构建模型

使用 OmicsBean 分析系统将非侵袭性乳腺癌(相对于正常组)的差异表达基因与侵袭性乳腺癌(相对于正常组)的差异表达基因进行 Venn 分析,得到 Venn 分析结果图,从图中可以看出只在侵袭性乳腺癌中差异表达的基因有 722 个,只在非侵袭性乳腺癌中差异表达的基因 942 个,同时在侵袭性乳腺癌和非侵袭性乳腺癌中差异表达的基因共 281 个,而在这 281 个差异基因中有 34 个基因在侵袭性和非侵袭性两个组中又存在差异表达,这 34 个基因是用来研究乳腺癌的侵袭性分子机制的关键基因,这些基因参与的生物通路和生物过程也将进一步阐明乳腺癌侵袭性分子机制。

为了更深入的研究乳腺癌侵袭性分子机制使用 OmicsBean 分析系统将只在侵袭性乳腺癌中表达的 722 个差异基因与 34 个关键基因进行合并构建出了乳腺癌侵袭性分子模型。该模型共 756 个基因。

4.功能富集分析

使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 756 个基因进行功能富集分析,其中包括 GO 富集分析与 Pathway 富集分析,其中 GO 富集包括 Biological Process(生物过程),Cell Component(细胞组成),Molecular Function(分子功能)。 Pathway 富集分析主要指 KEGG 富集分析。

4.1 GO 富集分析

使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 756 个基因进行 GO 富集分析。 富集到的比较显著的生物过程包括 multicellular organismal process,single-multicellular organism process,single-organism process,single-organism cellular process,developmental process,single-organism developmental process,anatomical structure development,system development,cell communication,multicellular organismal development 等, 这些生物过程都与细胞的生长相关,这些生物过程与侵袭性癌细胞向周围组织扩张性生长的特性是一致的。其中生物过程 Positive regulation of cell adhesion,regulation of cell communication 更能说明侵袭性乳腺癌细胞通过分泌一些特殊物质或降解正常组织的防御屏障使得与周围细胞粘附,破坏正常的组织。

4.2 生物过程 HeatMap 分析

使用 OmicsBean 分析系统将参与 cell communication 这个重要生物过程的差异基因进行 HeatMap 分析,可以看到在这个过程中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。

4.3Pathway 富集分析

使用 OmicsBean 分析系统将乳腺癌侵袭性分子模型中的 1820 个基因进行 KEGG 富集分析。富集到的比较显著的生物通路包括 Neuroactive ligand-receptor interaction,ABC transporters,Nitrogen metabolism,Type II diabetes mellitus,ErbB signaling pathway,Proximal tubule bicarbonate reclamation,Dorso-ventral axis formation,Arginine and proline metabolism,ECM-receptor interaction,Thyroid cancer 等。其中生物通路 Insulin secretion,Protein digestion and absorption,EMC-receptor interaction 与侵袭性癌细胞可以伸出伪足插入到周围的组织间隙,或通过分泌特殊物质等方式入侵周围的组织相一致

4.4 生物通路 HeatMap 分析

使用 OmicsBean 分析系统将参与 EMC-receptor interaction 这个重要生物通路的差异基因进行 HeatMap 分析,可以看到在这个通路中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。

5.网络调控模型构建

使用 OmicsBean 分析系统进行 PPI 模型构建,系统通过 String 数据库建立基因相互作用关联,在根据选择的生物通路进行模型构建。在这里选择 cell communication 和 EMC-receptor interaction 这两个重要的生物通路构建网络调控模型。

研究结论:

通过 PCA 分析,Cluster 分析,HeatMap 分析对芯片数据进行质量控制,了解不同组之间的数据分布和差异,然后使用 T-test 和 FoldChange 对矩阵数据进行了差异筛选,根据差异筛选的基因进行 Venn 分析构建了乳腺癌侵袭性模型,对模型中的基因进行功能富集找到了重要的生物通路 cell communication 和 EMC-receptor interaction,针对通路进行 PPI 网络调控模型的构建找到了重要的基因 VWF,CD44,SPP1,ITGB6,SDC4,ITGB3。


相关文章

基因芯片的背景介绍

高通量、全基因组的DNA芯片已经成为生物领域十分有用的工具。然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用。基因芯片分析就是为了通过生物信息学方法从这些芯......

个性化给药!基因芯片了解一下

临床上同病同治不同疗效的现象比比皆是,面对一些格外棘手的患者,以往医生只能无奈地解释为个体化差异。如今,以药物基因组学理论和基因检测为基础的“个体化药物治疗”可以实现量体裁衣式的个体化给药,它可以帮助......

基因芯片原理

基因芯片(genechip)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,可以基因芯片的测序原理用图11-5-1来说明。在一块......

基因芯片简介

随着人类基因组(测序)计划(Humangenomeproject)的逐步实施以及分子生物学相关学科的迅猛发展,越来越多的动植物、微生物基因组序列得以测定,基因序列数据正在以前所未有的速度迅速增长。然而......

基因芯片

基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列......

2019年基因检测将全面喷发

2017年上半年,全球消费级基因检测领域表现活跃,接连发生几起大事件。7月底,美国创业公司Exploragen宣布推出基于用户DNA的生活方式APP,即将在苹果APPStore上发布,能为用户提供生物......

基因检测“剧透”人生?

得知自己的基因检测结果后,吴峰(化名)如释重负。过去,他一直活在父亲抑郁症遗传基因的阴影下,甚至担心自己的社交能力有问题。“担心自己是生下来就被诅咒的人”。直到他向一个小试管里吐了2毫升唾液,20天后......

程京院士:用心缔造“中国芯”的领军人

成功研制专门用于SARS病毒检测的基因芯片;研制出世界上第一张遗传性耳聋基因检测芯片,让耳聋基因筛查列入民生工程,超百万人因此受益……多年来,博奥生物集团创始人程京带着他的研发团队发出了五个系列数十项......

溯源精微中选国家食安风险评估基因芯片检测服务项目

在国家食品安全风险评估中心基因芯片检测microRNA技术服务项目比选评审中,经专家评审小组集体评议,北京溯源精微科技有限公司被确定为本项目中选单位。联系人:任柏璇52165512;王珊5216552......

中科院:空气污染促使致肺癌关键因子CXCL13分泌激增

近日,中国科学院动物研究所膜生物学国家重点实验室发布科研文章:周光飚研究组发现炎症因子CXCL13在环境污染引起肺癌中的关键作用。文章称,世界卫生组织的数据显示,在每年180万新发肺癌病例及159万肺......