生物数据大爆炸带来了无限可能,我们能从浩瀚的数据库中寻找到帮助临床医师们做出更正确判断,进行个体化医疗的许多信息,但是从设想走到现实还有很长的路要做。
11月7日的Nature Genetics杂志公布了一项最新数据分析工具成果,来自哥伦比亚大学和普林斯顿大学的研究人员利用一种新的机器学习算法扫描大量的遗传数据集,从中推断个人祖先的遗传组成,识别疾病相关的遗传突变。
这种新技术就是 TeraStructure ,在针对一万人的模拟数据集中, TeraStructure 评估人群结构的精确性要比目前的运算方法更高,速度要快一倍。单独使用 TeraStructure能分析上百万的个体人群,这个数量级远超目前的软件方法,而且这一算法还能评估世界级别人口数量的特征。
“很高兴能将我们的最新数据分析工具用于遗传学实际问题,”文章作者,哥伦比亚大学统计学教授David Blei说。Blei是哥伦比亚大学统计学与计算科学教授,主题模型领域权威人物,他与吴恩达博士(百度首席科学家,全面负责百度研究院)师出同门。
随着基因测序成本的降低,目前全球大约已经进行了百万个个体的基因组测序,到2025年这一数字将会增长至20亿。然而要将这些数据应用到临床,识别基因组中的致病突变,研究人员还需知道这些数据代表了什么,其中之一就是了解个体祖先的遗传变异。
TeraStructure 基于2000年首次公布在Genetics 杂志上的一种 STRUCTURE 算法,这种算法会在整个数据集中循环,一个基因组再一个基因组,筛选上百万个突变。
而TeraStructure会更新模型,它能在一个位置上检验一个遗传突变,然后将其与整个数据集中同一位置的所有突变进行比对,得到一个群体结构的工作预测,“这无需在每个点上每次都更新模型。”
在STRUCTURE 基础上,Blei等人提出了一些新想法,他们分析了两个真实世界数据集:来自斯坦福大学Human Genome Diversity Project 的940个个体基因组,以及千人基因组项目中的1,718个基因组集合。从中他们发现TeraStructure 可以媲美于最近的ADMIXTURE 和 fastSTRUCTURE 运算方法。
但当他们在万人基因组数据集中运行TeraStructure 之后,发现这在预测人群结构方面要更加精确,而且速度要快2-3倍。同时研究人员还发现 TeraStructure 也能单独分析多达十万和百万的基因组。
这一成果一出来,不少科学家们纷纷表示这项成果令人激动,“我认为这将有助于未来解决具有挑战性的多种问题,”来自芝加哥大学的遗传学研究员Matthew Stephens说。
肝细胞癌(HCC)对人类健康构成严重威胁。ADCY2基因多态性可能与HCC易感性有关。因此,该研究探索了ADCY2基因多态性是否与中国汉族人群的HCC风险相关。2021年9月1日,西安医学院姜超团队在......
类的疾病易感性和生理特征等常见性状的差异,往往由DNA序列变化造成,这些DNA片段缺失、增加、异位等变化被统称为遗传变异。全基因组关联研究(Genome-WideAssociationStudy,GW......
2021年8月3日,百奥智汇发布首款一站式单细胞数据分析软件OmniAnalyzer。该软件内置多种算法,包含从原始数据处理、批次效应校正到细胞分群、细胞类型识别、差异表达分析、轨迹推断等全套数据分析......
分析测试百科网讯2019年10月26日,第四届北京妇幼保健检验医学论坛第二日会议如期举行。国内外著名检验医学和临床医学专家学者近200人参加了此次会议,分析测试百科网作为此次会议的支持媒体,为您全程跟......
2019年2月18日,安捷伦科技公司(纽约证交所:A)日前宣布授予PaulBonnington和KimbalMarriott“安捷伦思想领袖奖”,以支持他们在数据分析、机器学习、人工智能和信息可视化方......
分析测试百科网讯2018年9月9日,由北京骐骥生物技术有限公司和沃特世科技有限公司主办的QiMetA软件全球发布会在北京举办。来自临床、科研和投资等多领域的50余人参加了此次活动。活动现场主持人:北京......
加州大学旧金山分校和田纳西州圣犹达儿童医院的研究人员解开了困扰医学界几十年前的谜团:他们发现了一组基因的遗传突变,这种突变导致了家族性血液病,有时甚至还会导致白血病。这项研究基于对5个家庭中16个兄弟......
1.是不是一定要用大型计算机?除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。2.是不是一定要用L......
《自然》运用CRISPR技术研究人类早期胚胎发育一篇新论文报告称,CRISPR-Cas9基因组编辑技术已被用于研究OCT4基因在人类早期胚胎发育中的作用。该研究为认识控制胚胎发生的分子机制带来了新见解......
23GENEBANK的基因组数据分析系统,从GB-CHIP,GB-WGS-REPORT,GB-TARGRUG等一路走来,历经15项核心技术突破,完成了从基因芯片到二代测序,从定制靶向捕获测序到全基因组......