发布时间:2016-03-25 15:55 原文链接: BioTechniques:应对大数据的挑战

  如今的实验室硬件,无论是显微镜、质谱仪,还是DNA测序仪,都产生了GB级的数据。然而,它们仍缺乏处理数据和提取信息所需的软件。为了填补这一空缺,研究人员正在积极开发计算工具。在这一期的《BioTechniques》上,Jeffrey Perkel博士就来谈谈大数据。

  大数据有多大?

  Adina Howe是密歇根州立大学的一名博士后。她试图通过宏基因组学数据来组装细菌基因组,不过数据太大了,接近4000亿个碱基,组装软件跟不上。通常情况下,新一代测序的原始数据是30 GB/样品,比Howe的数据低一个数量级。然而,即便如此,计算新手也会遇到不小的麻烦。“他们不能打开微软的任何产品,因为软件可能会崩溃,”Howe指出。

  好在,Howe曾经的同事,加州大学戴维斯分校的副教授C. Titus Brown提出了解决方案。他实验室的旗舰软件是“khmer”,这个工具能将序列缩减成一系列任意长度的“单词”,即k-mers,简化了基因组组装的任务。

  为了解决Howe的宏基因组学问题,Brown的团队实施了一种概率数据结构,称为“Bloom filter”,将存储所需的空间减少了40倍。通过这种办法,Howe从宏基因组学数据集中产生了近550万个蛋白编码基因的组装。

  成像的挑战

  Pavel Tomancak是马克斯普朗克研究所的一名研究组长,他也面临同样的问题。他通过激光片层扫描显微镜(light-sheet microscopy)记录整个果蝇胚胎,研究胚胎发育过程中的基因表达,数据量达到几TB。现有的软件根本跟不上。

  Fiji是一个很受欢迎的开源图像处理软件,它不仅包括核心的ImageJ软件,还包括一些插件等。Tomancak是Fiji项目的核心开发者之一。为了解决大数据问题,他已经开发了一系列新的插件。BigDataViewer让用户能够在远程查看大型数据集,而不用下载数据。“你根本不可能在笔记本电脑上存储10 TB的图像数据,”他说。

  Fiji的开发者还定期举办“编程马拉松”活动,合作改善软件。在2012年的编程马拉松活动之后,开发者推出了一个名为imgLib的插件,允许开发人员与图像数据有效互动,而不论其数据类型、大小或位置如何。

  你也来试试?

  如此看来,掌握一点编程技术,的确很有用哦。现在网络上有很多资源可以学习,包括在线教程和手册、论坛及在线课程。文中提到的Software Carpentry课程需要2天时间,包括3个主要模块,覆盖UNIX命令行;R、Python或MATLAB的编程;以及版本控制。当然,短短2天之后,你并不会成为专家,但你了解计算机能实现什么,也有信心去寻找更多的信息。

  Howe指出,数据分析也是一种实验室方法,与其他无异。“我在实验室学到的第一件事是如何在无菌环境下培养细菌,我自己不会,必须有人教我。”计算也一样。“每个人都需要有个人去培训他。然后,你必须自己去做,去犯错误,这只是过程中的一部分。”

相关文章

第七批新职业聚焦三个“新”

22日,记者从人力资源社会保障部举办的新闻发布会上了解到,第七批新职业正式发布,包括17个新职业、42个新工种。人力资源社会保障部职业能力建设司副司长王晓君在发布会上介绍,这次发布的新职业和新工种,反......

2024年云南省大数据产业发展试点示范项目公示

根据《关于组织2024年云南省大数据产业发展试点示范项目申报工作的通知》(设施〔2024〕210号),在企业申报和州市推荐基础上,经部门审核、专家评审等工作程序,现将我省2024年大数据产业发展试点示......

美科学家:大数据驱动的健康将革新医疗范式

“利用每个人的基因组学图谱和表型组学测量来生成一个独特的‘可操作的可能性’列表。在大多数情况下,这些积极主动的行为,经过临床研究验证,将优化健康,或防止/阻止躯体和大脑从健康向疾病的演变。当疾病演化发......

数智共生开创数字经济新未来——2024中国国际大数据产业博览会观察

8月30日,2024中国国际大数据产业博览会(以下简称“数博会”)在贵阳圆满落幕。从电力人工智能(AI)机器人到高空发电,再到月球大模型,每一年的数博会都有黑科技、新成果惊艳世界,今年也不例外。本届数......

科技赋能多地做好防汛救灾应急指挥通信保障工作

近日,针对华南及长江中下游地区多地遭遇暴雨洪涝灾害,一些地方遭遇断路断网断电极端情况,应急管理部持续加强大数据监测预警,统筹开展应急通信装备预置备勤,深化演练拉动,强化科技赋能,着力提升汛期应急指挥通......

工信部:加速推进大数据、人工智能等研发应用

国新办于4月18日(星期四)上午10时举行新闻发布会,工业和信息化部新闻发言人、总工程师赵志国表示,下一步,工信部将围绕高质量发展这个首要任务,进一步巩固提升信息通信业竞争优势和领先地位。一是夯基础。......

司法部:经营者不得实施“价格歧视”“大数据杀熟”

财联社4月9日电,国务院新闻办公室举行国务院政策例行吹风会,介绍《中华人民共和国消费者权益保护法实施条例》有关情况。司法部立法二局负责人郭启文在会上表示,在立法过程中,司法部与市场监管总局紧密合作,聚......

多部门联合开展全国数据资源调查

国家数据局19日发布消息,为摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局、中央网信办等部门联合开展全国数据资源情况调查,调研各单位数据资源生产存储、流通交易、开发利用、安全......

烟台新增7家省级数据开放创新应用实验室

近日,山东省大数据局印发《关于公布山东省数据开放创新应用实验室名单(第三批)的通知》(鲁数字〔2023〕59号),烟台智慧城市大数据研究院、陆海空间(烟台)信息技术有限公司等7家企事业单位获批。截至目......

2023年大数据产业发展示范名单公示

根据《工业和信息化部办公厅关于组织开展2023年大数据产业发展示范申报工作的通知》(工信厅信发函〔2023〕187号),经企业自主申报、地方推荐、专家评审等环节,形成了2023年大数据产业发展示范名单......