发布时间:2018-07-02 16:05 原文链接: 数据库管理系统:中国还在寻找“正确打开方式”

有一天你去银行取钱,惊喜地发现:由于系统故障,你的账户显示着马云的数据……

这种事不可能发生,因为数据库管理系统非常可靠。网上买火车票,或者将照片上传云端,你都离不开它。

而商用数据库管理系统的丰厚利润,一直被甲骨文为首的几家美国公司瓜分,中国产品望洋兴叹。

速度和可靠,兼顾是难题

查询银行账户时,我们不知道数字来自哪台计算机,哪块硬盘。有数据库管理系统(DBMS)替我们干活。

DBMS就像图书管理员:找到书架,存书,取书……说起来容易,但当图书馆特别大,而且书会拆开来放入相隔遥远的架子时,管理起来就很麻烦了。

在数据库开发与实施方面有丰富经验的IBM分析领域架构师罗曦光举了一个例子——用户修改数据时,相关存储区域会被锁住,其他用户只能排队等,如果DBMS存储位置不合理,就会耽误许多时间。数据操作的理想状况,如同几十只手弹奏一架钢琴,各弹各的,互不影响。

“数据库管理系统,尤其是关系型数据库管理系统(RDBMS)的方法论,教科书上写得很明白;其功能和常见的图书管理系统没什么差别。但当数据量非常大,到了TB和PB级别,DBMS性能不下降就是一大挑战。”罗曦光说。

比如一个普通的大型网站,每秒钟要处理十万个查询请求,数据库得同时执行几十个查询任务,而且响应时间极短。

“网络用户发送请求,期望一眨眼就得到结果。如果DBMS做得不好,响应时间长到10秒或20秒,用户会丧失耐心,数据库还可能经常挂掉。”罗曦光说,要永远不出故障,达到高可用性,需要很多专门技术。

目前全世界最流行的两种DBMS是Oracle和MySQL,都是甲骨文公司旗下的产品。竞争者还有IBM公司的DB2、Informix,微软公司的SQLserver以及开源的MariaDB等等。甲骨文、IBM、微软和Teradata几家美国公司,占了大部分市场份额。

国产替代难,输在稳定性

DBMS国货也有市场份额,但只是个零头。银行、电信、电力等要求极端稳妥的企业,不会考虑国货。20年前就有人呼吁国货替代,但一线技术人员并不情愿。

“先发优势、完善的售后技术支持和高额的迁移成本,是企业难以迁移到新系统的原因。”罗曦光说,国内一家电商平台为了从Oracle迁徙到别的系统,最多曾用上百人的团队花了十几个月,成本不菲。

罗曦光认为,如今的开源DBMS做得很好而且免费,但银行和传统龙头企业出于谨慎,对于将核心系统迁移到开源系统仍会持谨慎态度。

稳定压倒一切。DBMS行业观察家晓军在《国产数据库发展现状分析》一文中指出,国内DBMS企业大多源自1990年代的高校,期望实现国产替代。但多年来,“产品的稳定性一直上不去,也不敢做有挑战性的性能测试。所以,稳定性、性能都无法让市场信服。结果就是:稍微重要一点的系统根本没人敢用。”

另外,晓军说,当年国货往往模仿Oracle,追求大而全,而技术创新不足、没有特点。相比之下,1990年代的美国小厂商极富创新力,开辟了一些全新的技术方向,在与甲骨文等巨头的竞争中成功活了下来。

“这个年代,开源DBMS的源代码可以随便下载,国内应该不会有新的入场者再去做传统的DBMS了。”罗曦光说。

浩瀚代码的背后,是浩瀚人才

“Oracle的数据库软件……代码量堪称浩瀚。”晓军说,“Oracle最有特色的地方就是功能非常繁多,语句极端丰富,即便大部分都不常用。”

晓军说,小公司在这一点上试图比肩甲骨文,犹如“乞丐与龙王爷比富”。

晓军举例说:“Informix的主要模块的源代码就有2000多万行,Informix当年在美国的核心研发队伍就有超过200人,加上测试和周边团队,不下500人。”

而国内付费使用IBM公司的Informix源代码的几家企业,相关队伍都不超过40人,晓军说,要快速追赶世界先进水平,阅读代码的团队规模应该超过写代码的团队。因此国内“面对十年前的巨量代码一筹莫展,要弄通又得花很多年。”

而罗曦光认为,尽管国内公司没有可以比肩甲骨文的,但“在参与开源软件的意义上,中国不是没有入场的资格。这是一个技术充分交流与共享的时代。”

罗曦光说,目前开源的RDBMS(如MariaDB)就有国内软件开发人员大力支持,与大数据平台紧密关联的NoSQL数据库(如HBase)的开发社区里也活跃着中国开发人员的身影。以阿里云为代表的国内云服务的底层,也包含借鉴开源系统打造的数据库管理系统。

“今时今日,一个全新的公司来做项目,可能不会选择国外厂商付费的DBMS。比如互联网的初创企业,大概率会选择国内厂商的基于云服务的包含DBMS的整体方案。”罗曦光说。


相关文章

《自然》:知名数据库中超34万篇论文涉嫌造假

说起PubMed,很多小伙伴都非常熟悉,这应该算是国内最常用的生物医学相关SCI文献检索数据库,实验室的小白们一开始用的基本都是它。最近,Nature的一篇报道文章称,就是这样一个广受好评的文献检索集......

几乎所有已知的蛋白质结构都收录在这个免费数据库

谷歌DeepMind今日宣布,其发布的免费数据库对科学界已知的几乎所有蛋白质的结构进行了预测。DeepMind在2020年凭借其AlphaFoldAI软件轰动了科学界,该软件可以对蛋白质结构进行高度准......

多组学数据库“齐聚荟”助力油菜“全能”竞技

油菜产业集观赏、蜜源、生态、经济作物等多种功能于一身,是新兴的“全能选手”。围绕油菜,我国科学家近年来实现了从理论、技术、产品到转化的链式创新,推动了我国油菜基础研究与应用步入世界第一方阵。然而,如何......

黄振英团队等揭示土壤种子库的全球格局和环境驱动因子

中科院植物研究所研究员黄振英团队与合作者建立了全球土壤种子库数据库,研究了土壤种子库的全球格局和主要环境驱动因子。相关研究成果近日发表于《自然—通讯》。土壤种子库是未来地上植被多样性的重要载体,决定着......

北京基因组所构建出多物种转录图谱综合数据库

随着高通量测序技术的发展,转录组测序(RNA-seq)已成为系统研究基因转录及转录后水平调控状态的常规方法,并在多个物种中得到广泛应用。海量转录组数据以前所未有的速度产生,以数据驱动为导向的大规模数据......

全球药典草药基因组数据库已上线

近期,中国中医科学院中药研究所团队建立了全球药典基因组数据库(GPGD)。该数据库是全球首个针对药典收载草药物种的大型基因组学数据库。相关研究成果发表在《ScienceChina-LifeScienc......

俄开发出了新冠病毒变异国家数据库

俄罗斯联邦消费者权益保护和公益监督局网站消息,该局流行病中央研究所根据政府关于创建统一疫情信息分析中心的指示,开发出了新冠病毒变异国家数据库。消息说,该数据库将加快抗击新冠病毒的进程,因为到目前为止,......

肿瘤免疫火得飞起,更新后的TIMER2.0数据库真心好用!

肿瘤微环境中免疫细胞的组成和丰度是影响肿瘤进展和免疫治疗效果的重要因素。由于直接测量方法的局限性,计算算法通常用于从肿瘤转录组图谱推断免疫细胞组成。这些估计的肿瘤免疫浸润人群与肿瘤的基因组和转录组学变......

武汉科研团队破译并公布莲基因组数据库

近日,武汉市园林科学研究院和中科院武汉植物园携手研发出破译荷花遗传密码的莲基因组数据库。日前,该数据库在国际知名学术期刊公布,供各国荷花研究人员免费共享。据介绍,水生植物莲是地球上最早出现的开花植物之......

植物中首个多物种参考面板的综合数据库构建成功

11月2日,华中农业大学信息学院生物信息团队在《核酸研究》发表研究成果,通过收集包括水稻,玉米、小麦、油菜和棉花等12个重要农作物的遗传变异信息,构建了植物中首个多物种的高质量遗传参考变异库,为植物遗......