发布时间:2023-06-05 15:05 原文链接: 每周有超100万行代码在开源AI领域创建

·LF AI & Data在2018年开始做AI开源生态系统时,只有大约70个项目被认为是关键项目,而现在已经增加到了350个。这些项目提供了超过6亿行代码,可供任何人选择、使用。

·比如某银行,全国有八大研发中心,每个中心有N个项目组,每个项目组还有M个外包团队,在做着N乘以M个并行的软件项目。一堆人在吭哧吭哧写代码,没有任何交流。

“现在每周有超过100万行代码在开源AI领域中被创建,有无数优秀的社区成员做出贡献,我觉得开源的下一代ChatGPT指日可待。”5月27日,在上海举办的2023全球开源技术峰会期间,LF AI & Data基金会执行董事、PyTorch基金会执行董事易卜拉欣·哈达德(Ibrahim Haddad)在接受澎湃科技(www.thepaper.cn)专访时,谈到了大语言模型的开源现状。

  LF AI & Data基金会执行董事、PyTorch基金会执行董事易卜拉欣·哈达德。

开源(OpenSource)即开放源代码,用户可以利用源代码在其基础上修改和学习。峰会期间,开源中国董事长马越在接受澎湃科技采访时谈到,用户基于兴趣来到某个开源项目,在源代码的基础上不断改进,在此过程中,一部分优秀项目就会得到发展并商业化。

  开源中国董事长马越在2023全球开源技术峰会上发表演讲。

马越回忆到,开源起源于欧美,中国曾经不是开源的强国,只是开源应用的大国。但如今随着技术与经济环境发展,开源不再单纯是“为爱发电”的模式,生态已经发生了翻天覆地的变化,如今国内已有多家覆盖全领域技术内容的综合社区,且拥有丰富的奖励机制来维护生态,这个过程中孕育出了许多优秀的开源项目,例如OpenHarmony(鸿蒙操作系统的开源版本)。

谈到开发者与开源生态的关系时,马越指出,“没有开发者的生态,不能称其为开源生态,一个不能持续吸引更多开发者的生态,注定也会枯萎。”马越还表示,数字化转型的最大阻碍,是代码没有成为企业资产,“目前许多企业陷入了‘灯下黑’的状态,开发了无数代码,需要修改时,却找不到对应的内容,这些代码无法成为企业资产。软件本质上的核心价值是为了复用,而这正是开源要解决的问题。”

“开源AI项目会诞生下一个ChatGPT”

自聊天机器人ChatGPT及其背后的GPT大模型爆火之后,一些开源大模型也在最近几个月引起了业界高度关注,包括Meta的LLaMa、复旦大学的MOSS和Databricks的“多莉(Dolly)”等。

在采访中,哈达德十分肯定,AI相关的开源项目会在未来产生下一个ChatGPT,“开源能够加速大语言模型(LLM)的开发和创新。”他说,“事实上,许多行业内的组织都意识到,要想实际训练这些模型,需要太多的数据、太多的精力和太多的云服务。因此,开源方面的协作是必不可少的。在面对复杂问题时,需要许多组织携手合作,共同应对这些难题。”

哈达德解释称,建立一个开源的大语言模型需要很多模块,“要实现真正的开源,至少需要七八个不同的模块都以开源形式提供。这需要多个组织共同努力。”

哈达德认为,最重要的模块是用来训练的数据集,必须在Linux基金会的开源许可下使用。“我们和成员公司定义这个特定的AI数据开源许可证为CDLA(community data license agreement),公司们可以使用这个许可证来开源数据。”其次是模型架构本身,以及公司用于构建模型的支持工具和库,还有模型的权重和参数、文档等。这些都是大模型生态需要以开源形式提供的模块,它们可以帮助其他人获取这些信息并运行模型,使用相同的方式和基准进行训练。通过提供所有这些信息,其他人可以在此基础上做出贡献,这也是一种建立信任的方式。

事实上,LF AI & Data正在着手做这件事,该基金会是Linux基金会旗下专注于人工智能、机器学习、深度学习和数据的子基金会。哈达德表示,自2018年成立以来,LF AI & Data一直专注于建立社区和生态。而下一阶段,“我们将专注于AI,特别是生成式人工智能。”“人工智能技术的应用潜力巨大,现在很多人对这项全新技术仍然知之甚少,甚至不知道他们正在与人工智能系统或人工智能生成的语音或文本交互。”

哈达德认为开源极大地推进了人工智能的发展,他用几个关键数据举例称,LF AI & Data在2018年开始做AI开源生态系统时,只有大约70个项目被认为是关键项目,而现在已经增加到了350个。这些项目提供了超过6亿行代码,可供任何人选择、使用。“现在,每周有超过100万行代码在开源AI领域中被创建,可以看到如今AI开发和创新的速度都非常快。”

“开源是数字化转型的基座”

“市场上有很多公司,他们每天都在竞争。但在开源中,我们一般不会互相竞争。所有公司都走到一起,一起协作,为解决行业挑战做出贡献。这是一个非常与众不同的环境。”哈达德称,在这个环境中,人人彼此信任,构成了强大的道德基础,在此基础上可以构建一种透明的技术发展。

马越认为,这些凭借兴趣聚集的开发者,往往是在“为爱发电”中创造出了优秀的项目和开源生态,而这样的项目和生态恰恰是数字化转型的重要基座。“要利用专业平台把软件工程数字化这件事做好。开源中国能够帮助企业把软件工程的数据资产化沉淀下来,成为公司可审计、可复用的资产。”他说。

马越指出,现在市场上出现了“灯下黑”的现象,许多企业尝试数字化转型,却没有注意到本身的软件工程没有数字化。“比如某银行,全国有八大研发中心,每个中心有N个项目组,每个项目组还有M个外包团队,在做着N乘以M个并行的软件项目。信息化、数字化转型最大的投入点就在这里,阻碍也在这里。一堆人在吭哧吭哧写代码,没有任何交流。比如某银行的一个菜单选项栏,可能重复做过上千遍。”马越解释道,软件本质上的核心价值是为了复用。“数字化底座缺失就造成了复用缺失,不仅银行菜单使用复杂,审计代码不能运行,甚至一旦员工离职了,连之前的代码也追查不到。”

目前,中国开源社区如雨后春笋一般接连冒出。马越表示,除了开源中国,还有CSDN和51CTO等,而其他较小的垂直社区总计达300个左右。

GitHub 2022年的报告显示,全球已有超过9400万开发者用户,其中70%来自北美之外的地区,而中国开发者占10.3%,有975万,位居全球第三,GitHub预测2030年中国开发者将成为全球最大的开源群体。

针对国内外开源生态的差距,马越强调,尽管Gitee(开源中国2013年推出的基于Git的代码托管和协作开发平台)目前是世界第二大开源社区,但与国外的开源社区仍然有差距。“目前,我们只能服务1000万开发者,只拥有2500万代码仓,而GitHub可以达到我们力量的八九倍。”但他对未来持乐观态度,“中国开源迎来了历史上最好的时机。”他认为,中国目前的力量已经可以为开发者提供一个“起飞的基座”。

“解放天下开发者”

“开发者是开源生态的根基,一个不能持续吸引更多开发者的生态,注定也会枯萎。”马越指出,“在开源社区,存在着反哺循环,你帮助别人,别人就会回过头来帮助你,所以在通常情况下,最吸引开发者的点就是‘你可以帮助他’,你可以为他提供最优秀的项目、最好的质量、最广的场景。”

与过去相比,如今的开源生态已经发生了翻天覆地的变化。哈达德说,“1992年我在大学的时候,甚至很难找到开源网站。”如今,在线上,有开源网站提供各种丰富的知识,有许多社区论坛可以提问;在线下,开源项目举行很多线下交流活动,把成员们聚在一起讨论各种问题。

对于新进入项目社区的开发人员,哈达德表示,与多年前相比,今天的新开发人员更容易获得知识。Linux基金会提供了很多免费培训,帮助开发人员学习知识和技能并获得认证。“从雇主的角度来看,获得认证非常有价值。当两个人有相同的技能,其中一个是认证的,认证的人比没有认证的人有更大机会得到工作。”哈达德说。

另一方面,如何让开发者愿意参与开源?马越称,“解放天下开发者,最重要的是让他们先获得财富自由。比如让他们通过技能赢得物质奖励,比如帮助他们发展开源项目并实现商业化。”马越举例,目前有很多大厂开展黑客松大赛,给优胜者提供真金白银的奖励,通过物质利益来吸引更多开发者。

“我们在做一个长尾工程,对我们服务的超过1000万开发者提供基座服务。”马越举例,“在OpenHarmony项目的开发初期,开发者需要将代码托管在一个中立的第三方平台,才能获得大量的开发者流量,并且保证工程基座技术服务质量。而一般平台很难拥有我们这种积淀10年的巨大的开发者流量与技术服务。虽然OpenHarmony是我们这里最有名的项目,但我们还有其它大量优秀的项目。”


相关文章

6年打磨,这项全球性研究挑战传统观点

“梦想成真”是所有人的愿望,科学家也不例外。为恢复丧失的生物多样性和生态系统,生态学家早期提出一个听起来很美的“梦境”假说。他们援引美国奇幻电影FieldofDreams(中文译作《梦幻成真》)中的一......

微塑料污染对生态系统多功能性影响研究获进展

近日,华南农业大学资源环境学院章家恩教授团队在微塑料污染对生态系统多功能性影响研究方面取得新进展。相关成果在线发表于国际期刊《环境国际》(EnvironmentInternational)。自20世纪......

扎根寿阳三十年,三代旱农人治旱兴农

三十多年扎根黄土地,三代科学家常驻乡村田野,研发旱作农业技术,保障粮食稳产丰产,并建起了一座中国农业科学院山西寿阳旱地农业生态系统国家野外科学观测研究站。近日,中国农业科学院农业环境与发展研究所在山西......

海洋热浪对鱼类生物量到底有影响吗?

美国科学家研究显示,海洋热浪对底栖鱼生物量的影响有限。虽然某些情况下,短期热事件之后确实会出现生物量减少,但这不是规律而是例外。这种变数出现的原因令人好奇。气候变化被认为与极端温度事件有关,这类事件对......

大气所在植物个体资源竞争与群体结构特性分析研究中获进展

生态系统是复杂的动态平衡系统。一方面,植物个体一直处在生长变化中,个体间差异巨大,且邻近个体间具有复杂的相互作用(主要表现为资源竞争);另一方面,由大量个体组成的植物群落一般具有稳定的结构特征(如林冠......

中国科学院清原森林站“智慧”守护“地球之肺”

被誉为“地球之肺”的森林,作为陆地生态系统的重要组成部分,是具有全球重要意义和深远影响的“碳库”资源。在全球气候变化和“双碳”(碳达峰、碳中和)目标背景下,如何利用先进科技手段守护好、利用好森林资源,......

中国碳卫星可观测全球大气二氧化碳浓度及净碳通量

过去十年,全球大气二氧化碳浓度以平均每年6‰增速持续升高,全球温室气体排放未得到有效控制。这是中国科学院昨天在京发布的《全球人为源碳排放与陆地生态系统碳收支遥感评估科学报告》(简称《全球碳排放与碳收支......

草地退化导致的长江源区水土流失问题存在区域差异

2023年江源综合科考队员25日向记者介绍,他们开展的一项模拟试验发现:草地退化土壤裸露将导致长江源区水土流失风险大幅增加,并呈现明显区域差异。相关研究成果将为长江源区水土流失差异化治理提供科技支撑。......

深海采矿影响海洋生态环境,该如何治理?

上周,由于国际海底管理局(ISA)未能达成协议,导致国际水域海底采矿环境法规(以下简称环境法规)最终。观察人士对此表示担忧:针对电动汽车行业所需金属的采矿作业,可能会在不受监管的情况下展开。研究人员也......

生物多样性保护与利用科技合作对话会议成功召开

为进一步深化中国与克罗地亚等中东欧国家科技创新务实合作,做实做强生物多样性保护与利用领域创新主体交流平台,6月15日,首届中国—克罗地亚生物多样性保护与利用科技合作对话会议在成都成功召开。作为“中国—......