原文地址:http://news.sciencenet.cn/htmlnews/2023/9/508482.shtm
日本正在打造自己的聊天机器人ChatGPT。日本政府和NEC、富士通、软银等大型科技公司正在投入数亿美元,开发基于相同底层技术的人工智能系统——大型语言模型(LLMs),使用语言为日语。
?
日本的超级计算机Fugaku已经开始消化日语文本,以开发日本版的ChatGPT。图片来源:Kyodo News via Getty
据《自然》消息,专门研究自然语言处理的日本东北大学研究员Keisuke Sakaguchi认为,目前的大型语言模型智能系统在英语方面表现出色,但在日语方面往往表现不佳。
LLMs通常使用来自公开资源的大量数据来学习自然语音和散文的模式。它们被训练根据一段文本中的前一个单词预测下一个单词。ChatGPT之前的模型GPT-3所训练的绝大多数文本都是英语。
在日本,有人担心用其他语言的数据集训练的人工智能系统无法掌握日本语言和文化的复杂性。日语的句子结构与英语完全不同。因此,ChatGPT必须将日语查询翻译成英语,找到答案,然后将响应翻译回日语。
英语只有26个字母,而书面日语由两组48个基本字符和2136个常用汉字组成。大多数汉字都有两种或两种以上的发音,还有大约5万个很少使用的汉字。考虑到日语的复杂性,ChatGPT在使用这种语言时遇到困难并不奇怪。使用日语时,ChatGPT有时会生成大多数人从未见过的极其罕见的字符,以及奇怪的未知单词。
对于一个有用的,甚至商业上可行的LLM,它需要准确地反映文化习俗以及语言。为了衡量LLMs对日本文化的敏感程度,研究人员推出了Rakuda,这是一个衡量LLMs回答有关日本主题的开放式问题能力的排名。通过对论文审稿意见的流动性和文化适应性进行比较,结果发现,日本最好的LLM在Rakuda上排名第四,GPT-4排名第一。GPT-4在87%的情况下与人类审稿人一致。
研究日语模型的东京大学物理学家Passaglia表示,LLMs远远落后于GPT-4,但原则上没有理由说将来的LLM不能达到或超过GPT-4。“这不是技术上无法克服的问题,只是资源的问题。”
创建LLM的一项重大努力是使用日本超级计算机Fugaku,主要训练日语输入。与GPT-4和其他专有模式不同,它将与其他开源LLMs一起向所有用户提供其代码。
然而,Fugaku LLM可能会被一个更大的LLM接替。日本文部科学省正在资助创建一个针对科学需求的日本人工智能项目,该项目将通过从已发表的研究中学习来产生科学假设,加快确定调查目标。该模型可以从1000亿个参数开始,这比GPT-3的一半多一点,并将随着时间的推移而扩大。该LLM的开发成本至少为300亿日元(2.04亿美元),预计将于2031年公开发布。
其他日本公司已经将自己的LLM技术商业化或计划商业化。超级计算机制造商NEC在5月份开始使用基于日语的生成式人工智能,并声称它将创建内部报告所需的时间缩短了50%,将内部软件源代码缩短了80%。
日本电气数据科学实验室高级首席研究员Masafumi yamada表示,该技术可用于广泛的行业,如金融、运输和物流、分销和制造业。他补充说,研究人员可以把它用于编写代码、帮助编写和编辑论文、调查现有发表的论文等任务。
与此同时,日本电信公司软银正在投资约200亿日元,开发基于日语文本的生成式人工智能,并计划明年推出自己的LLM。软银拥有4000万客户,并与OpenAI的投资者微软建立了合作关系。软银表示,它的目标是帮助企业实现业务数字化,提高生产率。。
日本研究人员希望一个精确、有效、日本制造的人工智能聊天机器人可以帮助加速其科学发展,弥合日本与世界其他地区之间的差距。
东京庆应义塾大学医学院医学技术研究员Shotaro Kinoshita表示,如果日文版ChatGPT能够做到准确,有望为那些想学习日语或进行日本研究的人带来更好的结果,从而可能会对国际联合研究产生积极影响。
几千年来,鲸鱼都是人类眼里神秘的存在,常出现在神话和民间传说里。在过去一个世纪里,尽管鲸类学或鲸鱼科学提高了我们对这些海洋哺乳动物的认识,但研究鲸鱼仍然是一项艰巨的挑战。现在,多亏了机器学习,我们离了......
作者:中国合格评定国家认可委员会时间:2024-05-092023年度CNAS秘书处共收到对获认可检验检测机构各类投诉57件,对其中符合受理条件的31家获认可机构组织开展了调查。根据调查结果撤销7家机......
关于CNAS-SV01:202X《民航温室气体声明核查机构认可方案》网上征求意见的通知 <字体大中小> 作者:中国合格评定国家认可委员会时间:2024-05-09各相关......
体细胞克隆猴“中中”和“华华”。研究人员在操作体细胞克隆猴相关实验。“中中”“华华”登上《细胞》杂志封面。中国科学院脑科学与智能技术卓越创新中心供图■本报记者李晨阳徐可莹中国最有名的猴子,除了孙悟空外......
名称关于公开征求国家生态环境标准《环境影响评价技术导则放射性固体废物近地表处置环境影响报告书的格式与内容(征求意见稿)》意见的通知索引号000014672/2024-00168分类辐射源安全监管发布机......
关于修订发布CNAS-EC-057:2019《落实IAF强制文件要求对代表管理体系认证机构开展业务的实体进行控制的说明》(2024第一次修订版)的通知......
直播时间:2024年5月7日(周二)20:00-22:00 直播平台: 科学网APP ......
关于举办产品、过程和服务认证机构认可宣贯培训的通知 <字体大中小> 作者:中国合格评定国家认可委员会时间:2024-05-07关于举办产品、过程和服务认证机构认可宣贯培......
原文地址:http://news.sciencenet.cn/htmlnews/2024/4/521683.shtm4月25日,“许国志与管理科学杰出人才培养论坛暨许国志院士诞辰105周年纪念活动”在......
关于举办实验室认可技术(青岛)培训的通知......