12月6日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。
官方宣文中,概括出这三种套件的突出特性:
Gemini Ultra——参数量最大,能力最强,适用于高度复杂的任务。
Gemini Pro——可扩展至各种任务的模型。
Gemini Nano——高效的设备端任务模型。
在模型能力方面,谷歌称Gemini Ultra的性能在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中的 30 个超过了当前最先进的结果。
Gemini被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。
Google DeepMind领头人Demis Hassabis兴奋宣布:「我们团队的成就让我感到无比自豪。对我和许多同事而言,通用人工智能(AGI)是终身追求。我坚信,只要用正确的方式加以应用,AI将成为史上最具变革力、最有价值的技术之一。Gemini AI正是向这个愿景迈出的重要一步。」
Gemini在MMLU基准测试中超越人类专家,得分率超过 90%。
大型语言模型(LLM)的主流评测数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。
MMLU(大规模多任务语言理解)是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集,MMLU的广泛性和深度更强,它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力,特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架,可以全面地评估和推动大型语言模型的发展。
全方位超越GPT?
Gemini(双子座)号称在MMLU测试集上,拿32-shot的思维链CoT结果干翻了5-shot的GPT-4?
在技术报告里也明清标明了同等五样本(5-shot)下的性能测试数据:我们看到的事实是gemini仍旧落后GPT-4近3个百分点!
在关键的性能测试项-大规模多任务语言理解MMLU,宣传上使用了一个很夸张的斜率曲线,号称gemini以90%大幅领先GPT-4的86.4%(下图左侧曲线):
JeffDean解释,这个数据实际上是为了显示google的CoT方法先进性:“我们认为,让社区了解我们开发的新 CoT 方法并进行比较,是一件很有意思的事情。”
Anthropic公司发布了最新的Claude3系列模型,一举击败了全球最强AI模型GPT-4。Claude3在多模态和语言能力等指标上表现出色,树立了新的行业基准。Claude3系列包括Claude......
12月6日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件:GeminiUltra,GeminiPro和GeminiNano。官方宣文中,概括出这三......
12月6日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini。Gemini将包括三种不同的套件:GeminiUltra,GeminiPro和GeminiNano。官方宣文中,概括出这三......
北京时间3月15日凌晨,人工智能初创公司OpenAI公布新一代人工智能语言模型GPT-4。与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,而且在回答的细节和表述方面更有价值和人情味。“......
ChatGPT引发的热潮仍在继续。3月17日,微软宣布名为Microsoft365Copilot的AI产品将应用于该公司一些最受欢迎的商业应用程序中,包括Word、Excel、PowerPoint、O......
“(该模型)仍然存在很多问题和错误……但你确实可以看到微积分或法律等技能的飞跃,从某些领域的非常糟糕到相对于人类来说实际上相当好。”从长远来看,OpenAI计划构建和部署可以处理多种媒体的系统,包括声......
当地时间14日,美国OpenAI公司宣布正式发布为ChatGPT提供支持的更强大的下一代人工智能技术GPT-4。就在其发布后的第一天,GPT-4在早期测试和公司演示中就以起草诉讼书、通过标准化考试和根......