2月23日,清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。研发团队代表介绍说,实验数据表明RealSafe-R1安全性提升显著,“安全增强版DeepSeek”可为更多应用提供可靠坚实基座。
连日来,国产开源大模型DeepSeek的优异表现备受关注,其在自然语言处理和多任务推理方面的能力展现了强大的技术实力,尤其是在复杂问题解决和创造性任务中表现出色。业内专家同时提醒,DeepSeek R1和V3在面对一些安全性挑战时仍存在一定的局限性。
针对“安全对齐机制不足”这一当前开源大模型的通病,清华瑞莱联合团队提出基于模型自我提升的安全对齐方式。“大模型的安全性瓶颈是本质的,只有通过持续投入和攻坚补齐短板弱项,人工智能产业才能真正实现高质量发展。”瑞莱智慧首席执行官田天说。
据介绍,研发团队将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。具体来说,研发团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。
实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间“跷跷板”现象。有评论认为,这为开源大模型安全发展与风险治理提供了创新性解决方案。
田天表示,RealSafe-R1各尺寸模型及数据集,将于近期向全球开发者开源。他进一步指出,这一创新成果将为开源大模型的安全性加固提供有力支持,也为政务、金融、医疗等场景的应用提供更为可靠的坚实基座。
5月28日,“筑光为梦矢志兴邦——纪念王大珩诞辰110周年专题展览”开幕式在清华大学校史馆举行。本次展览由清华大学校史馆、档案馆、物理系,中国科学院长春光学精密机械与物理研究所,长春理工大学联合主办,......
2月23日,清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。研发团队代表介绍说,实验数据表明RealSafe-R1安全性提升显著,“安全增强版DeepSeek”可为更多应用提供可靠坚实......
2月23日,清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。研发团队代表介绍说,实验数据表明RealSafe-R1安全性提升显著,“安全增强版DeepSeek”可为更多应用提供可靠坚实......
曾在2024年11月访问台湾期间受到两岸媒体关注的清华大学本科生彭弋航,已于近日获评为2024年清华大学学生年度人物。2024年12月31日,微信公众号“清华大学学生会”公布了2024年清华大学学生年......
12月2日下午,“清华大学学生处”微信公众号发布了《近期学生违纪情况通报》,通报涉及三起学生违纪事件。学校持续开展学生纪律教育工作,引导和帮助青年学生守纪律、讲规矩。为发挥好案例警示教育作用,用身边事......
9月2日,有着浓厚教授创业背景的科技创业公司“无问芯穹”(InfinigenceAI)宣布完成近5亿元A轮融资。至此,在成立短短1年4个月内,无问芯穹累计已完成近10亿元融资。作为一家AI算力技术初创......
据北京晚报消息,7月10日,清华大学成立统计与数据科学系。新系成立后,清华将在此前统计学本科辅修学位的基础上,开设统计学本科主修学位,还将开设针对其他专业博士生的统计学辅修硕士项目,为其他领域的博士生......
6月30日,清华大学2024届研究生毕业生典礼举行,37岁时梦圆清华的视障青年梁江波成为9000多名清华2024届研究生毕业生中的一员。澎湃新闻从清华了解到,梁江波是清华首位全盲研究生毕业生。在毕业典......
随着科技领域的迅猛发展,科技工作者在推动社会进步中发挥着举足轻重的作用。然而,长期面对高强度的工作压力和紧张的科研环境,关注身心健康问题极为重要。2024年5月28日,在第八个科技工作者日到来之际,中......
日前,记者从清华大学获悉,该校2024届毕业生就业进展平稳有序,近九成已取得工作录用或完成签约。同时,该校也对近几年清华毕业生就业情况进行了介绍。据清华大学学生职业发展指导中心主任张超介绍,近年来,清......