发布时间:2023-03-22 14:33 原文链接: 如何规避安全风险?大模型安全评估框架发布

  当前,ChatGPT 正在引领人类进入无缝人机交互的新时代。相关业内人士指出,大规模语言模型(以下简称大模型)在新一轮快速发展同时,场景应用也暴露出一些问题,如事实性错误、知识盲区和常识偏差等。此外,大模型还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

  “要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。”日前,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈在接受《中国科学报》采访时表示,“大模型发展到现在,其结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。”

  记者获悉,针对大模型的安全伦理问题,黄民烈研究团队历经两年积淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。他介绍,安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的AI研究和应用。

  此前,黄民烈研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。他表示,这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

  与此同时,黄民烈研究团队也针对以上八大安全场景对大模型进行针对性升级。团队通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

  另外,着眼于容易触发安全问题的类型,黄民烈研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击,使得安全体系更加完善,进一步改进和优化模型表现。

  未来,黄民烈研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台。

相关文章

开展安全风险隐患复查,筑牢安全生产防线

2023年12月14日,中国疾控中心党委副书记周宇辉带队在辐射安全所开展安全风险隐患复查工作。中心办公室、教育培训处、实验室管理处、基建处、保卫处、运管中心和信息中心有关同志参加,辐射安全所全体领导班......

海关总署发布60项行业标准,含实验室安全管理和色谱质谱等检测方法

近日,海关总署发布2023年第156号(关于发布《检测实验室质量安全风险管理通则》等60项行业标准的公告(以下简称“公告”)。公告指出发布《检测实验室质量安全风险管理通则》等60项行业标准。《技术性贸......

长沙环保职院首届“绿色的摇篮,安全的港湾”实验室安全周启动

长沙环境保护职业技术学院于10月23日正式启动首届“绿色的摇篮,安全的港湾”实验室安全周活动。此次活动旨在加强校园安全文化建设,提高师生实验室安全意识,有效防范和消除安全隐患,确保校园安全、师生生命安......

如何规避安全风险?大模型安全评估框架发布

当前,ChatGPT正在引领人类进入无缝人机交互的新时代。相关业内人士指出,大规模语言模型(以下简称大模型)在新一轮快速发展同时,场景应用也暴露出一些问题,如事实性错误、知识盲区和常识偏差等。此外,大......

国办针对危险废物的监管、利用和处置发文

为提升危险废物监管和利用处置能力,有效防控危险废物环境与安全风险,国务院办公厅近日印发《强化危险废物监管和利用处置能力改革实施方案》(以下简称《方案》)。《方案》提出,到2022年底,危险废物监管体制......

广东省《化工园区区域安全风险评估导则》(征求意见稿)

广东省应急管理厅官网发布《化工园区区域安全风险评估导则》(征求意见稿)(以下简称“征求意见稿”)。征求意见稿明确提到,化工园区至少每3年进行一次区域安全风险评估。值得注意的是,当化工园区出现产业规划改......

《安全风险物质高通量质谱检测技术》新书发布会在穗举办

2月26日上午,由广东省测试分析研究所(中国广州分析测试中心)、华南理工大学出版社主办的“《安全风险物质高通量质谱检测技术》新书发布会”在广州保利世贸博览馆1层二号厅茶歇区举行。活动现场广东省测试分析......

山东:举报4种食品药品违法行为可获奖金30万元

“举报人有特别重大贡献的,奖励金额原则上不少于30万元:举报系统性、区域性食品药品安全风险的;举报涉及婴幼儿配方乳粉、列入国家免疫规划疫苗等品种,且已对公众身体健康造成较大危害或者可能造成重大危害的;......

国家食药监总局部署学校食品安全风险隐患排查整治行动

2017年秋季开学在即,为严防严管严控学校食品安全风险,保障校园餐饮食品安全,8月28日,国家食品药品监督管理总局在南京召开学校食品安全监管工作会议,总结工作、交流经验、发现问题,并部署开展为期1个月......

笼统说荧光增白剂有安全风险是不科学的

8月20日,央视《每周质量报告》播出题为“洗涤用品质量调查”的节目,重点介绍了江苏省质监局对市场上的衣物洗涤剂进行质量调查的结果。8月21日,中国洗涤用品工业协会官网发布声明称,央视节目中关于荧光增白......