如何规避安全风险？大模型安全评估框架发布

发布时间：2023-03-22 14:33 原文链接：如何规避安全风险？大模型安全评估框架发布

　　当前，ChatGPT 正在引领人类进入无缝人机交互的新时代。相关业内人士指出，大规模语言模型（以下简称大模型）在新一轮快速发展同时，场景应用也暴露出一些问题，如事实性错误、知识盲区和常识偏差等。此外，大模型还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

　　“要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。”日前，清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈在接受《中国科学报》采访时表示，“大模型发展到现在，其结构和规模已经有了很大的进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。”

　　记者获悉，针对大模型的安全伦理问题，黄民烈研究团队历经两年积淀，建立了大模型安全分类体系，并从系统层面和模型层面出发，打造更可控、可信的大模型安全框架。他介绍，安全框架的建立，定义了大模型的应用边界，促进大模型生态的健康发展，引领国内学术界和工业界迈向更有用（helpful）、更可信（truthful）、更安全（harmless）的AI研究和应用。

　　此前，黄民烈研究团队已经在安全伦理方面开展了相关研究，并依此建立了大模型安全分类体系，其中不安全的对话场景包括：政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。他表示，这些问题与人们的价值观和伦理道德息息相关，可能会导致用户接收不当信息、甚至影响用户产生有害的行为，限制大模型的发展和应用。

　　与此同时，黄民烈研究团队也针对以上八大安全场景对大模型进行针对性升级。团队通过收集多轮安全数据训练模型，使模型具备基本的安全性，能够在遇到安全问题时给予正确的回复策略，不去做判断和误导。进一步对模型进行自动测试，针对安全缺陷通过微调的方式进行快速迭代，促使模型越来越符合人类的认知理解模式，生成更加安全可信的内容。

　　另外，着眼于容易触发安全问题的类型，黄民烈研究团队收集和构造了相应的hard case（更难识别和处理的安全测试用例），总结和设计了六种一般模型难以处理的安全攻击方式，称为指令攻击，使得安全体系更加完善，进一步改进和优化模型表现。

　　未来，黄民烈研究团队将打造中文大模型的安全风险评估的 Leaderboard，为国内对话大模型的安全评估提供公平公开的测试平台。

其他网友还关注过

更多与如何规避安全风险？大模型安全评估框架发布相关的新闻

雪迪龙园区安全环保应急一体化监管平台水利水务建设资金监管平台 KATANAX X300 电熔融炉 TrueX 700/TrueX 760手持式土壤重金属分析仪 MIDAS超声波检测仪 M-ONLINE在线生化分析仪全自动加样系统 AutoMimo 1200 BCT 1000便携式挥发性有机物检测仪-非甲烷总烃及苯系物汇像-PHS960APS全流程核酸自动检测工作站 LabIndia 印度溶出仪

实验室

水资源与水电工程科学国家重点实验室中国科学院城市环境研究所青岛信标检测分析技术服务中心北京市产品质量监督检验所华瑞测科技服务有限公司辽宁省工程防灾减灾重点实验室英格尔检测上海市检测中心生物与安全检测实验室水利工程仿真与安全监测教育部工程研究中心国家环境保护微生物利用与安全控制重点实验室

如何规避安全风险？大模型安全评估框架发布

其他网友还关注过

消费品安全风险管理国家标准修订发布

我们该如何应对人工智能发展潜在风险？

美国一款心脏泵因安全风险已致49人死亡

开展安全风险隐患复查，筑牢安全生产防线

海关总署发布60项行业标准，含实验室安全管理和色谱质谱等检测方法

长沙环保职院首届“绿色的摇篮，安全的港湾”实验室安全周启动

如何规避安全风险？大模型安全评估框架发布

国办针对危险废物的监管、利用和处置发文

广东省《化工园区区域安全风险评估导则》(征求意见稿)

《安全风险物质高通量质谱检测技术》新书发布会在穗举办