发布时间:2023-12-28 13:06 原文链接: 数据赋能:利用深度学习对短文本产品名称分类


  一、研究背景

  在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工作中不断思考的议题。

  为了实现数据赋能,一方面要实现数据的持续有效汇集,另一方面要加强数据分析挖掘能力,从而有效感知数据。目前产品质量监督抽查的数据来源主要包括国家监督抽查和地方监督抽查,从抽查特点看,国家监督抽查侧重在舆情关注度较高、风险隐患较大的产品领域开展,而地方监督抽查聚焦区域内的重要业态,具有产品覆盖范围广、数据量大的特点,是产品质量监测工作体系的重要数据组成,占监督抽查数据总量的90%以上,数据中隐藏着大量行业、地区监管薄弱点和质量提升重点的信息。然而开展数据分析首先需要准确标识产品分类,才能实现区域间产品质量安全信息的共享和业务协同。2018年以来,上报的地方监督抽查数据达到176万批次1 ,产品命名超过9万种,其中超过95%的产品无法对应到现有抽查用产品分类目录,存在产品名称表述不一致、类别划分不统一等问题,严重制约了全国监督抽查数据的全面汇总分析和精准监管工作的有效开展,不利于在全国层面形成监管合力。

  目前,地方监督抽查数据通过系统直接填报、前置机交换、数据表导入等三种方式进行上报。从数据特点看,地方监督抽查的产品名称具有文本短小,特征稀疏、语法不规范等特点,相比于长文本,短文本的特点是信息量少,表达简洁,以致往往需要更加精准的分类技术来处理,才能实现将通过多种数据采集方式汇聚整合的地方监督抽查数据资源按产品大类到行业再到具体产品的分类。

  二、研究思路

  目前对产品名称进行分类的核心方法一般是基于传统的机器学习算法和深度学习算法。传统的机器学习算法包括:支持向量机(SVM)和朴素贝叶斯分类器(Naive Bayes Classifier)。SVM是一种监督学习算法,通常用于分类和回归任务。它的主要目标是找到一个最佳的超平面(或超平面组),以便在不同类别的数据点之间建立一个最大的间隔。这个最大间隔的超平面可以用于对新数据点进行分类,而且在许多情况下具有很好的泛化性能,且在高维空间中表现出色,能够处理具有许多特征的数据。朴素贝叶斯分类器是一种基于贝叶斯定理的概率分类算法。优势在于简单高效,训练过程很快,且适用于文本分类任务,对高维度的数据能够很好的处理词汇的稀疏性,且对小规模数据集上有较好的表现。

  而深度学习算法更聚焦在短文本的分类上,更贴合针对产品名称分类的模式,其中深度学习模型包括:TextCNN和FastText。TextCNN是一个使用卷积神经网络架构的文本分类模型。它的设计目标是通过卷积操作来捕获文本中的局部特征,然后通过全局池化层来整合这些局部特征以进行分类。TextCNN的主要组成部分有词嵌入层、卷积层、池化层、全连接层以及输出层。TextCNN的优势在于它的简单性和高效性,适用于文本分类任务,尤其是短文本分类。

  而FastText是一种快速文本分类模型,它引入了子词嵌入和平均池化操作。FastText算法的核心思想是通过学习词嵌入向量,将单词表示为连续的实数向量,以捕捉词汇之间的语义关系。FastText主要包括构建词袋和学习词嵌入,其中学习词嵌入的模型有CBOW和Skip-gram,这些模型的目标是通过上下文单词的信息来预测目标单词。其中CBOW模型是给定上下文单词的嵌入向量,通过平均化获得目标单词的向量表示,从而预测目标单词。Skip-gram模型是试图预测上下文单词,每个目标单词会生成多个训练样本使模型学习到更多丰富和具体的单词嵌入。

  三、研究进展

  对2018年以来各省通过中国电子质量监督系统上报的地抽数据中产品名称进行提取和清洗,从9万条数据中得到6万条物品名称清晰、物品分类明确、可进行训练的数据。为了达到最优的产品名称分类效果,对数据分别进行三种不同算法的训练,包括传统机器学习SVM以及深度学习中的TextCNN和FastText算法。

  首先对数据进行分词、停用词以及词向量模型的预训练,然后将词向量整合成一个句向量作为模型的输入进行训练。通过分析文本的字符组成,将特殊符号、英文符号、数字进行过滤,以减少对产品名称分类的影响。例如100ml密封盒和500ML塑料盒,本质上两种物品在分类的过程中都应该属于食品相关产品,为减少包含100、500、ml等数字、英文以及特殊符号的产品名称在算法学习过程中对产品分类的判断,在词组预训练过程中,对相应的不同容积、不同型号等影响算法分类的文本进行预处理。

  

图1 过滤特殊符号、英文符号和数字

  此外,再对重复的数据进行清洗,并按照已分类种类标签出现的频次降序排列,保存其index索引值、对应的种类标签和出现的频次,为避免出现频次过少的种类对模型产生过多影响,设置相应的阈值,控制模型学习时使用的数据集,从而提高模型对于整体数据分类的准确性。

 

 图2 数据预训练处理

  接着构造模型所需要的训练数据结构,使用目前自然语言处理最流行的jieba模块进行分词处理,完成预训练前数据准备。

  

图3 构造训练数据

  利用jieba库中的lcut方法,采用基于前缀词典的前向最大匹配算法,在模型训练完成后保存相应预处理的分词文本列表。

  图4 生成预训练模型及保存处理后数据

  然后,根据预测数据的正确率反向调整上述模型算法的参数,从而得到更好的预测结果。包括lr学习率、minCount最低词频、minn最小词长、maxn最大词长、loss损失函数、epoch迭代次数等,通过修改train_supervised函数中传递的参数,对模型训练的结果进行动态调整。

  图5 调整模型参数

  从算法的运行结果看,目前三种算法得到的训练准确率分别为:支持向量机SVM算法81.5%,TextCNN算法59.2%,FastText算法86.3%。在对测试集的训练中,FastText表现效果更好。

  四、下一步研究方向

  从现有的数据情况看,存在如下问题:(1)训练数据的规模较小。对于有近900项产品分类的模型,训练集的数据规模通常在百万级以上,且要保证训练数据集涵盖了各种产品类别、形状、颜色、尺寸等方面的差异,以使模型能够更好地进行分类。(2)数据质量有待提高。目前仅有6万条数据符合模型训练,且存在错误标记的情况,因此标签质量仍需提高,避免因数据质量影响模型性能。(3)数据的偏置现象。在清洗后的数据中,约有20%的数据是食品相关产品类,排名前十的分类共占约50%的数据总量。由于模型在学习过程中会倾向于过度关注这些类别,导致也会更倾向于预测这些类别,然而在实际预测新的数据过程中,这些类别可能不是绝大多数的产品的正确类别,导致模型预测出现误差。

  下一步,考虑对数据分类进行有效合并,从而简化问题。此外,针对有效数据量较少的问题,除挖掘更多可以利用的数据外,也可以利用数据增强等技术来生成更多的训练数据,包括同义词替换、文本翻转、随机插入等方式,有助于提高模型的泛化能力。针对数据分布不均匀以及预测倾向问题,可以通过欠采样和过采样以及修改数据权重等方法,对于数据集中数量较多的类别,可以进行欠采样或者减小权重;对于数量较少的类别,可以进行过采样或者增加权重,确保每个类别的样本数量相对均衡,从而解决数据分布不均匀的问题。预测倾向问题可以采用TOP N策略,预测前N个可能的类别,而不仅仅是最可能的一个,有助于避免模型过于集中在前几个类别上。

  在后续的模型训练过程中,也应实时监控模型的性能,及时发现并解决模型漂移或性能下降的问题。根据实际应用过程中模型训练结果的反馈,不断迭代优化训练模型和模型使用的训练数据集。

相关文章

数据赋能:利用深度学习对短文本产品名称分类

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

数据赋能:利用深度学习对短文本产品名称分类

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

利用深度学习对短文本产品名称分类的研究

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

新型类脑晶体管模仿人类智能,可在室温下节能执行联想学习

美国西北大学、波士顿学院和麻省理工学院研究人员从人脑中汲取灵感,开发出一种能够进行更高层次思维的新型突触晶体管,可像人脑一样同时处理和存储信息。在新的实验中,研究人员证明晶体管对数据进行分类的能力,超......

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

GuardantHealth、CancerResearchUK及其创新单位癌症研究Horizons周一宣布,它们已达成一项合作协议,旨在探讨共享技术、数据和见解,推动精准癌症检测和治疗的发展。各方表示......

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

GuardantHealth、CancerResearchUK及其创新单位癌症研究Horizons周一宣布,它们已达成一项合作协议,旨在探讨共享技术、数据和见解,推动精准癌症检测和治疗的发展。各方表示......

首个基因测试公司23andMe爆发数据泄露风波,690万用户信息外泄

23andMe于周一披露,10月份的数据泄露影响了总共690万用户档案。在上周五的一份监管文件中,这家消费者基因测试公司表示,它的调查发现0.1%,约14,000个用户账户最初被一名威胁行为者使用从其......

台湖将成北京数据基础制度先行区核心

12月5日,记者在本市召开的“两区”建设新闻发布会上了解到,前不久,国务院批复同意《支持北京深化国家服务业扩大开放综合示范区建设工作方案》(以下简称示范区2.0方案),示范区2.0方案围绕推进服务业重......

“生命健康数据空间联合实验室”正式揭牌成立

近日在上海举行的2023全球数商大会健康数据高峰论坛上,“生命健康数据空间联合实验室”正式揭牌成立。据悉,该实验室由复旦大学、上海市生物医药技术研究院和中国信通院上海工创中心牵头,复旦大学附属中山医院......

卫健委发布《卫生健康信息数据元目录 第1部分:总则》等34项卫生行业标准

近日,卫健委发布《卫生健康信息数据元目录第1部分:总则》等34项推荐性卫生行业标准,,涉及总则、标识、实验室检查、医学诊断等项目,详情如下:标准编号标准名称代替标准编号WS/T363.1—2023卫生......