发布时间:2023-12-28 11:15 原文链接: 利用深度学习对短文本产品名称分类的研究

一、研究背景

  在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工作中不断思考的议题。

  为了实现数据赋能,一方面要实现数据的持续有效汇集,另一方面要加强数据分析挖掘能力,从而有效感知数据。目前产品质量监督抽查的数据来源主要包括国家监督抽查和地方监督抽查,从抽查特点看,国家监督抽查侧重在舆情关注度较高、风险隐患较大的产品领域开展,而地方监督抽查聚焦区域内的重要业态,具有产品覆盖范围广、数据量大的特点,是产品质量监测工作体系的重要数据组成,占监督抽查数据总量的90%以上,数据中隐藏着大量行业、地区监管薄弱点和质量提升重点的信息。然而开展数据分析首先需要准确标识产品分类,才能实现区域间产品质量安全信息的共享和业务协同。2018年以来,上报的地方监督抽查数据达到176万批次1 ,产品命名超过9万种,其中超过95%的产品无法对应到现有抽查用产品分类目录,存在产品名称表述不一致、类别划分不统一等问题,严重制约了全国监督抽查数据的全面汇总分析和精准监管工作的有效开展,不利于在全国层面形成监管合力。

  目前,地方监督抽查数据通过系统直接填报、前置机交换、数据表导入等三种方式进行上报。从数据特点看,地方监督抽查的产品名称具有文本短小,特征稀疏、语法不规范等特点,相比于长文本,短文本的特点是信息量少,表达简洁,以致往往需要更加精准的分类技术来处理,才能实现将通过多种数据采集方式汇聚整合的地方监督抽查数据资源按产品大类到行业再到具体产品的分类。

  二、研究思路

  目前对产品名称进行分类的核心方法一般是基于传统的机器学习算法和深度学习算法。传统的机器学习算法包括:支持向量机(SVM)和朴素贝叶斯分类器(Naive Bayes Classifier)。SVM是一种监督学习算法,通常用于分类和回归任务。它的主要目标是找到一个最佳的超平面(或超平面组),以便在不同类别的数据点之间建立一个最大的间隔。这个最大间隔的超平面可以用于对新数据点进行分类,而且在许多情况下具有很好的泛化性能,且在高维空间中表现出色,能够处理具有许多特征的数据。朴素贝叶斯分类器是一种基于贝叶斯定理的概率分类算法。优势在于简单高效,训练过程很快,且适用于文本分类任务,对高维度的数据能够很好的处理词汇的稀疏性,且对小规模数据集上有较好的表现。

  而深度学习算法更聚焦在短文本的分类上,更贴合针对产品名称分类的模式,其中深度学习模型包括:TextCNN和FastText。TextCNN是一个使用卷积神经网络架构的文本分类模型。它的设计目标是通过卷积操作来捕获文本中的局部特征,然后通过全局池化层来整合这些局部特征以进行分类。TextCNN的主要组成部分有词嵌入层、卷积层、池化层、全连接层以及输出层。TextCNN的优势在于它的简单性和高效性,适用于文本分类任务,尤其是短文本分类。

  而FastText是一种快速文本分类模型,它引入了子词嵌入和平均池化操作。FastText算法的核心思想是通过学习词嵌入向量,将单词表示为连续的实数向量,以捕捉词汇之间的语义关系。FastText主要包括构建词袋和学习词嵌入,其中学习词嵌入的模型有CBOW和Skip-gram,这些模型的目标是通过上下文单词的信息来预测目标单词。其中CBOW模型是给定上下文单词的嵌入向量,通过平均化获得目标单词的向量表示,从而预测目标单词。Skip-gram模型是试图预测上下文单词,每个目标单词会生成多个训练样本使模型学习到更多丰富和具体的单词嵌入。

  三、研究进展

  对2018年以来各省通过中国电子质量监督系统上报的地抽数据中产品名称进行提取和清洗,从9万条数据中得到6万条物品名称清晰、物品分类明确、可进行训练的数据。为了达到最优的产品名称分类效果,对数据分别进行三种不同算法的训练,包括传统机器学习SVM以及深度学习中的TextCNN和FastText算法。

  首先对数据进行分词、停用词以及词向量模型的预训练,然后将词向量整合成一个句向量作为模型的输入进行训练。通过分析文本的字符组成,将特殊符号、英文符号、数字进行过滤,以减少对产品名称分类的影响。例如100ml密封盒和500ML塑料盒,本质上两种物品在分类的过程中都应该属于食品相关产品,为减少包含100、500、ml等数字、英文以及特殊符号的产品名称在算法学习过程中对产品分类的判断,在词组预训练过程中,对相应的不同容积、不同型号等影响算法分类的文本进行预处理。

图1 过滤特殊符号、英文符号和数字

  此外,再对重复的数据进行清洗,并按照已分类种类标签出现的频次降序排列,保存其index索引值、对应的种类标签和出现的频次,为避免出现频次过少的种类对模型产生过多影响,设置相应的阈值,控制模型学习时使用的数据集,从而提高模型对于整体数据分类的准确性。

图2 数据预训练处理

  接着构造模型所需要的训练数据结构,使用目前自然语言处理最流行的jieba模块进行分词处理,完成预训练前数据准备。

图3 构造训练数据

  利用jieba库中的lcut方法,采用基于前缀词典的前向最大匹配算法,在模型训练完成后保存相应预处理的分词文本列表。

图4 生成预训练模型及保存处理后数据

  然后,根据预测数据的正确率反向调整上述模型算法的参数,从而得到更好的预测结果。包括lr学习率、minCount最低词频、minn最小词长、maxn最大词长、loss损失函数、epoch迭代次数等,通过修改train_supervised函数中传递的参数,对模型训练的结果进行动态调整。

图5 调整模型参数

  从算法的运行结果看,目前三种算法得到的训练准确率分别为:支持向量机SVM算法81.5%,TextCNN算法59.2%,FastText算法86.3%。在对测试集的训练中,FastText表现效果更好。

  四、下一步研究方向

  从现有的数据情况看,存在如下问题:(1)训练数据的规模较小。对于有近900项产品分类的模型,训练集的数据规模通常在百万级以上,且要保证训练数据集涵盖了各种产品类别、形状、颜色、尺寸等方面的差异,以使模型能够更好地进行分类。(2)数据质量有待提高。目前仅有6万条数据符合模型训练,且存在错误标记的情况,因此标签质量仍需提高,避免因数据质量影响模型性能。(3)数据的偏置现象。在清洗后的数据中,约有20%的数据是食品相关产品类,排名前十的分类共占约50%的数据总量。由于模型在学习过程中会倾向于过度关注这些类别,导致也会更倾向于预测这些类别,然而在实际预测新的数据过程中,这些类别可能不是绝大多数的产品的正确类别,导致模型预测出现误差。

  下一步,考虑对数据分类进行有效合并,从而简化问题。此外,针对有效数据量较少的问题,除挖掘更多可以利用的数据外,也可以利用数据增强等技术来生成更多的训练数据,包括同义词替换、文本翻转、随机插入等方式,有助于提高模型的泛化能力。针对数据分布不均匀以及预测倾向问题,可以通过欠采样和过采样以及修改数据权重等方法,对于数据集中数量较多的类别,可以进行欠采样或者减小权重;对于数量较少的类别,可以进行过采样或者增加权重,确保每个类别的样本数量相对均衡,从而解决数据分布不均匀的问题。预测倾向问题可以采用TOP N策略,预测前N个可能的类别,而不仅仅是最可能的一个,有助于避免模型过于集中在前几个类别上。

  在后续的模型训练过程中,也应实时监控模型的性能,及时发现并解决模型漂移或性能下降的问题。根据实际应用过程中模型训练结果的反馈,不断迭代优化训练模型和模型使用的训练数据集。


相关文章

利用深度学习对短文本产品名称分类的研究

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

利用深度学习对短文本产品名称分类的研究

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

利用深度学习对短文本产品名称分类的研究

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

利用深度学习对短文本产品名称分类的研究

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......

财政部四川监管局:立足“三个一”构建财政运行分析“立体画像”

为全面提升财政治理能力,实现财政治理现代化。四川监管局统筹整合全省财政数据资源和全局各处室监管成果,充分运用大数据和信息化手段,自主研发财政运行分析评估系统,以“一张图”对全省监管单位实现财政运行分析......

解决监测行业痛点,杭州引领环境实验室信息管理系统技术变革

围绕生态环境部“推动监测机构按照统一要求建设实验室信息管理系统(LIMS),对‘人、机、料、法、环、测’各要素进行监管,实现生态环境监测活动全流程可追溯,为统一联网、统一抽查、统一监管奠定基础”要求,......

罗氏集团被道琼斯可持续发展指数评为最具可持续性的三家医疗公司之一

近日,罗氏再次被道琼斯可持续发展指数(DJSI)评为医疗行业最具可持续性的公司之一。罗氏集团排名第三,而罗氏集团旗下的中外制药株式会社则荣居第二名。“罗氏在所有商业实践中对可持续发展的坚定承诺再次得到......

新型类脑晶体管模仿人类智能,可在室温下节能执行联想学习

美国西北大学、波士顿学院和麻省理工学院研究人员从人脑中汲取灵感,开发出一种能够进行更高层次思维的新型突触晶体管,可像人脑一样同时处理和存储信息。在新的实验中,研究人员证明晶体管对数据进行分类的能力,超......

世贸组织实质性结束部分全球数字贸易规则谈判

12月20日,世贸组织电子商务谈判召集方新加坡、日本、澳大利亚发布新闻稿及三方部长声明,宣布包括中美欧在内的90个世贸组织成员实质性结束部分全球数字贸易规则谈判,并呼吁参加方尽快在2024年全面结束谈......

公开征集ISO/TC312/WG5优质服务技术委员会数字化优质服务工作组注册专家

12月19日,中国标准化研究院服务标准化研究所发布关于公开征集ISO/TC312/WG5优质服务技术委员会数字化优质服务工作组注册专家的通知。通知原文如下。各有关单位:ISO/TC312优质服务(Ex......