数据赋能：利用深度学习对短文本产品名称分类

发布时间：2023-12-28 13:06 原文链接：数据赋能：利用深度学习对短文本产品名称分类

　　一、研究背景

　　在数字化浪潮的冲击下，基于产品质量安全监管的信息化基础，运用大数据、自然语言处理、机器学习等技术，让信息横向在不同区域间、纵向在各级市场监管部门流通，是一个有重要意义且需要我们在业务支撑工作中不断思考的议题。

　　为了实现数据赋能，一方面要实现数据的持续有效汇集，另一方面要加强数据分析挖掘能力，从而有效感知数据。目前产品质量监督抽查的数据来源主要包括国家监督抽查和地方监督抽查，从抽查特点看，国家监督抽查侧重在舆情关注度较高、风险隐患较大的产品领域开展，而地方监督抽查聚焦区域内的重要业态，具有产品覆盖范围广、数据量大的特点，是产品质量监测工作体系的重要数据组成，占监督抽查数据总量的90%以上，数据中隐藏着大量行业、地区监管薄弱点和质量提升重点的信息。然而开展数据分析首先需要准确标识产品分类，才能实现区域间产品质量安全信息的共享和业务协同。2018年以来，上报的地方监督抽查数据达到176万批次1 ，产品命名超过9万种，其中超过95%的产品无法对应到现有抽查用产品分类目录，存在产品名称表述不一致、类别划分不统一等问题，严重制约了全国监督抽查数据的全面汇总分析和精准监管工作的有效开展，不利于在全国层面形成监管合力。

　　目前，地方监督抽查数据通过系统直接填报、前置机交换、数据表导入等三种方式进行上报。从数据特点看，地方监督抽查的产品名称具有文本短小，特征稀疏、语法不规范等特点，相比于长文本，短文本的特点是信息量少，表达简洁，以致往往需要更加精准的分类技术来处理，才能实现将通过多种数据采集方式汇聚整合的地方监督抽查数据资源按产品大类到行业再到具体产品的分类。

　　二、研究思路

　　目前对产品名称进行分类的核心方法一般是基于传统的机器学习算法和深度学习算法。传统的机器学习算法包括：支持向量机（SVM）和朴素贝叶斯分类器（Naive Bayes Classifier）。SVM是一种监督学习算法，通常用于分类和回归任务。它的主要目标是找到一个最佳的超平面（或超平面组），以便在不同类别的数据点之间建立一个最大的间隔。这个最大间隔的超平面可以用于对新数据点进行分类，而且在许多情况下具有很好的泛化性能，且在高维空间中表现出色，能够处理具有许多特征的数据。朴素贝叶斯分类器是一种基于贝叶斯定理的概率分类算法。优势在于简单高效，训练过程很快，且适用于文本分类任务，对高维度的数据能够很好的处理词汇的稀疏性，且对小规模数据集上有较好的表现。

　　而深度学习算法更聚焦在短文本的分类上，更贴合针对产品名称分类的模式，其中深度学习模型包括：TextCNN和FastText。TextCNN是一个使用卷积神经网络架构的文本分类模型。它的设计目标是通过卷积操作来捕获文本中的局部特征，然后通过全局池化层来整合这些局部特征以进行分类。TextCNN的主要组成部分有词嵌入层、卷积层、池化层、全连接层以及输出层。TextCNN的优势在于它的简单性和高效性，适用于文本分类任务，尤其是短文本分类。

　　而FastText是一种快速文本分类模型，它引入了子词嵌入和平均池化操作。FastText算法的核心思想是通过学习词嵌入向量，将单词表示为连续的实数向量，以捕捉词汇之间的语义关系。FastText主要包括构建词袋和学习词嵌入，其中学习词嵌入的模型有CBOW和Skip-gram，这些模型的目标是通过上下文单词的信息来预测目标单词。其中CBOW模型是给定上下文单词的嵌入向量，通过平均化获得目标单词的向量表示，从而预测目标单词。Skip-gram模型是试图预测上下文单词，每个目标单词会生成多个训练样本使模型学习到更多丰富和具体的单词嵌入。

　　三、研究进展

　　对2018年以来各省通过中国电子质量监督系统上报的地抽数据中产品名称进行提取和清洗，从9万条数据中得到6万条物品名称清晰、物品分类明确、可进行训练的数据。为了达到最优的产品名称分类效果，对数据分别进行三种不同算法的训练，包括传统机器学习SVM以及深度学习中的TextCNN和FastText算法。

　　首先对数据进行分词、停用词以及词向量模型的预训练，然后将词向量整合成一个句向量作为模型的输入进行训练。通过分析文本的字符组成，将特殊符号、英文符号、数字进行过滤，以减少对产品名称分类的影响。例如100ml密封盒和500ML塑料盒，本质上两种物品在分类的过程中都应该属于食品相关产品，为减少包含100、500、ml等数字、英文以及特殊符号的产品名称在算法学习过程中对产品分类的判断，在词组预训练过程中，对相应的不同容积、不同型号等影响算法分类的文本进行预处理。

图1 过滤特殊符号、英文符号和数字

　　此外，再对重复的数据进行清洗，并按照已分类种类标签出现的频次降序排列，保存其index索引值、对应的种类标签和出现的频次，为避免出现频次过少的种类对模型产生过多影响，设置相应的阈值，控制模型学习时使用的数据集，从而提高模型对于整体数据分类的准确性。

　图2 数据预训练处理

　　接着构造模型所需要的训练数据结构，使用目前自然语言处理最流行的jieba模块进行分词处理，完成预训练前数据准备。

图3 构造训练数据

　　利用jieba库中的lcut方法，采用基于前缀词典的前向最大匹配算法，在模型训练完成后保存相应预处理的分词文本列表。

　　图4 生成预训练模型及保存处理后数据

　　然后，根据预测数据的正确率反向调整上述模型算法的参数，从而得到更好的预测结果。包括lr学习率、minCount最低词频、minn最小词长、maxn最大词长、loss损失函数、epoch迭代次数等，通过修改train_supervised函数中传递的参数，对模型训练的结果进行动态调整。

　　图5 调整模型参数

　　从算法的运行结果看，目前三种算法得到的训练准确率分别为：支持向量机SVM算法81.5%，TextCNN算法59.2%，FastText算法86.3%。在对测试集的训练中，FastText表现效果更好。

　　四、下一步研究方向

　　从现有的数据情况看，存在如下问题：（1）训练数据的规模较小。对于有近900项产品分类的模型，训练集的数据规模通常在百万级以上，且要保证训练数据集涵盖了各种产品类别、形状、颜色、尺寸等方面的差异，以使模型能够更好地进行分类。（2）数据质量有待提高。目前仅有6万条数据符合模型训练，且存在错误标记的情况，因此标签质量仍需提高，避免因数据质量影响模型性能。（3）数据的偏置现象。在清洗后的数据中，约有20%的数据是食品相关产品类，排名前十的分类共占约50%的数据总量。由于模型在学习过程中会倾向于过度关注这些类别，导致也会更倾向于预测这些类别，然而在实际预测新的数据过程中，这些类别可能不是绝大多数的产品的正确类别，导致模型预测出现误差。

　　下一步，考虑对数据分类进行有效合并，从而简化问题。此外，针对有效数据量较少的问题，除挖掘更多可以利用的数据外，也可以利用数据增强等技术来生成更多的训练数据，包括同义词替换、文本翻转、随机插入等方式，有助于提高模型的泛化能力。针对数据分布不均匀以及预测倾向问题，可以通过欠采样和过采样以及修改数据权重等方法，对于数据集中数量较多的类别，可以进行欠采样或者减小权重；对于数量较少的类别，可以进行过采样或者增加权重，确保每个类别的样本数量相对均衡，从而解决数据分布不均匀的问题。预测倾向问题可以采用TOP N策略，预测前N个可能的类别，而不仅仅是最可能的一个，有助于避免模型过于集中在前几个类别上。

　　在后续的模型训练过程中，也应实时监控模型的性能，及时发现并解决模型漂移或性能下降的问题。根据实际应用过程中模型训练结果的反馈，不断迭代优化训练模型和模型使用的训练数据集。

其他网友还关注过

更多与数据赋能：利用深度学习对短文本产品名称分类相关的新闻

牛津纳米孔GridION Mk1 台式测序仪胚胎移植枪套管与套针 Minitube 19240/1005 英国Cirrus CR171/CR172系列声级计水乙二醇颗粒计数系统 CK-III-4CK-III-4四工位端淬机 CK-III-6六工位端淬实验机农业气象监测设备价格农业小气候观测设备杭州大吉大米加工精度测定仪MJDA 非洲猪瘟检测设备

实验室

常州进出口工业及消费品安全检测中心江苏省理化测试中心医学分子病毒学教育部/卫生部重点实验室

数据赋能：利用深度学习对短文本产品名称分类

一、研究背景

三、研究进展

四、下一步研究方向

其他网友还关注过

数据赋能：利用深度学习对短文本产品名称分类

数据赋能：利用深度学习对短文本产品名称分类

利用深度学习对短文本产品名称分类的研究

新型类脑晶体管模仿人类智能，可在室温下节能执行联想学习

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

首个基因测试公司23andMe爆发数据泄露风波，690万用户信息外泄

台湖将成北京数据基础制度先行区核心

“生命健康数据空间联合实验室”正式揭牌成立

卫健委发布《卫生健康信息数据元目录第1部分：总则》等34项卫生行业标准

数据赋能：利用深度学习对短文本产品名称分类

一、研究背景

三、研究进展

四、下一步研究方向

其他网友还关注过

数据赋能：利用深度学习对短文本产品名称分类

数据赋能：利用深度学习对短文本产品名称分类

利用深度学习对短文本产品名称分类的研究

新型类脑晶体管模仿人类智能，可在室温下节能执行联想学习

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

CancerResearchUK,与GuardantHealth签署研究和数据共享协议

首个基因测试公司23andMe爆发数据泄露风波，690万用户信息外泄

台湖将成北京数据基础制度先行区核心

“生命健康数据空间联合实验室”正式揭牌成立

卫健委发布《卫生健康信息数据元目录 第1部分：总则》等34项卫生行业标准

　　一、研究背景

　　三、研究进展

　　四、下一步研究方向

卫健委发布《卫生健康信息数据元目录第1部分：总则》等34项卫生行业标准