改进的K近邻算法及其在文本分析中的应用

2021-9-17 10:07| 发布者: Fuller| 查看: 2438| 评论: 0

摘要: 今天分享的这篇范文的原作者针对怎样更好地挖掘实体消费的在线评论信息的问题，对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景。k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本 ...

今天分享的这篇范文的原作者针对怎样更好地挖掘实体消费的在线评论信息的问题，对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景。k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本高,在预测阶段利用整体样本搜索近邻样本,未考虑数据集本身的离散特性,导致近邻样本搜索速度慢且近邻样本质量不高。针对这一问题,提出基于k均值聚类的k近邻算法,利用k均值聚类算法将数据集分割为多个紧密度高的子集,在子集中拟合k近邻算法,提高近邻样本质量和近邻样本搜索速度,从而提高算法性能。同时多子集独立训练预测模型,有利于分布式存储与计算。实验证明,基于k均值聚类的k近邻算法可以得到最优的拟合效果。

怎样收集研究需要的评论数据？

在之前的一篇文章《分析电商评论发现消费者话题-数据采集篇》中，我们和大家分享了怎样使用gooseeker的快捷采集，收集电商产品的评论信息（实际抓取了京东，天猫，苏宁这3家的自营iphone12的用户评论），为进一步的数据挖掘分析实践做准备。

以速卖通为例，gooseeker快捷采集也有好几个快捷采集工具可以直接使用：

这些快捷采集可以配合使用，添加网址启动采集即可，完成后打包下载excel数据表。

资讯版块近期也发布了几篇分析电商评论发现消费者话题的文章：

1. 分析电商评论发现消费者话题-分词和情感分析篇

2. 分析电商评论发现消费者话题-数据采集篇

3. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)

4. 分析电商评论发现消费者话题-生成走势图(Jupyter Notebook)

1，范文信息介绍

标题：改进的K近邻算法及其在文本分析中的应用

作者：孙傲

作者单位：南京邮电大学

关键词：数据挖掘;k-means聚类;k近邻算法;特征选择;基尼不纯度;

摘要：

随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要参考依据,同时也是经营实体经营决策的重要参考,因此合理有效的挖掘评论数据,提取顾客消费评论中的关注点和情感因素对实体经济发展具有重要作用。k近邻算法因其理论简单,易于实施等优点在机器学习和数据挖掘领域得到广泛应用。但是针对文本分析中特征维度高、文本数值化后语意解释等问题,传统k近邻算法无法很好的处理。对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景是本文的研究重点。本文主要创新点如下:

（1）针对文本分词后得到的词向量忽略了上下文语意关系,导致算法准确率较低的缺点,引入组合特征,将前后相连的实体词与情感修饰词相结合形成组合特征,使词向量保持基本的语意关系,提高算法的准确率。实验证明,在不同算法模型下,引入组合特征可以得到更高的拟合准确率。

（2）基于TF-IDF和基尼不纯度构造特征筛选综合指标（TF-GINI）进行特征选择,在弥补TF-IDF在有监督学习样本中忽略类别变量的缺陷的同时降低特征维度,提高算法效率,并以TF-GINI值为权重,进行加权k近邻算法,提高算法的拟合程度。通过实验仿真,经特征筛选后的加权k近邻算法准确率高,拟合速度快。

（3）k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本高,在预测阶段利用整体样本搜索近邻样本,未考虑数据集本身的离散特性,导致近邻样本搜索速度慢且近邻样本质量不高。针对这一问题,提出基于k均值聚类的k近邻算法,利用k均值聚类算法将数据集分割为多个紧密度高的子集,在子集中拟合k近邻算法,提高近邻样本质量和近邻样本搜索速度,从而提高算法性能。同时多子集独立训练预测模型,有利于分布式存储与计算。实验证明,基于k均值聚类的k近邻算法可以得到最优的拟合效果。

文章目录

摘要

abstract

专用术语注释表

第一章绪论

1.1 研究背景及其意义

1.2 研究现状综述

1.3 主要创新与章节安排

1.3.1 创新点

1.3.2 章节安排

第二章相关背景知识介绍

2.1 文本情感分析概述

2.2 文本情感分析流程

2.2.1 数据预处理

2.2.2 词向量构建

2.2.3 词向量降维

2.2.4 分类模型构建与训练。

2.2.5 模型预测与评估。

2.3 影响文本情感分析效果的因素

2.4 本章小结

第三章基于组合特征的词向量构建方法

3.1 引言

3.2 组合特征词向量构建

3.2.1 文本分词

3.2.2 组合特征构建

3.2.3 词向量构建

3.2.4 组合特征词向量构建方法步骤

3.3 仿真实验

3.3.1 实验数据

3.3.2 实验过程与结果分析

3.4 本章小结

第四章基于综合指标的特征选择方法

4.1 引言

4.2 特征选择方法研究现状

4.3 基于综合指标的特征选择

4.3.1 基尼不纯度指标度量特征词重要度

4.3.2 基于综合指标TF-GINI特征选择方法流程

4.4 仿真实验

4.4.1 实验数据

4.4.2 实验过程与结果

4.5 本章小结

第五章基于k均值聚类的k近邻算法

5.1 引言

5.2 k均值聚类简介

5.2.1 k均值聚类原理

5.2.2 k均值聚类要点

5.2.3 k均值聚类算法流程

5.3 基于k均值聚类的k近邻算法

5.3.1 k均值聚类划分数据集

5.3.2 子数据集k近邻算法拟合

5.3.3 基于k均值聚类的k近邻算法建立流程

5.4 基于k均值聚类的k近邻算法数值仿真

5.4.1 实验数据

5.4.2 实验过程与结果

5.5 本章小结

第六章总结与展望

6.1 本文工作总结

6.2 今后研究方向

参考文献

附录1 程序清单

附录2 攻读硕士学位期间撰写的论文

致谢

2，相关研究方法和知识点

2.1 电商产品在线评论挖掘的意义

电商的在线评论中蕴含着大量的和用户以及产品相关的有用信息，这些信息对在线平台的经营管理具有巨大的商业价值。

产品的在线评论属于口碑（WOM，Word-of-Mouth)的范畴，对口碑的研究是管理学中非常热门的课题方向，因为很多经典的实证研究都证明——用户在购买产品时大多会参考口碑信息，其购买行为以及后续对产品的体验和评价都会直接或者间接地受到口碑的影响。因此，对于电商平台来说，重视口碑数据的分析，并且对口碑内容进行管理，是非常重要的互联网运营工作。

通过在线评论的挖掘，能够对产品选购，平台运营的优化提供实际的数据支撑。

1、产品评估

通过在线评论，平台运营者可以把握产品的质量情况，了解用户对产品的喜好及购买欲望，从而更好地与竞品进行对比分析、规划产品的未来发展战略。在线评论经常是一段文字，而不是一个单独的打分分值，因此可以基于情感分析技术挖掘用户在每一个产品维度上的情感态度，对产品进行全方位、系统的精益化评估!

2、产品优化

通过在线评论，平台运营者应当通过文本挖掘（Text Mining）解析并统计有关产品属性的信息，并从中找到那些重要的属性予以关注。对于那些重要的属性，结合通过情感分析技术获得的用户主观评价水平，在产品后续的优化改进环节中加以考虑。重要的属性应当具备至少如下一种特征：。

2.2 关于K近邻算法

参考文章《[K-近邻算法（KNN)]》，可以做如下的理解：

K-近邻算法是最简单的分类器，没有显式的学习过程或训练过程，是懒惰学习（Lazy Learning）,数据集事先已经有了分类标签和数据特征值，对测试数据可以直接处理，其处理机制就是通过测量不同特征值之间的距离来进行分类。

简单说就是如果测试样本在特征空间中的k个最邻近的样本中，大多数样本属于某个类别，则该测试样本也划分到这个类别，KNN里的K就是最邻近的K个数据样本。