4 11488

分词原理

sysysysy 于 2020-5-23 13:40 发表 [复制链接]
请教一下大家集搜客的分词原理是什么?是基于已有的词典做字符匹配吗?还是说是用统计法来判断一个词是否可以成为一个词?(使用了集搜客做分词,结果老师问我原理,给我整蒙了,所以跪求解答,谢谢)
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-9-29 15:43

Fuller 管理员 发表于 2020-5-23 15:41:30 | 显示全部楼层
现在的分词一般都是根据统计结果来分的,不是硬匹配。所以,会出现词被切破的时候,比如,一些人名。假设分析微博上的名人之间的关系,往往会发现一些人名切错了。这时候就要自己加词,自己加的词是硬匹配的。
举报 使用道具
sysysysy 新手上路 发表于 2020-5-23 16:57:13 | 显示全部楼层
Fuller 发表于 2020-5-23 15:41
现在的分词一般都是根据统计结果来分的,不是硬匹配。所以,会出现词被切破的时候,比如,一些人名。假设分 ...

了解了 谢谢
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2020-9-29 15:40:42 | 显示全部楼层
集搜客分词软件具体用的是什么算法呢?我在毕业论文中使用了集搜客分词和文本分析工具,论文中要说明算法原理,能否具体一点说一说

举报 使用道具
Fuller 管理员 发表于 2020-9-29 15:43:51 | 显示全部楼层
发誓学好内容分析 发表于 2020-9-29 15:40
集搜客分词软件具体用的是什么算法呢?我在毕业论文中使用了集搜客分词和文本分析工具,论文中要说明算法原 ...

在nlp领域,文本分词是首先要做的,用的比较多的理论是马尔科夫链。隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。可以看这个帖子:《隐马尔科夫链
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:09