Fuller 管理员 发表于 2020-2-23 10:48:28 | 显示全部楼层
我新创建了一个测试账号,导入内容做了测试,集搜客分词工具这个 页面上本身就没有框架,所以,我判断你的分词任务只导入了一句话:“此页面使用框架,而您的浏览器不支持框架”。这是你导入的内容。

下图是我测试导入的内容,可以看到页面上就没有框架
框架20200223104535.png
举报 使用道具
li97124 初级会员 发表于 2020-2-23 10:57:13 | 显示全部楼层
Fuller 发表于 2020-2-23 10:44
你导入的内容就是这句话?

这句话不是页面上的提示,而是你导入的文件就有这句话

但是我的文件有好几万个字呢?
我导入其他文件有数据被删的问题。
举报 使用道具
iamsahara 新手上路 发表于 2020-2-24 08:21:13 | 显示全部楼层
请问老师,分词后选择分词时,怎样把意义类似的词语合并呢?
举报 使用道具
Fuller 管理员 发表于 2020-2-24 09:24:46 | 显示全部楼层
li97124 发表于 2020-2-23 10:57
但是我的文件有好几万个字呢?
我导入其他文件有数据被删的问题。

单篇文章有好几万字?你观察到导入到分词工具以后被删了?
举报 使用道具
Fuller 管理员 发表于 2020-2-24 09:26:13 | 显示全部楼层
我们给的配额是很大的。如果你觉得有被删的,加入qq群,把文件发给管理员,让他测试一下。qq群是:645638422
举报 使用道具
peiqi0506 新手上路 发表于 2020-2-25 11:08:04 | 显示全部楼层
想請問一下 為什麼添加詞語後下方詞語的頻數為什麼跟旁邊所出現的數據數量不一樣?還有如果自己添加詞語但是頻數跟我從文本算的數量不一樣可以用手動自己修改頻數嗎?
举报 使用道具
Fuller 管理员 发表于 2020-2-25 11:33:39 | 显示全部楼层
peiqi0506 发表于 2020-2-25 11:08
想請問一下 為什麼添加詞語後下方詞語的頻數為什麼跟旁邊所出現的數據數量不一樣?還有如果自己添加詞語但是 ...

评书20200225111535.png

左边的数字是一个词总共出现了多少次,右边是这个词出现在几个document(一条被分析的文本)中,如果一个词在一个document出现了多次,这两个数字就不一样了。

手工添加的词与自动分词出来的不一样,自动分词是根据一种统计算法,根据语义,把句子切成词,但是不会做到100%正确,有可能把词切破了,所以,加上手工填词功能,手工加的词,是用字符串匹配法去计算频数的,它也有缺点,有可能没有正确理解上下文。

比如,电视剧中依据台词,老师让夏宇用“果然”造句,夏宇写成“我喝了可乐又吃苹果然后就拉肚子了”,好的自动分词算法不会把“果然”分出来的,但是手工填词会匹配到“果然”。

有用两种方法各有优缺点,所以,要很准确的话,需要人工做一下审核。

针对导出的excel做审核,如果想修改词频数,也在excel中修改
举报 使用道具
li97124 初级会员 发表于 2020-2-27 18:20:12 | 显示全部楼层
分词那一栏不能按照频次选择,必须手动选择词语有点麻烦。如果工作量大的话,很耗时耗力。
举报 使用道具
Fuller 管理员 发表于 2020-2-27 18:27:30 | 显示全部楼层
li97124 发表于 2020-2-27 18:20
分词那一栏不能按照频次选择,必须手动选择词语有点麻烦。如果工作量大的话,很耗时耗力。 ...

你是想把词频高于某个数值的词都一次性选上?
举报 使用道具
peiqi0506 新手上路 发表于 2020-3-4 20:58:33 | 显示全部楼层
我想請問網絡圖可以直接下載嗎?還是需要自記下載其他軟體做網絡圖?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:10