本帖最后由 scraper 于 2016-12-30 15:29 编辑


【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问知乎_独立话题动态内容采集页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 49 个关于本帖的回复 最后回复于 2023-5-5 10:33

双鱼是篇小说 新手上路 发表于 2018-3-27 21:09:34 | 显示全部楼层
怎么只能采集前40条啊
举报 使用道具
shenzhenwan10 金牌会员 发表于 2018-3-27 21:48:30 | 显示全部楼层
双鱼是篇小说 发表于 2018-3-27 21:09
怎么只能采集前40条啊

你采集的网址是什么, 贴出来技术人员测试下

举报 使用道具
双鱼是篇小说 新手上路 发表于 2018-3-27 22:31:11 | 显示全部楼层
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的
还有 采集精华话题的时候 知乎显示精华话题1000条 采集得到1000条 重复项300多条  只剩下600多条  说明数据采集是不完整的  你们刚回复说会加后台去重步骤 那加了之后 能收集完整的1000条数据吗
举报 使用道具
umsung 高级会员 发表于 2018-3-28 09:32:21 | 显示全部楼层
双鱼是篇小说 发表于 2018-3-27 22:31
谢谢
https://www.zhihu.com/topic/19739699/hot  
用那个知乎动态话题规则采集的

知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一样的,可以采集全

1.png
举报 使用道具
双鱼是篇小说 新手上路 发表于 2018-3-28 12:06:36 | 显示全部楼层
umsung 发表于 2018-3-28 09:32
知乎动态话题规则采集测试没有问题,你重新添加网址采集试试,采集的页数要选择全部,采集精华话题也是一 ...

我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/19739699/hot


举报 使用道具
bowieD 金牌会员 发表于 2018-3-28 14:20:19 | 显示全部楼层
双鱼是篇小说 发表于 2018-3-28 12:06
我按照你说的做了,选择了全部,然后采集到了44条数据 就这个动态话题 https://www.zhihu.com/topic/1973 ...

是否因为网络原因采集中断,我这边测试是没问题的
举报 使用道具
双鱼是篇小说 新手上路 发表于 2018-3-28 14:30:55 | 显示全部楼层
bowieD 发表于 2018-3-28 14:20
是否因为网络原因采集中断,我这边测试是没问题的

没有提示网络中断  很顺利地采集完成  还是40多条

举报 使用道具
anlday 新手上路 发表于 2018-4-18 00:05:21 | 显示全部楼层
52个数据????
举报 使用道具
maomao 论坛元老 发表于 2018-4-18 08:43:59 | 显示全部楼层
本帖最后由 maomao 于 2018-4-18 08:49 编辑
anlday 发表于 2018-4-18 00:05
52个数据????

打数机应该还在工作,你下载的只是一部分数据。此外,采集之前,要在gooseeker浏览器登陆知乎。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 11:46