本帖最后由 wangyong 于 2018-7-23 15:36 编辑


【启动采集前的配置】

  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问京东商品评论采集页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2024-3-10 10:36

Healerxy 中级会员 发表于 2017-9-15 11:32:00 | 显示全部楼层
https://item.jd.com/11144230.html
您好,我想用这个规则采集上面这个网址的评论,总是失败。难道这个规则只能采集笔记本电脑类吗?
举报 使用道具
umsung 高级会员 发表于 2017-9-15 12:15:33 | 显示全部楼层
Healerxy 发表于 2017-9-15 11:32
https://item.jd.com/11144230.html
您好,我想用这个规则采集上面这个网址的评论,总是失败。难道这个规则 ...

只要采集的网址结构和样本网址的结构相同就能采,这个网址的评论模块的结构可能和样本页面有些不同,所以会导致失败。
举报 使用道具
ligababe 新手上路 发表于 2017-10-16 13:15:49 | 显示全部楼层
我抓取成功了,但是数据结果呈现与样本不符,多个字段的内容是错乱的,比如时间,下单几天后评价,会员级别,地区
举报 使用道具
Fuller 管理员 发表于 2017-10-16 13:35:40 | 显示全部楼层
ligababe 发表于 2017-10-16 13:15
我抓取成功了,但是数据结果呈现与样本不符,多个字段的内容是错乱的,比如时间,下单几天后评价,会员级别 ...

京东评论好像改版了,我们检查一下。
举报 使用道具
umsung 高级会员 发表于 2017-10-16 14:55:13 | 显示全部楼层
ligababe 发表于 2017-10-16 13:15
我抓取成功了,但是数据结果呈现与样本不符,多个字段的内容是错乱的,比如时间,下单几天后评价,会员级别 ...

能把你抓取的页码网址贴出来看看吗?
举报 使用道具
ligababe 新手上路 发表于 2017-10-18 13:33:35 | 显示全部楼层
这两天用DIY功能采集的京东评论,多次出现数据重复,重复2 - 4倍不等,导致采集工作重重复复地进行,效率一下子就降下来了。
举报 使用道具
umsung 高级会员 发表于 2017-10-18 14:09:00 | 显示全部楼层
ligababe 发表于 2017-10-18 13:33
这两天用DIY功能采集的京东评论,多次出现数据重复,重复2 - 4倍不等,导致采集工作重重复复地进行,效率一 ...

后台正在检查原因
举报 使用道具
gz51837844 管理员 发表于 2017-10-18 15:49:55 | 显示全部楼层
京东目前限制评论最多查看100页, 采集的时候在100页前后可能会有少量数据重复
如果是大量的数据重复, 你需要检查同一个商品网址是否添加到了多个任务中, 造成这个商品的评论采集了多次
举报 使用道具
ligababe 新手上路 发表于 2017-10-18 21:49:05 | 显示全部楼层
感谢回复。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 02:05