错误信息:“加载爬虫路线遇到的错误:
无法定位网页内容,基于XPath://*[@class='tabbar tm-clear']/li[position()=3]/a[.//text()="累计评价 "]
无法定位线索0;定位用XPath:<context>//*[@class='tabbar tm-clear']/li[position()=3]/a[.//text()="累计评价 "]</context>。跳过!
无法定位网页内容,基于XPath://*[@class='tabbar tm-clear']/li[position()=3]/a[.//text()="累计评价 "]
无法定位记号
经检查,记号(累计评价 )不符合要求,原因:节点号不正确”
问题描述:我做了京东与天猫的商品评论模拟点击爬取,但是每一次它第一级规则加载完后都会出现匹配失败的错误,然后输出信息就显示如上的错误(上面的错误信息是天猫的,京东的和它差不多),第二级规则就是无法调用,我已经将滚屏参数调成了2,每一次保存二级规则的时候都会提示“该名已经存在,是否更新?”不更新就无法保存,然后在数据结构里就是这样的关系:第一级规则——》第二级规则——》自身映射——》第二级规则(1)
规则名:第一级规则:天猫5;第二级规则:天猫4

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-9-19 16:09

Fuller 管理员 发表于 2018-9-19 10:13:38 | 显示全部楼层
你是不是已经修改过了?我检查你的规则没有问题。

我运行DS打数机是打开了自动滚屏的,菜单是 配置-》滚屏参数,把 滚屏次数 设置成>0的数字,我设置了2
举报 使用道具
13865713249 新手上路 发表于 2018-9-19 12:57:27 | 显示全部楼层
本帖最后由 13865713249 于 2018-9-19 12:59 编辑

我一直都把滚屏设成2的,但是就是翻页匹配错误,今天我在群里找了技术支持人员检查了一下我的规则,他们跑起来是没错的;我并没有改我的规则,我觉得是不是我的软件出现了问题,版本不对还是什么情况……
举报 使用道具
13865713249 新手上路 发表于 2018-9-19 12:57:47 | 显示全部楼层
本帖最后由 13865713249 于 2018-9-19 13:00 编辑
Fuller 发表于 2018-9-19 10:13
你是不是已经修改过了?我检查你的规则没有问题。

我运行DS打数机是打开了自动滚屏的,菜单是 配置-》滚屏 ...

我一直都把滚屏设成2的,但是就是翻页匹配错误,今天我在群里找了技术支持人员检查了一下我的规则,他们跑起来是没错的,但在我这里就是不行;我并没有改我的规则,之前爬京东评论也做了五六个规则,没有一次成功的(包括将评论区置顶),都是这个错误。我觉得是不是我的软件出现了问题,版本不对还是什么情况……            
举报 使用道具
Fuller 管理员 发表于 2018-9-19 15:10:50 | 显示全部楼层
13865713249 发表于 2018-9-19 12:57
我一直都把滚屏设成2的,但是就是翻页匹配错误,今天我在群里找了技术支持人员检查了一下我的规则,他们跑 ...

是不是样本网址是能采集的,而其他网址采集不了?另外,不要单独运行下一级

你给抓取内容尽量做上定位标志映射吧,参看:https://www.gooseeker.com/doc/article-344-1.html

刚才我又看了一下上午加载的规则,偶然看到规则中可能有商品的id,因为商品id是唯一的,如果数据规则中含有这个id,只能采集样本页面。但是我再测试就不见了,不知道是不是网页会动态改变。

数据规则20180919150942.png

点击“测试”按钮,点击查看“数据规则”,看看xpath中有没有出现商品id
举报 使用道具
13865713249 新手上路 发表于 2018-9-19 15:25:23 | 显示全部楼层
Fuller 发表于 2018-9-19 15:10
是不是样本网址是能采集的,而其他网址采集不了?另外,不要单独运行下一级

你给抓取内容尽量做上定位标 ...

不是,是所有的都不行,也没有单独运行第二级,我看看定位映射吧,谢谢
举报 使用道具
13865713249 新手上路 发表于 2018-9-19 15:31:16 | 显示全部楼层
Fuller 发表于 2018-9-19 15:10
是不是样本网址是能采集的,而其他网址采集不了?另外,不要单独运行下一级

你给抓取内容尽量做上定位标 ...

做了定位也还是不行……
举报 使用道具
Fuller 管理员 发表于 2018-9-19 16:09:55 | 显示全部楼层
13865713249 发表于 2018-9-19 15:31
做了定位也还是不行……

在DS打数机的下部日志窗口中能看到失败的线索编号,利用这个编号可以把这个网页加载上来进行分析,具体参看:https://www.gooseeker.com/doc/article-231-1.html
看看这个字段失败了,什么原因失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:56