主题名:卡车之家1   卡车之家2  
卡车之家1运行没问题,   卡车之家2  一直说匹配错误。麻烦帮我看下,谢谢
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-1-13 11:39

沙发
ym 版主 发表于 2017-1-12 14:09:10 | 只看该作者
把抓失败的网址也发出来,这样才能分析
举报 使用道具
板凳
Givent 中级会员 发表于 2017-1-12 14:24:49 | 只看该作者
ym 发表于 2017-1-12 14:09
把抓失败的网址也发出来,这样才能分析

http://tao.360che.com/#pvareaid=1010101 样本网址1http://tao.360che.com/show/car/19482样本网址2



举报 使用道具
地板
ym 版主 发表于 2017-1-12 14:35:38 | 只看该作者
匹配失败的网页是因为数据规则不适用,如下图,你做的规则生成的数据规则是//*[@class='productinfor']/dl/dd[position()=5]/b,里面有position()=5就限定了取第5行的信息,当没有第5行信息就会抓取失败。


抓失败的网页例如下图,少了“行驶证登记地区:***”这一行的信息,所以,就会提示匹配失败。

解决方法:
1、“列表”做上定位标志映射,可以限定采集范围的起点路径。
2、对“电话”自定义xpath,因为行数不确定,只能根据网页上的“电话:”来确定信息的位置。抓取内容表达式的xpath如下:
  1. .//dd[preceding-sibling::dt[contains(.,'电话')]]
复制代码



举报 使用道具
5#
Givent 中级会员 发表于 2017-1-13 10:23:31 | 只看该作者
ym 发表于 2017-1-12 14:35
匹配失败的网页是因为数据规则不适用,如下图,你做的规则生成的数据规则是//*[@class='productinfor']/dl/ ...

这样做了更改后,还是匹配错误啊
举报 使用道具
6#
AnswerDSL 版主 发表于 2017-1-13 11:39:30 | 只看该作者
Givent 发表于 2017-1-13 10:23
这样做了更改后,还是匹配错误啊

你加载失败的线索号,然后重新对列表做定位标志 productinfor ,我这里测试的是成功的。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 22:17