划线价格   XXX元   促销价  XXX元   款号  XXXXXXXX       采集  宝贝标题  促销价   和款号!
采集  标题和促销价      促销价采集正确!    加入款号 采集!   促销价变为   划线价!  绝对定位!  结果一样!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-9-26 10:10

沙发
zhongqucaiji 高级会员 发表于 2016-9-24 10:33:14 | 只看该作者
XPath是following-sibling::div[position()=3]/div/div[position()=1]/div/div[position()=4]/div/ul/li[position()=4]      这是错误提示
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-9-24 10:52:53 | 只看该作者
具体的网址是什么?
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-24 11:03:26 | 只看该作者
再把主题名贴出来吧
举报 使用道具
5#
zhongqucaiji 高级会员 发表于 2016-9-24 12:53:04 | 只看该作者
Fuller 发表于 2016-9-24 11:03
再把主题名贴出来吧

天猫采集实验
举报 使用道具
6#
zhongqucaiji 高级会员 发表于 2016-9-24 12:53:48 | 只看该作者
shenzhenwan10 发表于 2016-9-24 10:52
具体的网址是什么?

天猫宝贝信息
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-24 16:57:04 | 只看该作者


如上图,最右边的两个红框,我做了定位标志映射,可以看到最左边红框中的抓取规则的变化,XPath变短了,规则的适应性就提高了。

但是这个规则有个问题(中间两个红框):月份是淘宝商品参数的第一个参数。如果抓取另一个网页,第一个参数就不一定是月份了,那么这个抓取内容的语义就变了。而且我发现,这个网页上有4个参数区,他们的@class=params clearfix 。所以,用上这个定位标志容易抓错。

可以这样改进:在自动生成的XPath基础上手工修改:
  1. following-sibling::div//*[@class='params clearfix']/li/text()[contains(.,'上市年份')]
复制代码
这个表示只要内容中含有“上市年份”的文本,这个XPath也不用postion()函数限定第一个参数,通用性很高
举报 使用道具
8#
zhongqucaiji 高级会员 发表于 2016-9-26 10:10:51 | 只看该作者
Fuller 发表于 2016-9-24 16:57
如上图,最右边的两个红框,我做了定位标志映射,可以看到最左边红框中的抓取规则的变化,XPath变短了, ...

不行  即使自定义了  还是出现错误
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 03:19