层级抓取提醒错误，求大神指教

何丽娟20160316

主题名1：鼠雨荨层级抓取-1 主题名2：鼠雨荨层级抓取-1.1

截图：

Fuller · 发表于 2016-12-1 22:44:26

在第一级里面，看“爬虫路线”工作台，你给第二级起的主题名是鼠雨荨层级抓取-2

所以，定义规则的时候，第二级一定要用这个名字，否则串不起来

Fuller · 发表于 2016-12-1 22:59:29

第二级规则加载失败，主要原因是：生产许可证编号和产品标准号是属于商品参数的，而商品名是属于商品基本信息的。这两部分距离挺远，在网页上，万一他们直接出现点别的内容，就会影响抓取规则的适应性。
改进方案有多个：

方案1：分成两个整理箱，一个存基本信息，一个存商品参数

方案2：因为所有的商品参数都在UL[@class='J_AttrUL']网页区域中，那么都用这个节点做定位标志映射，映射给生产许可证编号和产品标准号。用定位标志映射约束一下，可以提高规则的适应性。

Fuller · 发表于 2016-12-1 23:01:30

方案2生成的数据规则是

<生产许可证编号>
<xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=1]"/>
</生产许可证编号>
<产品标准号>
<xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=2]"/>
</产品标准号>

复制代码

里面有position()=2这样的绝对定位表达式，适应性还是有限

共 3 个关于本帖的回复最后回复于 2016-12-1 23:01

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页