主题名1:鼠雨荨层级抓取-1  主题名2:鼠雨荨层级抓取-1.1

截图:

采网址做层级采集教程链接:http://www.gooseeker.com/doc/article-343-1.html

采集失败的网址:
https://sanzhisongshu.tmall.com/search.htm?spm=a1z10.1-b-s.w5001-14855767631.3.CbqceX&scene=taobao_shop


https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14855767637.95.KEGLcp&id=16204910274&rn=5a606554350971cead7840f6373043ad&abbucket=6&skuId=3201569543087

想采集的结果:通过网址网页点击采集天猫详情内页的商品参数



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-12-1 23:01

沙发
Fuller 管理员 发表于 2016-12-1 22:44:26 | 只看该作者
在第一级里面,看“爬虫路线”工作台,你给第二级起的主题名是 鼠雨荨层级抓取-2

所以,定义规则的时候,第二级一定要用这个名字,否则串不起来
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-1 22:59:29 | 只看该作者
第二级规则加载失败,主要原因是:生产许可证编号和产品标准号 是属于 商品参数的,而 商品名 是属于 商品基本信息的。这两部分距离挺远,在网页上,万一他们直接出现点别的内容,就会影响抓取规则的适应性。
改进方案有多个:

方案1:分成两个整理箱,一个存基本信息,一个存商品参数


方案2:因为所有的商品参数都在UL[@class='J_AttrUL']网页区域中,那么都用这个节点做定位标志映射,映射给生产许可证编号 和 产品标准号。用定位标志映射约束一下,可以提高规则的适应性。



举报 使用道具
地板
Fuller 管理员 发表于 2016-12-1 23:01:30 | 只看该作者
方案2生成的数据规则是
  1. <生产许可证编号>
  2. <xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=1]"/>
  3. </生产许可证编号>
  4. <产品标准号>
  5. <xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=2]"/>
  6. </产品标准号>
复制代码


里面有position()=2这样的绝对定位表达式,适应性还是有限
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 09:31