比如我要抓取ZARA天猫

发现每页只能抓取到第一排的前三个,然后第一排之后的都抓取不到在,这是为什么?

我的规则名是:ZARA女士服装价格抓取,可以搜来测试下,然后看看究竟是哪里出现了问题
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-10-14 09:19

沙发
Fuller 管理员 发表于 2016-10-12 23:01:29 | 只看该作者

这个网页上的商品行和列是分开放的,而不是把所有商品并排放在一起,所以,要建立嵌套的整理箱,像上图那样映射。

抓取内容可以左移和右移,右移就是把它变成前一个节点的子节点,选中它,点击鼠标右键就能看到移动菜单
举报 使用道具
板凳
nn_jj_mm 初级会员 发表于 2016-10-13 23:00:50 | 只看该作者
那么现在问题来了,照上面的做法,会把推荐的部分也抓了进来,就最下面的本店内推荐,该怎么处理呢?还是后面数据清洗的时候处理掉?

屏幕截图.jpg (19.78 KB, 下载次数: 633)

屏幕截图.jpg
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-14 09:19:23 | 只看该作者
nn_jj_mm 发表于 2016-10-13 23:00
那么现在问题来了,照上面的做法,会把推荐的部分也抓了进来,就最下面的本店内推荐,该怎么处理呢?还是后 ...

那么再给整理箱加一层容器节点,就变成三层容器了,最顶上那个容器节点是专门用来划定网页范围的。产品列表所在的网页区域应该是在一个DIV下,“本店内推荐”是在另一个DIV下,前一个DIV应该有特别的@class或者@id,那么就用这个@class或者@id做定位标志映射,映射给顶层容器节点,就划好范围了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 08:09