这种网页应该怎样采集

加为好友

提示: 作者被禁止或删除内容自动屏蔽

xandy · 发表于 2017-1-23 09:45:03

可以让爬虫模拟人的一些操作，所以要用到连续动作。
连续动作教程参看：《连续动作让爬虫持续采集数据》

scraper · 发表于 2017-1-23 10:37:50

建立三个规则：
第一个规则给当前页面做规则并建立连续动作

连续动作需要两个步骤

第一步点击“选车” //*[@class='pagetitle']
第二步点击具体品牌 //*[@class='brand-list-box']//*[@class='brand-list']/li[./div/span/text()[1]='在售']/img
主题名指向第二个规则

第二个规则采集点击具体品牌后的车系车型数据

每个车型有个对应的@data-value 可以构造网址到具体车款页面所以这一步用个xpath再用层级线索指向第三个规则就好了

18206352582 · 发表于 2017-1-24 19:49:51

提示: 作者被禁止或删除内容自动屏蔽

Fuller · 发表于 2017-1-24 21:08:42

18206352582 发表于 2017-1-24 19:49
谢谢楼上二位。scraper给的方案非常好。软件还是用的不熟悉，手工弄得。谢谢。
顺便问下，采集的时候可以采 ...

采集的时候用不了正则表达式，可以把采集结果存入 excel或者sql的时候再用正则表达式进行处理

这种网页应该怎样采集

共 4 个关于本帖的回复最后回复于 2017-1-24 21:08

推荐板块

精彩推荐

热门话题

热门用户

18206352582 积分164 精华0 威望74 金钱2 最后登录 1970-1-1 加为好友发送消息访问家园个人资料主题列表发消息	地板 18206352582 禁止发言发表于 2017-1-24 19:49:51 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽

	举报使用道具回复支持反对

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

这种网页应该怎样采集

共 4 个关于本帖的回复 最后回复于 2017-1-24 21:08

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2017-1-24 21:08