通过一个url,进入到一个网页,抓取完成后我想返回到首页,再进入另一个url,进去抓取,这样不断循环,用集搜客怎么做?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-12 12:16

沙发
Fuller 管理员 发表于 2016-10-12 12:16:26 | 只看该作者
集搜客有多个方案支持这种抓取,下面,按照从前到后的顺序选择使用

1)层级抓取方式:在第一层,把下一层的网址抓取下来作为爬虫线索,下一层可以单独运行,跟第一层不在同一个爬虫中运行,可以就能快速抓取大量数据。具体参看:http://www.gooseeker.com/doc/article-75-1.html

2)连续动作:如果下一层的url不是独立url,比如,在浏览器地址栏中观察,进入下一页的地址也不变化,或者在第一层抓取网址的时候得不到真正的网址,那么就需要连续动作抓取了。连续动作无法多个爬虫并行抓取,速度就无法提高,只能由一个爬虫一口气做完,具体参看:http://www.gooseeker.com/doc/article-141-1.html
用连续动作还要解决一个返回前一页的问题,而用层级抓取是没有这个问题的。要返回前一页很麻烦,除非有一个前一页的链接可以点击,那么就是连续动作的其中一个步骤,否则返回不了,未来会在爬虫中增加回退动作。

如果需要定制开发一些特殊功能,请留言联系


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 05:24