对于反爬机制强的网站，使用代理IP的话，写代码和利用采集器效果相同？

加为好友

      一、之前爬取一个网站，内容都可以抓取下来。就是反爬机制比较强，设置抓取间隔时间很久，还是被封IP了。这时候是不是只能采用多个IP的方式进行爬取了？
      二、了解到有代理IP，匿名IP，重拨路由器等等方式，其实最终目的还是保证有个IP池。像我之前爬，基本上爬3分钟就被封了。那我要保证有多少个IP？按照这样算的话，爬30分钟，得有至少10个IP？
      三、用采集器可以将内容可以抓下来，只是IP被封的问题。这时候采用采集器，或者采用Python编程的方式来爬，效果是不是一样？都是解决IP的问题。
      四、自学python阶段，了解到有各种各样的库。每个库里边函数又有好多，学起来没有头绪。我是不是可以先了解Python的基本语法，然后直接了解爬虫中经常用的库，以及库中的函数就可以了？python2 和python3的选择、各种非标准库的安装，都是好费神的事情。学习过程中，资料有python2 也有python3 的资料。总之没有头绪啊！

都是目前阶段遇到的瓶颈，希望能得到大神提点！跪谢！

Fuller · 发表于 2016-10-31 23:40:03

有一个大的IP池是解决反爬的重要途径，甚至可以发展成“众爬”，集搜客有工作组概念，可以发起一个工作组，在全国范围内召集参与者。不过，这个技术触及多方利益，暂时没有开放。

另外，我发现越来越多的网站采取一些识别真人行为的算法，比如，根据鼠标的轨迹和其它按键动作，来判断是否是机器人。好像是在V7版本，集搜客的MS谋数台上增加了一个事件录制功能，目前开放了鼠标移动事件的录制功能，还可以对每个样本做一个简单标注。这样就可以大量录制一些事件样本，经过特定的特征提取以后，给真人行为建模。这个项目还在研究阶段。已经用在了滑块验证码破解，未来可能会在抓取网页之前先在网页上做点动作。

还有，就是很多网站的网页不能独立访问，而是要沿着一个访问路径，如果直接通过网址加载一个网页，会遇到失效网址提示。我把这种网站模式称为“会话模式”，为了解决这个问题，集搜客网络爬虫用连续动作功能，沿着一个访问路径到达要抓取的网页。也许一些状态信息记录在cookie中，也许一些状态信息生成以后当成url参数，如果用Python编程，这些事情都要编程处理。

如果要做一个通用的网络爬虫，这些零零碎碎的问题都需要解决，要开发一个比较复杂的爬虫框架出来，根据技术的发展，不断往里填爬虫功能

759924607 · 发表于 2016-11-3 10:32:46

Fuller 发表于 2016-10-31 23:40
有一个大的IP池是解决反爬的重要途径，甚至可以发展成“众爬”，集搜客有工作组概念，可以发起一个工作组， ...

FULLER大神，您说的有一点点深奥了。

对于我这样的初级选手，这个层次的内容有些不好理解啊。
您就我提出简单的问题，回答一下就好。万分感谢，上边的回复感觉是高级水平了。

对于反爬机制强的网站，使用代理IP的话，写代码和利用采集器效果相同？

共 2 个关于本帖的回复最后回复于 2016-11-3 10:32

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

对于反爬机制强的网站，使用代理IP的话，写代码和利用采集器效果相同？

共 2 个关于本帖的回复 最后回复于 2016-11-3 10:32

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-11-3 10:32