一、之前爬取一个网站,内容都可以抓取下来。就是反爬机制比较强,设置抓取间隔时间很久,还是被封IP了。这时候是不是只能采用多个IP的方式进行爬取了?
        二、了解到有代理IP,匿名IP,重拨路由器等等方式,其实最终目的还是保证有个IP池。像我之前爬,基本上爬3分钟就被封了。那我要保证有多少个IP?按照这样算的话,爬30分钟,得有至少10个IP?
        三、用采集器可以将内容可以抓下来,只是IP被封的问题。这时候采用采集器,或者采用Python编程的方式来爬,效果是不是一样?都是解决IP的问题。
        四、自学python阶段,了解到有各种各样的库。每个库里边函数又有好多,学起来没有头绪。我是不是可以先了解Python的基本语法,然后直接了解爬虫中经常用的库,以及库中的函数就可以了?python2 和python3的选择、各种非标准库的安装,都是好费神的事情。学习过程中,资料有python2 也有python3 的资料。总之没有头绪啊!


都是目前阶段遇到的瓶颈,希望能得到大神提点!跪谢!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-11-3 10:32

沙发
Fuller 管理员 发表于 2016-10-31 23:40:03 | 只看该作者
有一个大的IP池是解决反爬的重要途径,甚至可以发展成“众爬”,集搜客有工作组概念,可以发起一个工作组,在全国范围内召集参与者。不过,这个技术触及多方利益,暂时没有开放。

另外,我发现越来越多的网站采取一些识别真人行为的算法,比如,根据鼠标的轨迹和其它按键动作,来判断是否是机器人。好像是在V7版本,集搜客的MS谋数台上增加了一个事件录制功能,目前开放了鼠标移动事件的录制功能,还可以对每个样本做一个简单标注。这样就可以大量录制一些事件样本,经过特定的特征提取以后,给真人行为建模。这个项目还在研究阶段。已经用在了滑块验证码破解,未来可能会在抓取网页之前先在网页上做点动作。

还有,就是很多网站的网页不能独立访问,而是要沿着一个访问路径,如果直接通过网址加载一个网页,会遇到失效网址提示。我把这种网站模式称为“会话模式”,为了解决这个问题,集搜客网络爬虫用连续动作功能,沿着一个访问路径到达要抓取的网页。也许一些状态信息记录在cookie中,也许一些状态信息生成以后当成url参数,如果用Python编程,这些事情都要编程处理。

如果要做一个通用的网络爬虫,这些零零碎碎的问题都需要解决,要开发一个比较复杂的爬虫框架出来,根据技术的发展,不断往里填爬虫功能
举报 使用道具
板凳
759924607 高级会员 发表于 2016-11-3 10:32:46 | 只看该作者
Fuller 发表于 2016-10-31 23:40
有一个大的IP池是解决反爬的重要途径,甚至可以发展成“众爬”,集搜客有工作组概念,可以发起一个工作组, ...

FULLER大神,您说的有一点点深奥了。对于我这样的初级选手,这个层次的内容有些不好理解啊。
您就我提出简单的问题,回答一下就好。万分感谢,上边的回复感觉是高级水平了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 12:34