80 83541

新浪微博_博主主页

ym 于 2015-8-13 15:22 发表 [复制链接]
ml1691221 初级会员 发表于 2016-1-26 09:19:48 | 显示全部楼层
这积分。。。要是充值也太大了吧。。。而且我需要两万个用户的信息,爬起来速度怎么样?
举报 使用道具
ml1691221 初级会员 发表于 2016-1-26 09:24:09 | 显示全部楼层
还有问题是我主要想爬取单个用户的近期200条微博,就是涉及一个翻页跟控制数量的问题。设定的规则里有吗
举报 使用道具
ym 版主 发表于 2016-1-26 10:10:14 | 显示全部楼层
使用爬虫群,可以设置多个爬虫同时采集,但微博的反爬虫监控很严格,爬取太快的话,容易出现验证码和封账号,所以,建议一台电脑用两个爬虫并且不要采集太快。另外,关于翻页和数量的限制,爬虫群可以控制翻页但不会精确到多少条,想要前200条的话,只能抓下来后根据日期排序过滤
举报 使用道具
Hilary8710 初级会员 发表于 2016-1-26 15:17:02 | 显示全部楼层
我刚刚已经付费下载了,可是现在怎么找不到了……
举报 使用道具
Fuller 管理员 发表于 2016-1-26 16:24:11 | 显示全部楼层
翻页数量可以用crontab.xml 或者 爬虫群的调度参数去控制。比如,一页有20条数据,那么翻10页就是200条。因为消息是按照时间排序的,所以,可以比较精确地控制爬取最新200条。爬虫群使用方法参看教程里面的高级教程
举报 使用道具
Fuller 管理员 发表于 2016-1-26 16:26:33 | 显示全部楼层
下载的规则放在会员中的我的资源那里,也能在DS打数机和MS谋数台上去搜索。如果 确实查不到,请到qq群里面找管理员协助
举报 使用道具
Fuller 管理员 发表于 2016-1-26 16:26:34 | 显示全部楼层
下载的规则放在会员中的我的资源那里,也能在DS打数机和MS谋数台上去搜索。如果 确实查不到,请到qq群里面找管理员协助
举报 使用道具
gz51837844 管理员 发表于 2016-1-26 16:55:31 | 显示全部楼层
看看
举报 使用道具
Fuller 管理员 发表于 2016-1-26 23:21:56 | 显示全部楼层
Hilary8710 发表于 2016-1-26 15:17
我刚刚已经付费下载了,可是现在怎么找不到了……

在会员中心里面找到了下载的资源了吗?如果没有找到,请加入qq群,让管理员协助解决一下
举报 使用道具
Fuller 管理员 发表于 2016-1-26 23:23:58 | 显示全部楼层
ml1691221 发表于 2016-1-26 09:19
这积分。。。要是充值也太大了吧。。。而且我需要两万个用户的信息,爬起来速度怎么样? ...

两万个用户这个数量不算大,但是要注意管理爬虫,微博对爬虫封锁得很厉害,如果一天爬取2000个网页以上,你的账号很可能会被封锁。那么要控制数量,不到2000个网页就换账号,清cookie。

单机切记不能爬快了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:04