爬取连页微博,爬虫页面在正常翻页(一直翻到了最后),但是为什么爬出来的数据只有第一页?
【微博爬取自定义】-【规则_1】
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-2-7 23:16

沙发
gz51837844 管理员 发表于 2024-2-7 22:43:04 | 只看该作者
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条
然后就正常结束

举报 使用道具
板凳
2794244010 初级会员 发表于 2024-2-7 22:55:11 | 只看该作者
所以是这个规则的样例网站内容太少了,影响了其他网站吗
举报 使用道具
地板
2794244010 初级会员 发表于 2024-2-7 22:57:05 | 只看该作者
还有很多采集网站不止这么些页,但是采集出来的微博也都只有几十条
举报 使用道具
5#
2794244010 初级会员 发表于 2024-2-7 22:57:40 | 只看该作者
gz51837844 发表于 2024-2-7 22:43
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条

所以是这个规则的样例网站内容太少了,影响了其他网站吗

举报 使用道具
6#
gz51837844 管理员 发表于 2024-2-7 22:58:16 | 只看该作者
2794244010 发表于 2024-2-7 22:55
所以是这个规则的样例网站内容太少了,影响了其他网站吗

你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23c ... 1-29-23&Refer=g
你在爬取时碰到其它的网址有问题吗? 有问题的网址是什么?
举报 使用道具
7#
2794244010 初级会员 发表于 2024-2-7 23:00:51 | 只看该作者
gz51837844 发表于 2024-2-7 22:58
你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23chatgpt&typeall=1&suball= ...

比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28-0%3A2023-06-30-23&Refer=g
爬出来只有8条
举报 使用道具
8#
gz51837844 管理员 发表于 2024-2-7 23:12:31 | 只看该作者
2794244010 发表于 2024-2-7 23:00
比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28 ...

这个网址我测试也正常,翻了15页,采集了110条

举报 使用道具
9#
2794244010 初级会员 发表于 2024-2-7 23:16:53 | 只看该作者
gz51837844 发表于 2024-2-7 23:12
这个网址我测试也正常,翻了15页,采集了110条

感谢,又试了一遍,成功了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 09:29