dengyuxin 新手上路 发表于 2022-5-1 22:47:52 | 显示全部楼层
如果用关键词搜索,微博最小是一个小时作为一个时间粒度,一个小时内关于xx的话题量超过了50页,微博只显示前50页,就没有办法穷尽这段时间所有发出来的微博是吗,有其他办法可以穷尽吗
举报 使用道具
Fuller 管理员 发表于 2022-5-2 00:24:09 | 显示全部楼层
dengyuxin 发表于 2022-5-1 22:47
如果用关键词搜索,微博最小是一个小时作为一个时间粒度,一个小时内关于xx的话题量超过了50页,微博只显示 ...

超出50页就没办法采集更多了
举报 使用道具
dengyuxin 新手上路 发表于 2022-5-2 08:50:27 | 显示全部楼层
好的谢谢
举报 使用道具
dengyuxin 新手上路 发表于 2022-5-2 08:52:57 | 显示全部楼层
你好,请问微博关键词搜索采集中断后要怎样继续呢
举报 使用道具
gz51837844 管理员 发表于 2022-5-2 09:23:24 | 显示全部楼层
dengyuxin 发表于 2022-5-2 08:52
你好,请问微博关键词搜索采集中断后要怎样继续呢

就微博关键词搜索采集来说,无论是做了细分条件还是没有做细分,实际采集的该条件下的网址最多翻50页
你可以找到采集中断的关键词和(细分)条件,重新添加任务做采集
举报 使用道具
luguoqiang2020 初级会员 发表于 2022-5-22 01:18:53 | 显示全部楼层
使用“微博关键词搜索结果采集工具”,为什么出来的结果,所有的“博文独立网址”都是空的呢?
举报 使用道具
Fuller 管理员 发表于 2022-5-22 09:38:19 | 显示全部楼层
luguoqiang2020 发表于 2022-5-22 01:18
使用“微博关键词搜索结果采集工具”,为什么出来的结果,所有的“博文独立网址”都是空的呢? ...

首先要确保使用最新版的网络爬虫软件,现在叫数据管家了,采用了新技术,老版本可能会有数据采集不下来。新版本的下载网址:https://www.gooseeker.com/pro/gooseeker.html
其次,360等安全卫士软件会拦截爬虫软件的流量,甚至删除爬虫软件的程序,导致运行异常。因为爬虫软件产生的网络流量太大,360这些软件可能是来不及过滤就直接删程序文件了
举报 使用道具
7102118001 新手上路 发表于 2022-5-23 17:08:44 | 显示全部楼层
微博话题广场采集没有办法进行时间细分吗?只能采集到前50页的内容,想要采集更多怎么办?
举报 使用道具
Fuller 管理员 发表于 2022-5-23 17:51:25 | 显示全部楼层
7102118001 发表于 2022-5-23 17:08
微博话题广场采集没有办法进行时间细分吗?只能采集到前50页的内容,想要采集更多怎么办? ...

这个没办法细分了,只能采集最新的50页
举报 使用道具
Yangyang1999 新手上路 发表于 2022-5-25 13:05:20 | 显示全部楼层
xandy 发表于 2016-3-1 11:00
在使用过程中有问题可以在本帖留言~~~

请问是否可以获取微博数据的发布经纬度坐标?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:33