【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问热门话题榜单页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2022-3-4 18:06

lantax 新手上路 发表于 2017-10-19 16:36:18 | 显示全部楼层
怎么设置自动翻页
举报 使用道具
bowieD 金牌会员 发表于 2017-10-19 17:12:06 | 显示全部楼层
lantax 发表于 2017-10-19 16:36
怎么设置自动翻页

1,数据diy的可以在添加网址的页面设置翻页数;
2,如果是自己做规则的话,就需要用到记号线索。《翻页》

8.jpg
举报 使用道具
vs1995 新手上路 发表于 2018-5-13 14:28:37 | 显示全部楼层
为什么用样本网址都失败了
举报 使用道具
离离原上草 初级会员 发表于 2018-5-13 16:35:02 | 显示全部楼层
vs1995 发表于 2018-5-13 14:28
为什么用样本网址都失败了

我刚才测试了一下,是成功的。你确认一下这几个方面:
1,在GS网络爬虫浏览器上,要预先登录微博。是否登录了
2,热门话题榜单的采集工具入口是这个:https://www.gooseeker.com/res/datadiy.html?category=社交&web=新浪微博&rule=新浪微博发现_热门话题榜单 ,你选择的是否是这个
3,热门话题榜单和热门微博榜单是不同的。热门话题榜单的样本网址是这个:https://d.weibo.com/100803?refer=index_hot_new
举报 使用道具
vs1995 新手上路 发表于 2018-5-13 17:38:16 | 显示全部楼层
离离原上草 发表于 2018-5-13 16:35
我刚才测试了一下,是成功的。你确认一下这几个方面:
1,在GS网络爬虫浏览器上,要预先登录微博。是否登 ...

好吧 ,成功了。还有个问题,我是想得到不同时间点的数据,但我每次得到的数据都又把前几次爬取到的加到前面,也就是有重复,怎么解决啊

举报 使用道具
数据集 高级会员 发表于 2018-5-14 09:39:27 | 显示全部楼层
vs1995 发表于 2018-5-13 17:38
好吧 ,成功了。还有个问题,我是想得到不同时间点的数据,但我每次得到的数据都又把前几次爬取到的加到 ...

热门话题 如果是一小时更新一次  那就按一小时采集一次;如果是按24小热门话题,那就一天采集一次,有重复的可以通过Excel去重
举报 使用道具
香樟树的耳语 新手上路 发表于 2019-11-3 18:06:10 | 显示全部楼层
可以搜集 与研究对象相关的 所有热搜榜话题吗?请问该怎么操作?
举报 使用道具
Fuller 管理员 发表于 2019-11-3 23:53:31 | 显示全部楼层
香樟树的耳语 发表于 2019-11-3 18:06
可以搜集 与研究对象相关的 所有热搜榜话题吗?请问该怎么操作?

哪些研究对象?
举报 使用道具
chenpengpeng01 中级会员 发表于 2022-3-3 11:20:13 | 显示全部楼层
你好 现在热门话题采集是不是不能用了
我用这个链接采集的数据  不对
https://huati.weibo.cn/discovery ... lfid=100803_-_super

示例链接:http://d.weibo.com/100803?refer=index_hot_new,就是跳到这个页面的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:39