901#
dididjy 初级会员 发表于 2019-7-2 14:53:08 | 只看该作者
本帖最后由 dididjy 于 2019-7-2 14:55 编辑

请问是不是话题广场的采集停了就没办法从上次停的地方继续了?爬到第40多页的时候停了。看之前的问答说可以设置时间,但是采集的时候只能输入#内容#,不能设置其他选项了呀
举报 使用道具
902#
wangyong 版主 发表于 2019-7-2 17:21:58 | 只看该作者
dididjy 发表于 2019-7-2 14:53
请问是不是话题广场的采集停了就没办法从上次停的地方继续了?爬到第40多页的时候停了。看之前的问答说可以 ...

目前通过微博工具暂时不能从中断的页码开始爬,自己做规则的话可以
举报 使用道具
903#
dididjy 初级会员 发表于 2019-7-3 20:43:40 | 只看该作者
wangyong 发表于 2019-7-2 17:21
目前通过微博工具暂时不能从中断的页码开始爬,自己做规则的话可以

那好吧,谢谢回复
举报 使用道具
904#
evelynlu 新手上路 发表于 2019-7-4 00:24:10 | 只看该作者
为什么我采集的是微博的数据,可是爬虫页显示的确实小红书的信息,我之前的确采集过小红书的信息,但是后来停止了,而且这次是从微博采集开始启动的,怎么会这样,,
举报 使用道具
905#
Fuller 管理员 发表于 2019-7-4 08:38:18 | 只看该作者
evelynlu 发表于 2019-7-4 00:24
为什么我采集的是微博的数据,可是爬虫页显示的确实小红书的信息,我之前的确采集过小红书的信息,但是后来 ...

可能你添加了多个小红书 任务,现在打开打数机,继续会爬小红书。如果不想要执行了,可以去会员中心,选中快捷采集,把添加的小红书任务删除。



举报 使用道具
906#
dididjy 初级会员 发表于 2019-7-5 19:16:32 | 只看该作者
请问微博爬取怎么才能获得长文信息呢?有的微博很长,但是只能截取到一截,并不能全部爬取到,请问是什么原因呢?
举报 使用道具
907#
Fuller 管理员 发表于 2019-7-5 19:40:38 | 只看该作者
dididjy 发表于 2019-7-5 19:16
请问微博爬取怎么才能获得长文信息呢?有的微博很长,但是只能截取到一截,并不能全部爬取到,请问是什么原 ...

要使用合适的微博采集快捷工具,得到微博的网址以后,用这个工具进入到每条微博,可以把全文采集下来:https://www.gooseeker.com/res/datadiy.html?category=%E7%A4%BE%E4%BA%A4&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%E5%BE%AE%E5%8D%9A%E5%8D%9A%E6%96%87%E5%B1%95%E5%BC%80%E5%85%A8%E9%83%A8%E9%87%87%E9%9B%86
举报 使用道具
908#
ytongdou 新手上路 发表于 2019-7-6 10:00:31 | 只看该作者
如何采集微博某条评论下面的回复信息?
举报 使用道具
909#
dididjy 初级会员 发表于 2019-7-6 18:30:18 | 只看该作者
Fuller 发表于 2019-7-5 19:40
要使用合适的微博采集快捷工具,得到微博的网址以后,用这个工具进入到每条微博,可以把全文采集下来:ht ...

所以就是先爬取全部,然后再把每一条没有展开全文的微博地址加进去?
举报 使用道具
910#
Fuller 管理员 发表于 2019-7-6 18:50:55 | 只看该作者
dididjy 发表于 2019-7-6 18:30
所以就是先爬取全部,然后再把每一条没有展开全文的微博地址加进去?

可以在excel筛选一下,把含有“展开全文”的博文筛选出来,拷贝这些博文的链接,批量添加到博文展开工具。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 23:11