知乎有个问题有两百多个回答,但是只能爬出几十条,怎么爬取完整呢。

问题页面下滑,不断有新的回答出现。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2024-3-21 10:09

沙发
gz51837844 管理员 发表于 2024-3-19 16:41:52 | 只看该作者
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下
举报 使用道具
板凳
labalbal 新手上路 发表于 2024-3-19 16:58:29 | 只看该作者
没有,是自定义的
举报 使用道具
地板
labalbal 新手上路 发表于 2024-3-19 17:00:41 | 只看该作者
gz51837844 发表于 2024-3-19 16:41
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下

没有,是自定义的


举报 使用道具
5#
Fuller 管理员 发表于 2024-3-20 00:01:03 | 只看该作者
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定义连续滚屏动作:https://www.gooseeker.com/doc/article-548-1.html

瀑布流网页几乎不可能采集全。因为越往下滚屏,网页越大,占用的内存越大,最后就滚不动了。另外,知乎网站自身的速度影响也很大,有时候滚着滚着就显示不出新内容了。

总之,网速要很快才行,自己的电脑也要配置高一些。多采集几遍,使用采集到的数量最多的那一次的结果
举报 使用道具
6#
labalbal 新手上路 发表于 2024-3-20 20:53:48 | 只看该作者
Fuller 发表于 2024-3-20 00:01
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定 ...

好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去除这些文字呢
举报 使用道具
7#
Fuller 管理员 发表于 2024-3-21 10:05:11 | 只看该作者
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

如果结构都是一样的,在excel中可以去除。

我昨天自定义测试了一下。如果网络比较快,还是能采集的很全的。如果每个回答很长,采集四五百条回答要花两个多小时。

昨天修改了采集知乎问题回答的快捷采集工具:https://www.gooseeker.com/res/rule_167.html
应该会采集到的更多一些
举报 使用道具
8#
Fuller 管理员 发表于 2024-3-21 10:09:52 | 只看该作者
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

昨天升级了知乎快捷采集工具以后,最后就没有X年X月,。。。这些内容了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 22:28