https://www.zhihu.com/topic/20021941/hot 这是我想采集的网站，可是每次只能采取100多条，我的是mac电脑，请问怎么办

顺利写完作业

https://www.zhihu.com/topic/20021941/hot
这是我想采集的网站，可是每次只能采取100多条，我的是mac电脑，请问怎么办

Fuller · 发表于 2023-7-2 10:49:36

当前采集知乎是很难的，因为是瀑布流模式，鼠标滚动才加载新内容，导致网页越来越长，很快，电脑内存就不够用了。另外，知乎网站速度不问题，经常会加载停顿，所以，要采集比较多的知乎数据很难，可以尝试多采集即便，取最多的那一次。

100多条偏少，要检查一下自己的网络速度怎样，要尽量快，另外，爬虫运行的时候，要窗口放大到最大，一屏显示的多，采集到的就多。

顺利写完作业 · 发表于 2023-7-2 10:54:09

那您可以帮忙采集一下嘛，谢谢！而且运行日志显示“因发现重复内容，本线索终止运行

顺利写完作业 · 发表于 2023-7-2 10:57:54

每次采集的都是134条，每次都一样，然后运行日志显示“因发现重复内容，本线索终止运行

Fuller · 发表于 2023-7-2 22:38:41

顺利写完作业发表于 2023-7-2 10:57
每次采集的都是134条，每次都一样，然后运行日志显示“因发现重复内容，本线索终止运行 ...

能看到爬虫浏览器中的网页自动滚屏吗？如果自动滚屏到底以后，网页上一直加载不出来新条目，那么过一会就是显示因发现重复内容本线索终止运行。
如果网络正常的话，应该能看到不断有新内容显示出来，滚屏一直滚动不完，才不会出现重复内容中断

https://www.zhihu.com/topic/20021941/hot 这是我想采集的网站，可是每次只能采取100多条，我的是mac电脑，请问怎么办

共 4 个关于本帖的回复最后回复于 2023-7-2 22:38

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

https://www.zhihu.com/topic/20021941/hot 这是我想采集的网站，可是每次只能采取100多条，我的是mac电脑，请问怎么办

共 4 个关于本帖的回复 最后回复于 2023-7-2 22:38

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2023-7-2 22:38