11#
9556872 新手上路 发表于 2018-6-15 08:12:17 | 只看该作者
测试https://www.zhihu.com/topic/19551915/hot
捕获结果一百多没有一条是文章,不能捕获文章?
举报 使用道具
12#
wrq6117 新手上路 发表于 2018-12-25 14:19:32 | 只看该作者
好难用 用模板采集了好多次都失败
举报 使用道具
13#
Fuller 管理员 发表于 2018-12-25 15:09:26 | 只看该作者
wrq6117 发表于 2018-12-25 14:19
好难用 用模板采集了好多次都失败

你要采集的网址是什么?有没有用这个快捷采集试试?有两个快捷采集:
1,独立话题动态:https://www.gooseeker.com/res/da ... 9%E9%87%87%E9%9B%86
2,独立话题精华:https://www.gooseeker.com/res/da ... 9%E9%87%87%E9%9B%86
举报 使用道具
14#
leevian 新手上路 发表于 2019-2-3 20:31:50 | 只看该作者
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/19551275/hot
举报 使用道具
15#
Fuller 管理员 发表于 2019-2-3 21:57:00 | 只看该作者
leevian 发表于 2019-2-3 20:31
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/1955 ...

应该是规则失效了,我已经安排技术人员进行检查,检查完成后会在这通知
举报 使用道具
16#
Fuller 管理员 发表于 2019-2-4 10:49:40 | 只看该作者
leevian 发表于 2019-2-3 20:31
根本爬不到任何数据????是我姿势不对???
选择了独立话题内容采集 https://www.zhihu.com/topic/1955 ...

您再测试一下试试,可以采集。请注意,1,DS打数机运行的时候,应该确保窗口最大,因为是动态加载内容的,窗口不够大可能激发不了加载内容

2,这个网页是瀑布流的,会一直滚屏,知道内存都消耗完了,程序就崩溃退出了。不过启动采集的时候会运行两个爬虫群窗口,一个采数据,一个导入数据,所以,崩溃的时候已经有些数据导入了,可能会漏一点,就是最后的那批还没有来得及导入
举报 使用道具
17#
leevian 新手上路 发表于 2019-2-4 15:15:13 | 只看该作者
Fuller 发表于 2019-2-4 10:49
您再测试一下试试,可以采集。请注意,1,DS打数机运行的时候,应该确保窗口最大,因为是动态加载内容的 ...

进去之后看到下面显示还是匹配失败,求帮忙看看原因
举报 使用道具
18#
Fuller 管理员 发表于 2019-2-4 15:56:55 | 只看该作者
leevian 发表于 2019-2-4 15:15
进去之后看到下面显示还是匹配失败,求帮忙看看原因

今天我又爬了一次,是成功的。你在集搜客浏览器中登录了知乎没有?我是登录以后才爬的
举报 使用道具
19#
leevian 新手上路 发表于 2019-2-4 17:03:53 | 只看该作者
Fuller 发表于 2019-2-4 15:56
今天我又爬了一次,是成功的。你在集搜客浏览器中登录了知乎没有?我是登录以后才爬的
...

确认是已登录状态,是否还需要进行什么别的操作。。





501d906f5cd09f380aaa5e3c0.png (94.32 KB, 下载次数: 349)

501d906f5cd09f380aaa5e3c0.png
举报 使用道具
20#
Fuller 管理员 发表于 2019-2-5 08:01:32 | 只看该作者
leevian 发表于 2019-2-4 17:03
确认是已登录状态,是否还需要进行什么别的操作。。

有没有把窗口放大到最大?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:04