如何使用快捷采集-以知乎数据采集为例

2021-4-1 16:24| 发布者: Fuller| 查看: 10475| 评论: 0

摘要: 集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。我们以知乎为例,讲解快捷采集的使用过程。1. 首先下载安装Gooseeker数据管家(增强版爬 ...


集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。

我们以知乎为例,讲解快捷采集的使用过程。


1. 首先下载安装Gooseeker数据管家(增强版爬虫软件)

数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。

安装完毕,数据管家会自启动。

关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。


2. 在Gooseeker数据管家,打开集搜客官网 https://www.gooseeker.com

登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。


3. 登陆知乎

因为知乎网站要登陆后,才能浏览,所以采集之前,先在数据管家登陆知乎。

在数据管家新开一个页签,在新页签打开知乎网站 https://www.zhihu.com,并登陆一个知乎账号。


4. 进入快捷采集

点击集搜客官网上的快捷采集按钮,进入快捷采集


5. 操作步骤

5.1 根据要采集的网页,选择合适的快捷工具

比如,我们要采集知乎网站上某个独立问题的所有回复,按下图选择快捷工具。


5.2  添加要采集的网址链接

比如我们要采集这个独立问题的所有回复,Ctrl+c把链接拷贝下来,Ctrl+v粘贴到快捷工具的输入栏。



5.3 选择页数

这个知乎问题的回复有十几页,我们可以选择采集多少页。

也可以选择采集全部。


5.4 启动采集

点击"获取数据",启动采集。


然后,

数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据。一个窗口打包数据。



5.5 打包下载数据

点击“获取数据”后,数据管家还弹出了一个快捷采集数据管理窗口。

采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已完成”。这时,可打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。


如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查:

添加的网址链接是否和样本页面类似;

需要提前登陆的网站,是否已经登陆;

再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者用户QQ群联系集搜客官方。


知乎独立问题所有回复快捷工具采集到的数据样例:



7

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (7 人)

最新评论

GMT+8, 2024-3-28 23:30