去资源库下载规则,轻松抓数据

2021-4-21 18:42| 发布者: Fuller| 查看: 8205| 评论: 0

摘要: 海量规则模板,免去做规则烦恼。如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等 ...

海量规则模板,免去做规则烦恼。

如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。

集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求。

如何下载、运行规则?


1. 下载安装集搜客数据管家(增强版网络爬虫)

下载安装过程见《下载安装Gooseeker数据管家》。

2. 打开集搜客官网

在数据管家打开集搜客官网 https://www.gooseeker.com/index.html,检查爬虫和数据管家是否登陆,服务器是否连接。如果服务器没有连接,重新登陆爬虫,重选服务器 https://www.gooseeker.com


3. 进入规则市场,浏览查找规则

在官网首页,选择 服务-规则市场



4. 下载规则

比如想要下载B站视频搜索列表_教程,在规则市场选中它,进入这个规则的下载页面。点击下载。注意下载之前,仔细阅读规则介绍,了解这个规则是否需要提前在数据管家登陆待采集网站,是否需要和其它规则合用等等。



点击下载后,出现如下提示:

5. 采集数据

如果选择“查看下载规则”,会转到任务管理页面,按启动采集的方式二采集数据。

如果选择“现在运行”,弹出对话框:


对于我们下载的B站视频搜索列表_教程,目前只有一个待采集网址,所以网址数量是1,这个列表有很多页,不限制翻页次数,就会翻到底,把所有的页都采集到。我们为了早点看到采集结果,限制了翻页次数,只采集3页。

点击确定。系统自动弹出采集窗口,开始采集数据。


采集完成后,按提示点击导出excel


系统会自动跳到这个规则的任务管理窗口,点击导出数据。



下载的数据是一个ZIP包,保存在电脑的下载文件夹。


双击这个ZIP数据包,会自解压,得到excel文件。数据截图:


6. 给规则批量添加线索,批量采集数据

我们下载了规则,可不只是为了采集样本页面的数据。和样本页面类似的网页的数据都可以采集。把相应的网页链接添加到这个规则中就可以了。

比如,这个规则的样本页面是在B站搜索“王者荣耀“的搜索列表页面

样本页面:


类似的网页:


这个链接添加到规则中,可以采集这个列表页的数据。

总之,下载了规则后,就可以把这个规则当成自己的规则一样使用,添加要采集的网页链接,运行它,采集数据

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-4-19 19:16