怎样采集指定网页区域内的图片

2019-3-29 16:23| 发布者: Fuller| 查看: 19826| 评论: 1

摘要: 集搜客9.90版本,可以很方便的把网页上某块区域的图片或者视频都抓取下来,保存在本地。我们以图片抓取为例,来讲解操作过程。视频抓取的操作是一样的。第一步,下载安装集搜客爬虫软件第二步,运行集搜客爬虫浏览器 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《采集图片网址并下载图片


集搜客9.0.0版本,可以很方便的把网页上某块区域的图片或者视频都抓取下来,保存在本地。我们以图片抓取为例,来讲解操作过程。视频抓取的操作是一样的。

第一步,下载安装集搜客爬虫软件

第二步,运行集搜客爬虫浏览器,登录会员中心。

第三步,把待采集网页的链接输入到浏览器的输入框,回车。把网页加载出来,点击网址输入栏右侧的定义规则按钮,进入定义规则模式。


屏幕显示分成上下部分,上面是网页浏览窗口,下面是网页对应的DOM节点窗口。还有一个浮动的工作台。


在工作台上给规则命名,如图所示。规则名要查重,不要和别人的规则重名。然后点击工作台上的创建规则,开始做规则,首先新建一个整理箱,整理箱的名字可以随便起。但是最好有意义。本例中规则名是:图片采集教程。整理箱的名字是卫衣图片。

网页上的价格,商品名称等等都可以抓取,可以看采集网页数据教程。本篇教程只讲怎样抓取区域内的图片。

1. 内容映射

下图是在京东搜索“卫衣”后,得到的一个列表页,我们要抓整个列表区域内所有的图片。在这个区域内任意点击一个图或者文字,会对应到下面的一个DOM节点,沿着这个DOM节点往上找,直至整个卫衣列表区域变黄,然后右击当前DOM节点,新建一个抓取内容,比如“图片”。“图片”显示在工作台上。在工作台上选中“图片”,点击高级设置,选中网页片段,下载图片。




2. 保存规则。点击存规则按钮


3. 爬数据,点击爬数据按钮


4. 查看图片,一般在计算机本地的DataScraperWorks目录下的PageImgDir目录。




注意,要爬一块区域的所有图片,一般需要滚屏,要在打数机把滚屏打开。



鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

评论 Oxford123 2019-4-4 17:07
很强大,把网页上所有的图片都抓下来了

查看全部评论(1)

GMT+8, 2024-3-29 02:46