快捷导航

用网络爬虫采集小红书的笔记

2019-4-11 08:45| 发布者: Fuller| 查看: 2355| 评论: 0

摘要: 无论是做网络营销,还是出于其他目的,研究小红书的笔记似乎是必须的,那么首先要把小红书笔记内容用网络爬虫采集下来。集搜客网络爬虫不但能下载文字,还能下载视频、图片等多媒体内容,而且可以自主地去扩展爬行范 ...

无论是做网络营销,还是出于其他目的,研究小红书的笔记似乎是很重要的,那么首先要把小红书笔记内容用网络爬虫采集下来。

集搜客网络爬虫不但能下载文字,还能下载视频、图片等多媒体内容,而且可以自主地去扩展爬行范围。我共享了一套网络爬虫规则,下载地址是:https://www.gooseeker.com/secure/me/Fuller_preview.html ,大家可以下载下来探索小红书笔记所承载的营销信息。

1,网络爬虫爬行的范围

针对小红书的发现板块一共做了四个规则,他们是:

1. 小红书社区板块:

这是个总入口,爬这个网页https://www.xiaohongshu.com/explore 在这里可以爬到小红书每个板块的网址,这些网址作为第二个规则的线索。也就是说,从这个入口开始,网络爬虫从一个网址扩展成十几个网址(每个板块一个网址)。

爬虫规则下载网址:https://www.gooseeker.com/secure/me/Fuller_preview/share433282.html

2. 小红书社区精选:每个板块的网页结构是一样的,都用这个规则进行采集,这个规则把每篇笔记的网址采集下来,作为下级规则的线索,这样从十几个网址扩展到几百个网址。

因为每个精选板块上的内容会不断出现新内容,那么这个规则最好设置成周期性调度方式,每隔一定时间重新采集一遍,会发现新的笔记。周期性调度的设置方法参看后面的爬虫群设置。

爬虫规则下载网址:https://www.gooseeker.com/secure/me/Fuller_preview/share433278.html

3. 小红书笔记详情:这个规则爬每个笔记的文字、图片、视频、评论,也爬相关笔记,爬相关笔记的时候,把相关笔记的网址作为本级规则的线索添加进来,所以,自身就能拓展爬行范围。同时还爬作者网页,作为第四个规则的线索。

由于笔记详情网页很多,而且随着网络爬虫拓展范围,网址会不断增加,所以,应该设置爬虫群自动调度模式,持续不断地爬内容。

爬虫规则下载网址:https://www.gooseeker.com/secure/me/Fuller_preview/share433328.html

4. 小红书作者网页:在这个网页上,采集该作者写的所有笔记,将笔记网址作为小红书笔记详情这个规则的线索,从而达到循环扩展爬行范围的目的。

随着范围拓展,也会不断增加新的作者,所以,这个规则应该也设置成爬虫群自动调度模式。

爬虫规则下载网址:https://www.gooseeker.com/secure/me/Fuller_preview/share433431.html

2,设置爬虫群调度参数

2.1,小红书社区精选需要周期性抓取

针对这个规则,重点设置周期性激活线索,从而可以周期性监控这个网页上是否出现新内容。

2.2,自动批量采集网页

小红书笔记详情和小红书作者网页会随着爬虫范围扩展而产生新的网址,那么应该设置成爬虫群调度模式,但是不需要像小红书社区精选一样周期性激活,不但不需要重复采集,还应该禁止由别的规则重新激活这个规则的已经采集过的线索,这将在增量采集一章讲解。

3,增量爬取

小红书笔记详情会通过相关笔记发现新的笔记详情网址,小红书社区精选和小红书作者网页都会为小红书笔记详情补充新的网址,但是,也会把以前采集过的网址也补充进来。为了防止重复采集,需要在调度参数中进行设置,下图是以小红书笔记详情的调度参数设置为例:

不要勾激活下级,那么以前采集过的网址就不会再次激活,达到增量采集的目的。

4,下载视频和图片

集搜客有强大的图片、视频、文件的下载功能,不需要另外运行其他下载程序,用爬虫可以同时下载多媒体和文本内容。下载方法有两种,应对两种不同的场景。

4.1,从特定网页位置下载图片和视频

这是一种精准采集方法,主要用于网页上的图片有规律,可以用定义采集规则的方法采集所有图片网址,这样可以做的只采集指定的图片。

如上图,在社区精选页上下载笔记的封面图,社区精选页相当于一个笔记列表页,应该定义样例复制或者定位标志映射来采集所有笔记的信息,图片网址作为其中一个字段被采集下来,只要再勾上下载图片,就能同时下载图片。

详细教程参看:《采集图片网址并下载图片

4.2,从某个区域下载所有图片和视频

在一个网页区域中,可能有图片,可能有视频,数量不确定,位置也没有规律,那么就应该用这种方法。

如上图,在笔记详情页的上部,可能有多个图片,也可能有视频,把这个区域对应的DOM节点做个内容映射,采集到一个字段中,同时勾上下载图片和下载视频,那么凡是遇到图片和视频,都会下载下来。

详细教程参看:《怎样采集指定网页区域的图片

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-6-19 11:11