http://www.dreamore.com/projects/reply/17259.html#reply像这种网页结构的,想要抓评论内容,以及对该评论的回复的内容,要怎么实现啊?
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-1-12 17:19

沙发
Fuller 管理员 发表于 2016-5-8 12:02:43 | 只看该作者
要建立多层嵌套整理箱:http://www.gooseeker.com/doc/article-151-1.html

难点在于选择一个合适的样例,好在上面做抓取规则,这个样例应该包含内部的评论内容,而且应该是包含多条评论的。为了做样例复制映射,这个样例应该位于第一个的位置上。

所以,找到这样的样例是个很大难点。为了方便做规则,可以用自己的账号,专门发布一条这样的内容,因为是自己发布的,不再发布别的,可以确保这样的内容总是在第一条的位置上。
举报 使用道具
板凳
LQX930107 中级会员 发表于 2016-5-8 20:56:50 | 只看该作者
Fuller 发表于 2016-5-8 12:02
要建立多层嵌套整理箱:http://www.gooseeker.com/doc/article-151-1.html

难点在于选择一个合适的样例, ...

如果样例不符合您说的要求,做出来的规则就难以适用于多个网页?咱们的爬虫就实现不了大量网页的抓取了是吧??
举报 使用道具
地板
Fuller 管理员 发表于 2016-5-8 22:50:27 | 只看该作者
LQX930107 发表于 2016-5-8 20:56
如果样例不符合您说的要求,做出来的规则就难以适用于多个网页?咱们的爬虫就实现不了大量网页的抓取了是 ...

比如微博,假设抓取实时消息流,不断有人发新的消息,好容易找到一个含有转发的微博位于消息流的第一个位置,很快就会有没有转发内容的微博把他压下去了。这个是比较麻烦的情形。

一般是这样做:找一个不热的关键词,这样消息流就不会不断下沉,然后自己发一个消息,构造成符合条件的结构,因为不热,这个消息会比较长时间处于第一位置。所以,无论是新做规则还是以后修改规则,会有足够的稳定时间

另外一个做法,是一个能应对任何情形的做法:自定义xpath。在抓取内容的高级设置里面,允许分开定义“定位xpath”和“抓内容xpath”,定位的xpath就是为了今后加载和编辑规则用的,这个xpath指向一个不变的html节点,而抓取内容xpath就可以自己编,无论你选的样例是否含有这样的内容,你都可以编一个抓内容xpath。到执行的时候,如果没有找到内容,就存空内容

所以,你提的情形是可以解决的
举报 使用道具
5#
LQX930107 中级会员 发表于 2016-5-9 10:28:21 | 只看该作者
Fuller 发表于 2016-5-8 22:50
比如微博,假设抓取实时消息流,不断有人发新的消息,好容易找到一个含有转发的微博位于消息流的第一个位 ...

好的,知道了,谢谢。
举报 使用道具
6#
bennana 中级会员 发表于 2016-12-25 16:14:52 | 只看该作者
Fuller 发表于 2016-5-8 12:02
要建立多层嵌套整理箱:http://www.gooseeker.com/doc/article-151-1.html

难点在于选择一个合适的样例, ...

像微博改版后这种共n条评论,需要点开后才能显示出来所有回复的网页,该如何抓取数据?

举报 使用道具
7#
Fuller 管理员 发表于 2016-12-25 20:32:16 | 只看该作者
bennana 发表于 2016-12-25 16:14
像微博改版后这种共n条评论,需要点开后才能显示出来所有回复的网页,该如何抓取数据?

...

可以做连续动作,逐个点开
举报 使用道具
8#
bennana 中级会员 发表于 2017-1-2 21:01:58 | 只看该作者
Fuller 发表于 2016-12-25 20:32
可以做连续动作,逐个点开

多谢!按照高级教程淘宝和京东的做法尝试了一下,还是点不开,只能抓取显示出来的前两条。Xpath(//*[@class='list_li_v2'])查找到的条数没有问题,不知道为什么。
如果想抓取全部评论是否应该按照下面的步骤进行?
1.连续动作,点开更多回复(找到对应Xpath,设一次连续动作)
2.抓取嵌套评论,先在回复中设置样例复制,再在整条评论的div节点设置样例复制


举报 使用道具
9#
Fuller 管理员 发表于 2017-1-3 09:06:11 | 只看该作者
bennana 发表于 2017-1-2 21:01
多谢!按照高级教程淘宝和京东的做法尝试了一下,还是点不开,只能抓取显示出来的前两条。Xpath(//*[@cl ...

你做的规则的主题名是什么?我可以从后台帮你看看问题在哪
举报 使用道具
10#
bennana 中级会员 发表于 2017-1-3 12:09:51 | 只看该作者
Fuller 发表于 2017-1-3 09:06
你做的规则的主题名是什么?我可以从后台帮你看看问题在哪

微博评论连续动作0103-1
微博评论连续动作0103-2

多谢指教!抓取规则中的回复内容对应点也总有问题,每次都会抓到回复数,麻烦大神也帮忙看一下。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 19:15