怎样在抓数据的时候抓到页面中某个超链接打开的小窗口(小窗口没有自己的网址)中的数据?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-13 10:20

沙发
Fuller 管理员 发表于 2016-10-10 21:45:47 | 只看该作者
小窗口有两种,先要在MS谋数台上看看是哪一种,然后采用不同的抓取方法

类型1:浮窗,在MS谋数台上可以看到这个窗口不是一个独立的浏览器窗口,而是一个div或者其它html元素组成的网页块,只是在显示的时候浮在上面。这种本质上还是原来窗口的一部分。这种可以用模拟点击的方法抓取。

具体我不知道你的网页是哪一个,如果只需要点击一次,那么在爬虫路线上定义一个连贯抓取线索就行,具体可以参照这个:http://www.gooseeker.com/doc/article-150-1.html

如果要点击很多次,每次都有不同的浮窗,那么需要在连续动作工作台上做规则,具体参看:http://www.gooseeker.com/doc/article-141-1.html

类型2:弹出一个新窗口,因为没有自己的独立网址,也无法做层级抓取,必须采用飞掠抓取模式,具体参看:http://www.gooseeker.com/doc/thread-2221-1-1.html
举报 使用道具
板凳
淼淼 初级会员 发表于 2016-10-12 20:15:53 | 只看该作者
Fuller 发表于 2016-10-10 21:45
小窗口有两种,先要在MS谋数台上看看是哪一种,然后采用不同的抓取方法

类型1:浮窗,在MS谋数台上可以看 ...

我现在想抓的是indiegogo当中具体项目的发起人的信息,他的网页是对于发起人信息上,给了一个“about”的超链接,点击之后就会出现一个小的弹窗,上面就有想要的信息了   
https://www.indiegogo.com/projects/con-man#/comments
上面的是一个项目的网址,你可以具体看一下,谢谢
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-12 23:23:22 | 只看该作者
淼淼 发表于 2016-10-12 20:15
我现在想抓的是indiegogo当中具体项目的发起人的信息,他的网页是对于发起人信息上,给了一个“about”的 ...

这是个浮窗,很容易抓,模拟点击一次,就会弹出,然后用另一个抓取规则抓这个内容。

连续动作的教程在这里:http://www.gooseeker.com/doc/article-141-1.html

其实这个网页上只有一个About,不用连续动作 ,而是在爬虫路线工作台上定义一个线索也能做这个事情,原理跟翻页一样。这里有个教程:http://www.gooseeker.com/doc/article-150-1.html
举报 使用道具
5#
淼淼 初级会员 发表于 2016-10-13 10:20:18 | 只看该作者
嗯嗯,已经学会弄好了,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 02:25