我想采集的网页时动态刷新的,这样做规则过程中网页结构变了,前面做的内容映射都失效了,求教大神这种动态网页要怎么做规则啊
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-28 10:32

沙发
quyixuan 金牌会员 发表于 2016-11-14 10:09:11 | 只看该作者
这边其实有个教程专门讲动态网页抓取的,你可以看看
http://www.gooseeker.com/doc/thread-945-1-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-21 22:21:01 | 只看该作者
楼上说的是那种时时刻刻在变化的网页,要凝固住,才能定义抓取规则。

通常情况下 ,大家提到动态网页这个词是认为网络爬虫难于处理动态网页,其实对于集搜客网络爬虫来说,不管动态还是静态网页,处理方式都是一样的。不像其他网络爬虫,还要解析html,html是静态的,如果内容是javascript动态生成,普通网络爬虫就不行了,但是不影响集搜客网络爬虫的抓取,而且也不用抓包,用消息分析工具去解析每个消息参数,然后再做模拟。集搜客都不用这么麻烦,都是一致的直观标注,自动生成抓取规则。
举报 使用道具
地板
cnhhhh 新手上路 发表于 2018-4-28 10:32:58 | 只看该作者
楼上请看一下我刚刚发表的帖子,动态内容无法显示,也无法抓取了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:59