求教复杂的瀑布流网页信息采集
http://www.gooseeker.com/doc/thread-4892-1-1.html
(出处: 集搜客GooSeeker网络爬虫)

这是我当时的帖子,说购买旗舰版可以实现,可是你们技术人员跟我说,旗舰版也只能抓取20条。到底什么情况啊?这个网页能不能抓取啊?能不能给个统一权威的回答啊?

举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-1-7 22:43

沙发
Fuller 管理员 发表于 2016-12-10 10:47:17 | 只看该作者
我找技术人员确认一下,也许是他测试过,如果是这个网站做了限制,买什么版都抓不了,但是,如果人工浏览能看到内容,那么软件就有办法采集下来
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-10 10:49:35 | 只看该作者
刚才我确认过了,这个网页上有个滚动条,要等下个版本,下周就发布了,旗舰版增加这个内部滚动条滚屏功能
举报 使用道具
地板
Givent 中级会员 发表于 2016-12-10 13:39:48 | 只看该作者
Fuller 发表于 2016-12-10 10:49
刚才我确认过了,这个网页上有个滚动条,要等下个版本,下周就发布了,旗舰版增加这个内部滚动条滚屏功能 ...

好的,下周几发布,到时你帮我确认下真的可以采集,我就买了,急死了!
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-14 19:09:59 | 只看该作者
Givent 发表于 2016-12-10 13:39
好的,下周几发布,到时你帮我确认下真的可以采集,我就买了,急死了!
...

8.1.0版本增加了滚轮功能,alpha测试已经完成,正式发布是本周五,现在可以申请beta测试版了
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-16 10:38:17 | 只看该作者


滚轮动作的定义方法特别简单
1)旗舰版用户可以点击动作类型最右边的那个单选按钮,点击后,动作类型的下拉菜单点亮。选择“滚轮”
2)定位表达式 是一个网页区域,比如,一个DIV,划定这个区域后,鼠标就会在它上面滚轮,对于这个天天有货这个案例,定位到哪个iframe就行了,这个iframe包含了整个货车信息列表,xpath是//*[@id='page']
3)每次滚动像素数:这个跟滚动速度有关,一般来说,屏幕高度方向的总像素数是800左右,那么,这里填800,就能一次跳一屏,如果填写300,差不多跳3次才能滚完一整屏
4)总共滚动次数:如果想无限制滚动下去,就填写-1
5)高级参数根据需要填写,通常需要加一个额外延时,要等待新内容加载显示

另外,运行DS打数机的时候要注意,这个网站抓取的时候每次都要输入手机号,所以,DS打数机菜单 配置-》超时时长,设置长一点,保证足够的时间用手机获得验证码
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-16 11:58:59 | 只看该作者
经过测试,我发现一个捷径,可以用更少的步骤
1)样本页面是这个:http://m.ttyhuo.com/m/truck-search.html  这是直接进入货车列表的网址

2)做两级规则,比如,主题名分别是:滚轮测试_3_fuller 和 滚轮测试_3_l2_fuller


3)在第一级,创建规则工作台抓取信息列表,连续动作工作台定义一个点击动作

点击每个货车的 title DIV位置,要注意,必须勾选“模拟点击”,因为模拟点击就是小幅度滚屏功能,一定要加上额外延时,我填了3秒

3)在第二级,创建规则工作台抓取详细数据,再定义个回退动作(也是旗舰版专有的动作),回退到第一级。一定要加上额外延时,我填了2秒

举报 使用道具
8#
Fuller 管理员 发表于 2016-12-16 12:01:28 | 只看该作者
一定要用V8.1.0版本,以前版本处理这种情况会造成内存泄露
举报 使用道具
9#
Givent 中级会员 发表于 2016-12-16 13:11:33 | 只看该作者
Fuller 发表于 2016-12-16 11:58
经过测试,我发现一个捷径,可以用更少的步骤
1)样本页面是这个:http://m.ttyhuo.com/m/truck-search.htm ...

您好,我是要找货的界面,道理是一样的么?
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-16 14:33:14 | 只看该作者
Givent 发表于 2016-12-16 13:11
您好,我是要找货的界面,道理是一样的么?

找货网址是哪个?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 01:47