21#
Fuller 管理员 发表于 2016-10-23 10:09:41 | 只看该作者
beanbing 发表于 2016-10-23 08:39
嗯  没有理解,如果你要采集瀑布流的网址,那你线索里(也就是滚屏参数要输入多少呢?) ...

瀑布流滚不到底的,滚屏次数就是-1,永远抓不完
举报 使用道具
22#
beanbing 中级会员 发表于 2016-10-23 13:40:35 | 只看该作者
Fuller 发表于 2016-10-23 10:09
瀑布流滚不到底的,滚屏次数就是-1,永远抓不完

就是有知道多少才输入?比如楼上说的2000?  那如果不是瀑布流,可以直接输入-1  会有什么影响吗
举报 使用道具
23#
Fuller 管理员 发表于 2016-10-23 15:41:50 | 只看该作者
beanbing 发表于 2016-10-23 13:40
就是有知道多少才输入?比如楼上说的2000?  那如果不是瀑布流,可以直接输入-1  会有什么影响吗 ...

输入-1的话,就会永远运行
举报 使用道具
24#
beanbing 中级会员 发表于 2016-10-24 10:24:47 | 只看该作者
那我就不明白这个今日头条的规则了

QQ图片20161024102417.jpg (56.23 KB, 下载次数: 807)

QQ图片20161024102417.jpg
举报 使用道具
25#
Fuller 管理员 发表于 2016-10-24 11:04:52 | 只看该作者
beanbing 发表于 2016-10-24 10:24
那我就不明白这个今日头条的规则了

这个主要作为示例,另一方面,设置成-1很不安全,有些网站,如果翻页过程中永远不删除顶上的内容,内容会占用到很大大,最终导致程序崩溃。所以,-1的情况需要慎重使用
举报 使用道具
26#
beanbing 中级会员 发表于 2016-10-24 11:13:55 | 只看该作者
1.那这样的话  就算是无到底的网页  你也只能设置上一定数量  比如2000次滚屏   
2.如果我再MS里设置了,那是否无需再DS中重新设置呢
多谢
举报 使用道具
27#
Fuller 管理员 发表于 2016-10-24 22:55:40 | 只看该作者
beanbing 发表于 2016-10-24 11:13
1.那这样的话  就算是无到底的网页  你也只能设置上一定数量  比如2000次滚屏   
2.如果我再MS里设置了,那 ...

滚屏参数的设置有两类,而且是巨大的区别,不能搞混了:
1)连续动作中的连续滚屏,它的参数是在规则定义的时候设定
2)普通的滚屏,是在DS打数机上或者会员中心中设置。

这个帖子的板凳楼层有详细讲解:http://www.gooseeker.com/doc/thread-3859-1-2.html
举报 使用道具
28#
beanbing 中级会员 发表于 2016-10-25 11:32:50 | 只看该作者
本帖最后由 beanbing 于 2016-10-25 11:41 编辑

滚屏是滚动的设置,线索是网页url的数量,如果一个页面中url是4000条 ,就输入4000条,但是为什么我的永远都是只抓取了两页呢,统计线索那里,也只有一条,为什么呢

QQ截图20161025113227.jpg (28.41 KB, 下载次数: 870)

QQ截图20161025113227.jpg
举报 使用道具
29#
HJLing 版主 发表于 2016-10-25 11:37:23 | 只看该作者
beanbing 发表于 2016-10-25 11:32
滚屏是滚动的设置,线索是网页url的数量,如果一个页面中url是2000条 ,就输入4000条,但是为什么我的永远 ...

你这是第一级页面 只有一个网址 线索就是1 你把这个页面的全部url(2000个)都采下来给第二级做线索 那第二级的线索才是有2000 你运行第二级的时候才输2000

举报 使用道具
30#
beanbing 中级会员 发表于 2016-10-25 11:44:05 | 只看该作者
但是我的是滚屏的 ,抓取下来就只有几行数据,这个不对呀
我滚屏参数是4,总次数是4000,速度也相对调慢了,是-2

QQ截图20161025114324.jpg (183.33 KB, 下载次数: 848)

QQ截图20161025114324.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:39