假如我需要抓取的页面地址为:

www.baidu.com/1
www.baidu.com/2
www.baidu.com/3
www.baidu.com/4
www.baidu.com/5
……
www.baidu.com/9999
www.baidu.com/10000


那么我可以添加
www.baidu.com/(*)

这样的线索吗??还是我必须一行一个?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-1-22 15:45

沙发
Fuller 管理员 发表于 2017-1-22 15:31:14 | 只看该作者
在excel中,添加一行http://www.baidu.com/1 ,然后往下复制,就能自动增加后面数字,等把所有网址构造好以后,在会员中心找到这个规则,添加线索,把这个excel导入
举报 使用道具
板凳
448016097 初级会员 发表于 2017-1-22 15:41:11 | 只看该作者
Fuller 发表于 2017-1-22 15:31
在excel中,添加一行http://www.baidu.com/1 ,然后往下复制,就能自动增加后面数字,等把所有网址构造好以 ...

嗯嗯  好的谢谢  我就是这样添加的  只不过我觉得 www.baidu.com/(*)    定义*的范围为1-10000可能会更方便些

举报 使用道具
地板
Fuller 管理员 发表于 2017-1-22 15:45:47 | 只看该作者
448016097 发表于 2017-1-22 15:41
嗯嗯  好的谢谢  我就是这样添加的  只不过我觉得 www.baidu.com/(*)    定义*的范围为1-10000可能会更方 ...

目前我们没有专门的地址生成工具,对于一些复杂的网址,比如,中间某个参数变化,需要在excel中做拼接。目前都是依赖于excel的功能和函数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-21 00:23