12 84130

开源Python网络爬虫资料目录

xandy 于 2016-5-25 10:00 发表 置顶 [复制链接]
专栏头图.jpg

Python网络爬虫是一个开源的项目,我们会将所有的资料进行公开分享:

了解项目

核心代码

API规范

应用案例
关键技术

知识拓展

集搜客GooSeeker开源代码下载源

文档修改历史
  • 2016-05-29:增加源代码下载GitHub源
  • 2016-06-03:增加API
  • 2016-06-04:在知识拓展一章增加了两篇文章《Scrapy的架构初探》和《Scrapy入门程序点评》
  • 2016-06-05:在知识拓展一章增加了文章《Scrapy:python3下的第一次运行测试》
  • 2016-06-14:在关键技术下增加文章6
  • 2016-06-17:在知识拓展下增加文章《Python爬虫:Scrapy研读之Request/Reponse》
  • 2016-06-19:在应用案例下增加文章《GooSeeker API 例子——用Java下载内容提取器
  • 2016-06-30:在应用案例下增加文章《Python网页信息采集-使用PhantomJS采集淘宝天猫商品内容》,在关键技术下增加文章《Python信息采集器使用轻量级关系型数据库SQLite
  • 2016-07-08:在应用案例下增加文章《Python爬虫实战(3):安居客房产经纪人信息采集
  • 2016-07-11:在应用案例下增加文章《Python爬虫实战(4):豆瓣小组话题采集---动态网页
  • 2016-08-03:在核心代码下增加文章《Python即时网络爬虫项目:内容提取器的定义(Python2.7版本)
  • 2016-09-27:在应用案例下新增《为编写网络爬虫程序安装Python3.5》
  • 2016-10-11:在应用案例下新增《为采集动态网页安装和测试Python Selenium库》
  • 2016-10-20:在应用案例下新增《快速制作规则及获取提取器API》
  • 2016-10-20:在应用案例下新增《在Python下安装和测试Scrapy爬网站》

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2019-11-1 16:16

wangyong 版主 发表于 2019-11-1 16:16:51 | 显示全部楼层
举报 使用道具
pipiran 新手上路 发表于 2016-12-18 13:13:25 | 显示全部楼层
为啥看不懂呢
举报 使用道具
安静 初级会员 发表于 2016-12-20 15:02:03 | 显示全部楼层
一直想学这个,找到组织了。
举报 使用道具
shykon 新手上路 发表于 2017-2-24 18:41:00 | 显示全部楼层
Good
举报 使用道具
wxd198798 初级会员 发表于 2017-5-2 11:50:15 | 显示全部楼层
文档好久没有更新了么,最后一次是2016-10-20
举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-5-2 12:19:24 | 显示全部楼层
近期主要是和用户进行交流, 没有更新
规划的有线索api和数据api接口, 目前还没有确定开放日期
举报 使用道具
luke4java 新手上路 发表于 2017-8-12 16:17:10 | 显示全部楼层
请问当初设计的python爬虫引擎有了没呢,可以先跑起来嘛。核心的那块可插拔可以继续开发。
举报 使用道具
Fuller 管理员 发表于 2017-8-13 08:01:16 | 显示全部楼层
luke4java 发表于 2017-8-12 16:17
请问当初设计的python爬虫引擎有了没呢,可以先跑起来嘛。核心的那块可插拔可以继续开发。 ...

这个项目还在探索中,并没有完整的产品发布
举报 使用道具
yuxuan6699 新手上路 发表于 2019-6-12 15:36:00 | 显示全部楼层
楼主确实很厉害,但是说句实话,确实很麻烦,虽然教程很全,但是确实比较复杂,还是觉得敲代码爽一些;
举报 使用道具
18380593964 新手上路 发表于 2019-8-22 09:29:27 | 显示全部楼层
现在这个API接口好像不能用了呀
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:39