最近想和同学搞一个知乎数据可视化项目。首先想的是展示知乎话题树。不知道知乎是否有开放相关的API?还有知乎的爬虫条款是怎么样的,会不会我爬多了封号封IP?因为经常看到很多爬取知乎数据的文章,因此来请教各位老司机。不一定要具体代码,只要介绍一些思路和注意事项就好了。当然如果能有一个完整的demo挂到github就更好了,感激不尽!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-10-28 20:03

Fuller 管理员 发表于 2016-11-11 19:24:43 | 显示全部楼层
实现你这种开放式需求,API几乎不会存在,一定要使用网络爬虫,网络爬虫被封IP也是十分常见的,因为这种研究项目要求网络爬虫快速地获取需要的网页,不会预留很多时间慢慢爬的。集搜客网络爬虫都考虑到了这些问题,而且有直观标注方式,对于非技术出身的用户,十分易学易用。
要建立话题树,需要对抓取下来的内容进行分词和打标,然后整理成数状的语义结构。可以用GooSeeker分词打标软件。
举报 使用道具
maomao 论坛元老 发表于 2018-4-17 12:13:59 | 显示全部楼层
现在,采集知乎网页,用Gooseeker数据DIY,更方便快捷,输入网址,即可采集,采集页数,可以设置
举报 使用道具
DHSakura 新手上路 发表于 2019-10-28 19:27:45 | 显示全部楼层
知乎的话题是有向无循环图,可以考虑广度优先遍历法,从根话题开始爬。可以查知乎的V4 API。
举报 使用道具
Fuller 管理员 发表于 2019-10-28 20:03:39 | 显示全部楼层
设置集搜客网络爬虫的“不重新激活下级线索”,那么就不会出现循环
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:28