您好,请问我要搜集一些特定名字的百度百科简介,这个可以做到吧
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-9-13 09:15

沙发
xandy 论坛元老 发表于 2017-1-4 15:17:17 | 只看该作者
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几篇,就可以上手采集数据了。
举报 使用道具
板凳
思秋忆 中级会员 发表于 2017-1-4 15:17:55 | 只看该作者
xandy 发表于 2017-1-4 15:17
可以的,网页上可见的公开内容都是可以采集到的。直接下载爬虫,然后学习教程板块《从入门到精通》的前面几 ...

我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
举报 使用道具
地板
xandy 论坛元老 发表于 2017-1-4 15:20:45 | 只看该作者
思秋忆 发表于 2017-1-4 15:17
我有一个词汇列表,想爬到百度百科里去把这些词汇的简介摘取下来,不知道怎么弄?
...

集搜客的连发弹仓功能可以实现关键词自动搜索采集。
介绍可以看这里:《加强网络爬虫装备:连发弹仓、飞掠模式、连续打码功能介绍
举报 使用道具
5#
mniyjy 初级会员 发表于 2019-9-12 23:46:20 | 只看该作者
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下
举报 使用道具
6#
Fuller 管理员 发表于 2019-9-13 09:15:41 | 只看该作者
mniyjy 发表于 2019-9-12 23:46
您好,请问您这个问题解决了么?我也遇到了相同的问题,想请教一下

百度百科是个知识库,可以爬下来做各种知识工程任务。这个很好爬,百度百科有自己的网址,而且搜索的关键词包含在网址中,你只需要构造网址,就能快速为爬虫规则添加线索。比如,网址这个样子:
  1. https://baike.baidu.com/search?word=%E5%8D%9A%E5%BC%88%E8%AE%BA&pn=0&rn=0&enc=utf8
复制代码
添加线索的方法参看《如何管理规则的线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 15:42