本帖最后由 scraper 于 2016-12-30 10:28 编辑


【启动采集前的配置】
  • 预先登陆网站:否
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问豆瓣_电影影评页面;
  • 输入一条网址,或者点击“输入多条网址”,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-3-3 15:20

沙发
yingying987 新手上路 发表于 2019-12-2 20:40:39 | 只看该作者
为什么充值钱了,打包不了数据,不是1积分20条数据吗,我充了10块,有100积分,不是应该可以爬取2000条吗
举报 使用道具
板凳
Fuller 管理员 发表于 2019-12-2 21:59:03 | 只看该作者
yingying987 发表于 2019-12-2 20:40
为什么充值钱了,打包不了数据,不是1积分20条数据吗,我充了10块,有100积分,不是应该可以爬取2 ...

打包数据的时候会提示,现在有多少条数据要打包,需要多少钱,你看到多少条数据?
举报 使用道具
地板
yingying987 新手上路 发表于 2019-12-3 20:11:48 | 只看该作者
可能我爬取失败了,显示有一条数据可打包,是看到打包多少条数据,就是爬取到多少条是吗
举报 使用道具
5#
Fuller 管理员 发表于 2019-12-4 09:39:47 | 只看该作者
yingying987 发表于 2019-12-3 20:11
可能我爬取失败了,显示有一条数据可打包,是看到打包多少条数据,就是爬取到多少条是吗 ...

对,看到能打包多少,才能导出那么多。中间出错的原因可能有多个,比如:
1,网站封锁了爬虫,看到404或者出现验证码
2,网络暂时性中断了,比如,翻页中断
3,爬虫处理过程入库偶然出现失败

一般应对方法是进行重采
举报 使用道具
6#
wushujia 新手上路 发表于 2022-3-3 10:50:37 | 只看该作者
影评采集到的没有显示展开下面的内容怎么办呀?
举报 使用道具
7#
Fuller 管理员 发表于 2022-3-3 15:20:34 | 只看该作者
wushujia 发表于 2022-3-3 10:50
影评采集到的没有显示展开下面的内容怎么办呀?

快捷采集那里有两个工具,组合使用:
1. 豆瓣电影-影评:采集影评列表和每条影评的网址
2. 豆瓣电影影评-详情:把上一个工具采集到的每条影评网址加到这个工具,就能采集全部内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:10