本帖最后由 经济学者900 于 2015-11-27 20:38 编辑

看到软件上写了能够提取百度指数什么的,有大神能指点一下吗?如图
只有几个数据点,怎么生成日度的数据呢?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-1-11 20:17

沙发
Fuller 管理员 发表于 2015-11-27 21:24:06 | 只看该作者
百度用了很多手段防止数据被抓下来,这些图片上的数字要自动识别成文本虽然难度不大,但是也要花不少时间写程序。而且抓取下来的图片并不是看到的数字,用了css技术从一张背景图上过滤出来的,虽然也能用技术手段解决,但是都需要付出代价,值得去这么做吗?
举报 使用道具
板凳
经济学者900 新手上路 发表于 2015-11-27 21:27:45 | 只看该作者
明白了,感谢技术大神的指导
举报 使用道具
地板
wzs9787 新手上路 发表于 2017-1-11 17:49:19 | 只看该作者
写论文需要百度指数的日度数据,求问楼主怎么解决的
举报 使用道具
5#
xandy 论坛元老 发表于 2017-1-11 17:57:52 | 只看该作者
wzs9787 发表于 2017-1-11 17:49
写论文需要百度指数的日度数据,求问楼主怎么解决的

可以做,但是定制成本很高,不值得
举报 使用道具
6#
wzs9787 新手上路 发表于 2017-1-11 18:28:05 | 只看该作者
xandy 发表于 2017-1-11 17:57
可以做,但是定制成本很高,不值得

是指的百度专业版付费定制吗?如果不能系统地抓取,我只能想出手动抄的方法了
举报 使用道具
7#
Fuller 管理员 发表于 2017-1-11 20:17:21 | 只看该作者
wzs9787 发表于 2017-1-11 18:28
是指的百度专业版付费定制吗?如果不能系统地抓取,我只能想出手动抄的方法了
...

不是定制专业版,从网页上采集这些信息的功能都有,虽然在折线图滑动鼠标的功能目前只给vip用户使用,但是这个功能很快会开放给旗舰版用户。

最大的难处是要ocr,从图片识别成数字,而且不是一个完整的图片,要用采集下来的图片和其他信息拼图,然后再识别成数字,这个软件的开发成本不小
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 19:02