老师好!
问题:在抓取电影的基本信息时,似乎是只能正常抓取如“肖申克的救赎”之类的电影名称上部加黄色排名标签的电影,而其他的电影页面,虽然看起来结构似乎都一样,但是不能正常抓取。
线索名:一级规则(my_douban_jq_20190118)、二级线索(jqInfoBox)
恳请老师解答。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2021-1-5 09:09

wangyong 版主 发表于 2021-1-5 09:09:28 | 显示全部楼层
采集豆瓣的数据,直接在集搜客的快捷采集中选中豆瓣网站输入要采集的网址即可采集
比如采集豆瓣的电影列表,选中豆瓣_电影列表https://www.gooseeker.com/res/da ... 1%E5%88%97%E8%A1%A8
豆瓣新1.png
步骤:
1,选中要采集的网站页面
2,输入采集链接,选择采集多页
3,启动采集
采集完成后,打包数据即可下载Excel格式的数据:
豆瓣电影列表数据展示.png
如果要继续采集其他页面的数据,比如电影详情和电影评论,就将采集到的网址添加的对应页面的入口,选择输入多条网址
豆瓣新2.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:53