2 6329

scmp官网全文无法爬取

CassieMouse 于 2020-1-7 22:42 发表 [复制链接]
南 华 早 报 官网 scmp.com在翻墙的情况下无法爬取全文,拿一个网页测试时可以爬取全文,批量爬取时只能爬取“read the article”几行字,已经做过滚屏也没有用,请问应该如何解决?规则名scmp全文爬取
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-1-8 23:15

Fuller 管理员 发表于 2020-1-8 21:42:17 | 显示全部楼层
全文20200108213836.png

我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:
1,是否设置了关键内容
2,采集全文的规则,往往采集内容范围很大,所以有时候即使没有实际内容显示出来,那个范围对应的html节点还是有的,所以,设置了关键内容也会误判,这时候就要放慢采集速度:
a,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“延迟时间”
b,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏次数”,可以大一点,花费的时间就更长
c,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏速度”,设置成负数,值越小越慢
举报 使用道具
CassieMouse 高级会员 发表于 2020-1-8 23:15:20 | 显示全部楼层
Fuller 发表于 2020-1-8 21:42
我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:

好的 我试一试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 12:07