Fuller 管理员 发表于 2020-6-22 16:42:05 | 显示全部楼层
a237090761 发表于 2020-6-22 16:35
请问一级规则要在哪里加呢,是工作台的那个下级线索吗。
我打开猫途鹰的英文评论后,评论虽然是英文,但 ...

我刚才试了一下,似乎能记住语言了。

我是这样试的,先设置好语言,比如,英语,然后重新加载一下网页。我发现还是英语。这样就比较好,采集之前先在集搜客浏览器中设置好语言。

如果要采集多种语言的,如果只有一台电脑,那么就先设置一种语言,采集完以后,再手工设置成另外一种语言。

如果有多台电脑,可以安排某台电脑专门采集某种语言
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 17:02:24 | 显示全部楼层
Fuller 发表于 2020-6-22 16:42
我刚才试了一下,似乎能记住语言了。

我是这样试的,先设置好语言,比如,英语,然后重新加载一下网页。 ...

我没找到集搜客浏览器的语言选项在哪里,猫途鹰外网我是用谷歌浏览器打开直接复制网址过来的,在谷歌上还是全英文,复制到集搜客,除具体评论内容以外,其他的网页内容就自动翻译了
举报 使用道具
Fuller 管理员 发表于 2020-6-22 17:20:25 | 显示全部楼层
a237090761 发表于 2020-6-22 17:02
我没找到集搜客浏览器的语言选项在哪里,猫途鹰外网我是用谷歌浏览器打开直接复制网址过来的,在谷歌上还 ...

语言20200622171801.png

你说的是这个语言选择吗?这里是一个筛选条件,选择英文,就只看英文评论。选择全部语言,就看到各种语言的评论。

在这里设置以后,其实是不影响整个网页的语言的,比如,“点评”那个标题,不会跟着变。

如果想让网页语言改变,要设置浏览器的地区。但是集搜客网络爬虫没有设置地区的功能
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 17:35:01 | 显示全部楼层
Fuller 发表于 2020-6-22 17:20
你说的是这个语言选择吗?这里是一个筛选条件,选择英文,就只看英文评论。选择全部语言,就看到各种语 ...

不是语言选择,是整个网页都是英文,谷歌打开就是这张图
360截图20200622173140932.jpg
我要抓取英文评论的话,需要把整个页面都设置成英文再抓取吗
刚刚我看猫途鹰网页的最下面有个“货币&国家及地区”的选项,把这个改成英国是不是就可以了呢

举报 使用道具
Fuller 管理员 发表于 2020-6-22 18:46:35 | 显示全部楼层
a237090761 发表于 2020-6-22 17:35
不是语言选择,是整个网页都是英文,谷歌打开就是这张图

我要抓取英文评论的话,需要把整个页面都设置成 ...

我的chrome显示的是中文的,我试了一下选择地区,选择United States,就能看到英文界面,不过很慢。似乎猫途鹰有专门的美国站,所以从中国访问就会很慢。

如果你为了采集评论内容,那就不要设置成美国站,不然采集太慢了。
举报 使用道具
a237090761 初级会员 发表于 2020-6-22 19:33:05 | 显示全部楼层
Fuller 发表于 2020-6-22 18:46
我的chrome显示的是中文的,我试了一下选择地区,选择United States,就能看到英文界面,不过很慢。似乎 ...

我刚跟着自动点击的教程,想设置自动点击英文评论的“更多”,但是抓出来的数据还是和没点“更多”之前的一样,
工作台.jpg

自动点击.jpg


举报 使用道具
a237090761 初级会员 发表于 2020-6-22 19:48:01 | 显示全部楼层
本帖最后由 a237090761 于 2020-6-22 19:49 编辑
Fuller 发表于 2020-6-22 18:46
我的chrome显示的是中文的,我试了一下选择地区,选择United States,就能看到英文界面,不过很慢。似乎 ...

第一条.jpg 这是第一条网页评论,没有点击”更多“的结尾



设置了自动点击后,抓出来的数据是这样的,结尾还是“through  an”
数据.jpg




举报 使用道具
Fuller 管理员 发表于 2020-6-23 09:05:31 | 显示全部楼层
a237090761 发表于 2020-6-22 19:48
这是第一条网页评论,没有点击”更多“的结尾

如果定义了点击动作,目标任务名最好与当前的不一样,这样就形成了两级规则。点击后的内容由第二级抓取,容易分开。

如果网页上多条评论含有点击位置,那么点击用的xpath要能定位到所有点击位置。比如,定位到5个,那么爬虫就会逐个点击。要注意,每点击一个,网页结构就可能改变,这个xpath能够定位到的位置应该保持不变,应该一直是5个。如果那个被点击的展开后结构变了,要调整xpath,让xpath既能定位到点击前的节点也能定位到点击后的节点。否则,序号就变了,那样会观察到爬虫是跳着点的。
举报 使用道具
a237090761 初级会员 发表于 2020-6-23 12:49:05 | 显示全部楼层
本帖最后由 a237090761 于 2020-6-23 12:52 编辑
Fuller 发表于 2020-6-23 09:05
如果定义了点击动作,目标任务名最好与当前的不一样,这样就形成了两级规则。点击后的内容由第二级抓取, ...

你好,我创建了二级规则之后,提示说“存在同名规则,是否需要更新”,但我看的知网连续点击的教程操作步骤里,并没有显示这个提示,不知道我在 哪里出错了。
我的一级规则是“巴黎检索前”,关键内容抓取的是(没有展开内容前的)评论,然后连续动作选的“点击”,线索是每条评论里的“更多”,保存后新建了规则“巴黎检索后 ”,抓取完内容点“存规则”,就出现了下图的情况,麻烦帮我看一下,谢谢
2.png

1.png


举报 使用道具
Fuller 管理员 发表于 2020-6-23 14:26:42 | 显示全部楼层
a237090761 发表于 2020-6-23 12:49
你好,我创建了二级规则之后,提示说“存在同名规则,是否需要更新”,但我看的知网连续点击的教程操作步 ...

规则是一级级串起来的,如果在爬虫路线那里填了目标任务名,或者在连续动作那里填了任务名,那么这样就形成了两级。在存当前级的时候,就会为下一级预留好任务名字,防止被别人抢去了。

等用下级任务名定义规则的时候,会提示“存在同名规则,是否需要更新”,只是提醒一下,防止因为任务名相同从而这个规则把以前定义的规则覆盖了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 07:55