本帖最后由 ym 于 2019-5-28 09:46 编辑

常见问题 > 采集数据—常见问题导航 > 设置采集速度 > 怎么样优化DS打数机/爬虫参数提高抓取速度

不同的采集方式对应的设置方法不同,手工运行DS打数机的请看方法1,用爬虫群采集的请看方法2,具体如下:
1、手工运行DS打数机,就有菜单栏,其中,配置菜单就是用来控制爬虫的基本设置、采集速度等,需要根据不同网页的实际情况进行调整,每个功能的作用如下:
QQ截图20170122100625.png

定时器触发:一般用于AJAX网页内容的提取,AJAX网页的DOM持续变化,误导DS打数机以为网页内容没有加载完成,以至于一直等待到超时,勾了定时器触发,相当于设置一个定时器,到达后就立刻执行抓取,但是网页较大的情况,加载网页的时间较长,如果启用定时器触发,可能会导致网页尚未加载完成就提前采集,而造成网页内容漏抓,所以,要测试确保数据都能抓到才设置定时器触发

关闭弹窗:有些网页在采集过程中会弹出广告窗之类的小窗口,可能会导致网页结构改变,严重的会导致采集失败,这种情况就可以勾上关闭弹窗

配置浏览器:可以设置是否加载插件、加载图片、加载JS,如果没必要加载插件、图片、JS,可以关闭以便加快采集速度

滚屏参数:分为滚屏次数和滚屏速度,可以用来控制翻页速度、采集速度等,具体参数的设置需要根据实际网页情况而定。滚屏速度大于1会提高速度,滚屏速度小于1就是放慢速度,等于1或-1就是不变速;滚屏次数等于0就是不滚屏采集,如果要采集的信息是在网页顶部,就可以设置不滚屏,以便提高一定的速度,大于0就会滚屏采集,数值越大,采集速度越慢,适用于采集长网页和AJAX网页,所以采集图片和动态网页信息必须滚屏。

超时时长:如果目标网站暂时性不可用,或者网络拥塞,DS打数机如果一直等待,必然会影响其他网页的抓取,所以,超时时长是一个保护机制,让DS打数机在适当的时候放弃抓取。可以设置1分钟以上。不要担心会造成抓取变慢。GooSeeker爬虫跟大型百度爬虫一样,都有自适应算法,能够尽早执行抓取。

延迟抓取:以秒为单位,是用来放慢采集速度,适用于超长网页和AJAX网页,由于网页信息量太大,需要较长的时间才能加载显示出全部信息,所以,要设置延迟抓取来放慢采集速度,以确保抓到完整信息。

如果DS打数机的日志中出现“需要优化”字样,定时器触发是最需要设置的参数,如果担心数据漏抓,那么不设置定时器触发,而是调小超时时长。超时时长很小的时候,只会变成失败状态,而不会是漏抓。统计线索状态就能看到有多少失败,但是漏抓是统计不出来的。然后,自己去分析解决抓失败的线索,可参考教程《怎样解决规则采集失败/遗漏的问题

2、用爬虫群采集,要登录到会员中心->规则管理,进入对应规则的调度页面进行设置,里面的参数涵盖了DS打数机菜单栏,参数的意义也是一样的,但比菜单栏更加强大,还可以做激活线索设置,进行周期采集,参数的意义见《调度设置参数说明》,操作见《调度设置操作介绍》
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-9-23 12:15

1942634130 新手上路 发表于 2015-11-15 09:31:39 | 显示全部楼层
不错
举报 使用道具
Fuller 管理员 发表于 2016-9-23 12:15:56 | 显示全部楼层
7.x和8.0.0版出现这个问题可能是一个bug引起的,请尽快升级到V8.0.1
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 07:29