比如这个网站:https://www.iau-aiu.net/Publications

上面有很多跟大学教育有关的政策文件,都是pdf格式的。我要下载下来,但是这些文件的链接散布在文字中,没法定义样例复制规则。

有办法像下载图片和视频那样一次下载多个pdf文件吗?


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-3-14 14:51

沙发
Fuller 管理员 发表于 2022-3-12 18:43:15 | 只看该作者
集搜客数据管家V11.1.0版本才支持这个功能。定义规则的时候要注意:大部分情况下是要自定义xpath的,过程是:1. 先用包含所有pdf文件的那个网页区域做内容映射
2. 点击“测试”按钮,找到采集规则,将xpath拷贝出来进行编辑
3. 进入自定义xpath弹窗,编辑好的那个xpath作为定位xpath,再写一个内容xpath。

例如,针对这个网页,用红框的内容做内容映射,然后如下图自定义xpath。分别输入定位xpath和内容xpath的原因:用定位xpath划定一个网页区域,然后用内容xpath从这个区域中采集内容

举报 使用道具
板凳
thursdayrain 中级会员 发表于 2022-3-14 14:38:26 | 只看该作者
我试了一下,文件没有下载下来。是不是path没有写对?帮我写两个path吧
任务名:新西兰教育部_战略和政策_详情_文件下载
举报 使用道具
地板
Fuller 管理员 发表于 2022-3-14 14:45:07 | 只看该作者
thursdayrain 发表于 2022-3-14 14:38
我试了一下,文件没有下载下来。是不是path没有写对?帮我写两个path吧
任务名:新西兰教育部_战略和政策_ ...

你写的内容xpath是:
  1. .//a/@href[contains(.,'.pdf')
复制代码
最后少了方括号,应该是
  1. .//a/@href[contains(.,'.pdf')]
复制代码


举报 使用道具
5#
thursdayrain 中级会员 发表于 2022-3-14 14:51:18 | 只看该作者
本帖最后由 thursdayrain 于 2022-3-14 14:53 编辑

好了,谢谢,从一个网页一下子下载18个PDF文件,强!

批量下载.png (84.21 KB, 下载次数: 510)

批量下载.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 14:48