任务名:冲压裁切技术采集网址:知嘟嘟-IPRDB专利查询网__全球专利搜索引擎_中国专利检索平台-知嘟嘟旗下专利信息检索查询网站


没有@href,随后进行动作设置

结果:采集无法进行或采集不完整。
如何进行正确的采集操作过程。

image.jpg (208.98 KB, 下载次数: 540)

image.jpg
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-8-31 17:01

沙发
马涌河畔 金牌会员 发表于 2022-8-30 10:14:37 | 只看该作者
我手工点击第一条记录的“PDF下载”,提示文件损坏了

举报 使用道具
板凳
15976212013 初级会员 发表于 2022-8-30 10:17:21 | 只看该作者
马涌河畔 发表于 2022-8-30 10:14
我手工点击第一条记录的“PDF下载”,提示文件损坏了

我尝试了一下,也是错误的,但是如果用谷歌登录网址又是可以下载的。
举报 使用道具
地板
Fuller 管理员 发表于 2022-8-30 18:04:24 | 只看该作者
我测试了你的规则,虽然这个网站上的pdf用手工点击查看的时候看不到内容,但是,用爬虫自动点击下载是没有问题的。

你的点击动作没有问题,能下载下来。只是你用了绝对定位,那个xpath只能定位到一个。应该用偏好class生成xpath,就能定位到20个,其中10个pdf,10个word。如果你只想要pdf,可以这样写xpath

//*[@class='ui basic keynote horizontal label' and contains(text(), 'PDF')]
举报 使用道具
5#
15976212013 初级会员 发表于 2022-8-31 15:34:01 | 只看该作者
Fuller 发表于 2022-8-30 18:04
我测试了你的规则,虽然这个网站上的pdf用手工点击查看的时候看不到内容,但是,用爬虫自动点击下载是没有 ...

已解决,感谢,我导出来的偏好class不包含and contains(text(), 'PDF'),这个是需要自己添加的吗?
举报 使用道具
6#
gz51837844 管理员 发表于 2022-8-31 16:02:39 | 只看该作者
15976212013 发表于 2022-8-31 15:34
已解决,感谢,我导出来的偏好class不包含and contains(text(), 'PDF'),这个是需要自己添加的吗? ...

是的,可以根据实际情况和需要自定义xpath
举报 使用道具
7#
15976212013 初级会员 发表于 2022-8-31 17:01:44 | 只看该作者
当想要进行自动输入多个关键词搜索,层级设置时链接出现错误。第一级检索无输入搜索,也没有对第二级进行链接,该如何解决?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 22:54