如題
參考了此篇教程:https://www.gooseeker.com/doc/article-533-1.html
測試時始終無法將第一筆以外之資料一併抓取
在煩請管理員協助QQ
規則名稱:MY-Address
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2022-8-12 10:17

Fuller 管理员 发表于 2022-8-11 15:39:58 | 显示全部楼层
样例3621.png
1. 用红框那个dom节点做定位映射,映射给A1, A2,。。。EMAIL所有这些抓取内容,这样定位每个抓取内容时就会使用这个指定的标志
2. 用下面两个箭头指向的TR做样例映射
3. 设置成偏好id

我用如上方案已经能采集到多行了
举报 使用道具
Wei_AA25 中级会员 发表于 2022-8-12 09:51:04 | 显示全部楼层
Fuller 发表于 2022-8-11 15:39
1. 用红框那个dom节点做定位映射,映射给A1, A2,。。。EMAIL所有这些抓取内容,这样定位每个抓取内容时 ...

管理員您好:

非常感謝您的回覆!
定位映射我原先的設定是其原始DOM節點的ID內容
可以抓到正確內容但沒有辦法樣例複製
想請問這是甚麼原理呢~~~
我想記錄一下^^!
举报 使用道具
Fuller 管理员 发表于 2022-8-12 10:17:26 | 显示全部楼层
Wei_AA25 发表于 2022-8-12 09:51
管理員您好:

非常感謝您的回覆!

如果不做手工指定的定位映射,那么爬虫软件会根据设定的“偏好id”或者“偏好class”自动找一个,是从最近的一个祖先DOM节点上找。

如果class或者id中含有唯一性的数字,比如,第一行内容的class是 xxx_1,第二行是 xxx_2,那么自动选用这个class的话就不合适,就只能采集到这一条数据。

这个时候,就可以手工指定一个定位标志,避开自动选择的这个不合适的标志。

点击“测试”按钮以后,除了看采集结果以外,可以点击“采集规则”tab,看生成的xpath,这是一个XSLT文件,如果能理解这个编程语言的话,可以帮助找出规则的问题,主要看生成的xpath,是否选用了不合适的class或者id

采集规则521.png


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:14