如果我采集了100个推主的点赞,这些推主肯定有点赞相同的推文,是吧这些推文去重吗?但是原始路径不一样啊

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-2-10 12:29

沙发
Fuller 管理员 发表于 2023-2-10 10:56:33 | 只看该作者
你说的原始路径是什么?是否要去重那要看你想怎么分析,有了点赞关系以后,整个数据之间的关系变复杂了,变成了一个图状的联系,要根据分析目的来处理这个数据关系
举报 使用道具
板凳
JeromeL 初级会员 发表于 2023-2-10 11:00:08 | 只看该作者
Fuller 发表于 2023-2-10 10:56
你说的原始路径是什么?是否要去重那要看你想怎么分析,有了点赞关系以后,整个数据之间的关系变复杂了,变 ...

我可以设置不去重吗?在打包的表里,<fullpath>字段不同,会被去重吗?我不太理解为什么打包数据会去重。因为按浏览器采集到的数据,肯定没有重复的,有的内容一样,但是采集位置<fullpath>肯定不一样。
举报 使用道具
地板
Fuller 管理员 发表于 2023-2-10 11:28:16 | 只看该作者
JeromeL 发表于 2023-2-10 11:00
我可以设置不去重吗?在打包的表里,字段不同,会被去重吗?我不太理解为什么打包数据会去重。因为按浏览 ...

爬虫软件去重不会影响到你说的那种情况。爬虫软件在采集的时候,一次一次地从网页上采集数据。如果网页通过滚屏加载新的内容(现在很多网站都是这样的,滚动一下鼠标就会有更多内容显示出来),老内容还在网页上,那么滚动以后采集到的内容就会包含滚动前采集的内容,所以要去重。

如果<fullpath>不同,那是两个不同的网页,去重过程不会对比两个不同的网页内容,所以,不可能把两个不同网页上的内容判断为重复内容
举报 使用道具
5#
JeromeL 初级会员 发表于 2023-2-10 12:29:31 | 只看该作者
Fuller 发表于 2023-2-10 11:28
爬虫软件去重不会影响到你说的那种情况。爬虫软件在采集的时候,一次一次地从网页上采集数据。如果网页通 ...

明白了,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 09:23