zhgaogaopa 初级会员 发表于 2024-1-5 02:25:38 | 显示全部楼层
zhgaogaopa 发表于 2024-1-5 02:13
把需要采集全文的网址整理出来,导入到这个快捷采集工具中:https://www.gooseeker.com/res/rule_494.html  ...

另外想请教一下,如果用微博关键词采集5年的数据,分段时间粒度设置在多少比较合适呢?因为怕采集的时间才长,且如果数据太多后续清洗很麻烦,现在想设置在30天不知道合理吗?或者一年一年采集?这样数据是不是只会更多。。
举报 使用道具
Fuller 管理员 发表于 2024-1-5 09:27:06 | 显示全部楼层
zhgaogaopa 发表于 2024-1-5 02:25
另外想请教一下,如果用微博关键词采集5年的数据,分段时间粒度设置在多少比较合适呢?因为怕采集的时间 ...

如果想采集的尽量全,那就粒度设置尽量细。如果不想采集很多,就粒度大一些。具体多少,可以先调查一下,手工搜索和浏览一下,看看有多集中,再决定时间粒度
举报 使用道具
明镜翼 新手上路 发表于 2024-1-20 23:03:41 | 显示全部楼层
您好,昨天采集微博主页功能增加了时间限制后,有很多数据就采集不到了,转发的微博也不会显示转评赞等相关信息,请问要如何处理啊?
举报 使用道具
Fuller 管理员 发表于 2024-1-21 12:01:02 | 显示全部楼层
明镜翼 发表于 2024-1-20 23:03
您好,昨天采集微博主页功能增加了时间限制后,有很多数据就采集不到了,转发的微博也不会显示转评赞等相关 ...

你是不是在博主主页上设置了搜索条件,选择时间段,然后把得到的网址拷贝下来,放到微博博主主页采集工具中进行采集?

自从微博博主主页改成瀑布流样式以后,没有翻页页码就只能从头采集。如果设置采集条件,看到的内容都是精选的,就像下图一样,能采集到的很少:
博主主页21115706.png

如果想采集全,可以看下面这个帖子,采集cn端网页,但是要自己构造网址,而且要用快捷采集中的另一个采集工具,具体看帖子:https://www.gooseeker.com/doc/thread-19580-1-1.html
举报 使用道具
胡尔摩斯 初级会员 发表于 2024-2-14 13:37:12 | 显示全部楼层
没有博主的粉丝数量
举报 使用道具
Fuller 管理员 发表于 2024-2-14 16:03:49 | 显示全部楼层
胡尔摩斯 发表于 2024-2-14 13:37
没有博主的粉丝数量

你所使用的微博采集工具是哪一个?博主详细资料采集吗?你要采集的微博网址是什么?发出来几个我测试一下
举报 使用道具
胡尔摩斯 初级会员 发表于 2024-2-17 02:40:36 | 显示全部楼层
Fuller 发表于 2024-2-14 16:03
你所使用的微博采集工具是哪一个?博主详细资料采集吗?你要采集的微博网址是什么?发出来几个我测试一下 ...

是话题广场搜索的那一个
举报 使用道具
gz51837844 管理员 发表于 2024-2-17 10:50:31 | 显示全部楼层
胡尔摩斯 发表于 2024-2-17 02:40
是话题广场搜索的那一个

在话题搜索结果页面可以采集到:该话题的”今日阅读数“和”今日讨论数“,以及每篇博文的博主,博主id,博主主页网址,博主头像,博文,博文独立网址,发布时间,发布终端,转发数,评论数,点赞数等字段,但是由于话题搜索结果页面没有显示每篇博文的博主粉丝数,所以这个话题工具没有采集该数据项。 QQ截图20240217104706.png


可以把导出的excel表里“博主主页”字段的网址,添加到这个微博工具:微博博主详细资料采集工具


这个工具会采集每个博主的更多信息,包括该博主的粉丝数。
QQ截图20240217105014.png
举报 使用道具
劉柒柒 新手上路 发表于 2024-3-4 14:12:29 | 显示全部楼层
博主的粉丝数据采集不全怎么弄?
举报 使用道具
劉柒柒 新手上路 发表于 2024-3-4 14:13:52 | 显示全部楼层
采集到的数据跟给出的“粉丝资料示例数据”不一样
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-27 05:52