我查了一下, TF-IDF是词频-逆文档频率, 是不是就是分词后的词频统计?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-6-16 14:59

内容分析应用 金牌会员 发表于 2021-6-16 09:37:26 | 显示全部楼层
词频(Term Frequency,TF)指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。
逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现,表示更能代表文件的主旨,它的权重也就越大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小。

TF-IDF的主要思想是,如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比。
举报 使用道具
马涌河畔 金牌会员 发表于 2021-6-16 09:47:09 | 显示全部楼层
我在知网上查到一篇基于TF-IDF和LDA对微博热点话题进行分析的文章:基于中心词和LDA的微博热点话题发现研究

这个研究以微博热点数据为研究对象, 进行文本表示学习, 将基于Bert和Word2Vec的模型设为实验组, 基于TF-IDF和BOW的模型设为对照组,令实验组和对照组分别生成改进LDA模型和传统LDA模型。通过对比传统LDA模型和改进LDA模型, 发现改进方法所生成的LDA模型在高频词分布集中度上更优于传统方法, 在下游任务应用中更适合热点话题生成。

举报 使用道具
Fuller 管理员 发表于 2021-6-16 11:09:55 | 显示全部楼层
马涌河畔 发表于 2021-6-16 09:47
我在知网上查到一篇基于TF-IDF和LDA对微博热点话题进行分析的文章:基于中心词和LDA的微博热点话题发现研究 ...

BOW模型是什么?
举报 使用道具
内容分析应用 金牌会员 发表于 2021-6-16 14:59:29 | 显示全部楼层
本帖最后由 内容分析应用 于 2021-6-16 15:02 编辑
Fuller 发表于 2021-6-16 11:09
BOW模型是什么?

BOW, 词袋, 应该就是把文章当作一个装了很多个词的袋子, 不管里面的词的顺序。
通过统计袋子中各个词出现的次数判断该文章在描述什么


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:13