您的当前位置:首页正文

[Topic Model]LDA (Latent Dirich

来源:华拓网

模型

  • 用途:可以用于文本聚类。
  • 特点 :是一个生成模型,是概率图模型,属于贝叶斯学派将模型参数看成是一个分布,而不是一固定的值,那么就使用EM算法进行求解,而不是极大似然法。
  • 为什么叫狄利克雷:因为从单词表中的抽取单词和从topic表中抽取topic都是一个多项式分布,而狄利克雷分布可以通过指定相应的超参数生成相应的多项式分布,超参数可以是我们的先验知识,所以LDA是属于贝叶斯学派,但是在实际使用的时候为了方便我们并没有加入先验知识,即所有超参数的设置都是一样的,这也是贝叶斯学派被人诟病的原因,命名说是为了加入先验知识,但是实际使用的时候却没有加。
    LDA
    LDA

求解:

  • 优化的目标:就是产生一组参数使得生成出我们观测到数据(一大堆文档)的概率最大,
  • 优化算法:EM算法。


    image.png
    image.png