关于LDA的一些思考

xiaoxiao2021-02-28  131

问1:LDA生成一个文档的过程是什么样的? 答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α) 2)对于文档d中每个位置i对应的单词,按如下方式生成 2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d) 2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β) 3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)    问2:LDA怎样使用吉布斯采样进行模型训练? 答2:1)随机初始化:对文档中每个词w,随机分配topic编号z 2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新 3)重复以上采样过程,直到吉布斯采样收敛 4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型 问3:LDA怎样使用吉布斯采样进行模型预测? 答3:1)随机初始化:对文档中每个词w,随机分配topic编号z 2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新 3)重复以上采样过程,直到吉布斯采样收敛 4)统计文档的topic分布 5)注:模型与测试topic-word共现频率矩阵不更新 问4:LDA中吉布斯采样公式是什么? 答4:1)参数α为向量,对应每个topic的值为α_k 2)参数β为向量,对应每个词的值为β_t 3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词) 4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词) 5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
转载请注明原文地址: https://www.6miu.com/read-59052.html

最新回复(0)