意图识别

xiaoxiao2021-03-01 61

【1】背景/术语：

Search_Session:用户与搜索引擎的一次完整的过程。信息包括：Query、Title、如果用户在Session期间变换了查询词，后续的搜索和点击均会被记录，直到脱离搜索。理解：一个样本即Query和点击的Title

【2】Query的意图识别和传统的文本分类问题有如下区别：

类别不完全互斥，即多标签。eg：极品飞车属于游戏、电影类样本分布不均衡：一、类别方面不均衡，vidio类占总比例需求很大。二、热门样本query出现频率高Query通常以短文本为主。Query通常极为精炼，特征比较稀疏。而Query有对应的点击Title，充分挖掘两类文本之间的关系，对效果提升有很大的帮助。一些关系网：不同Query点击了相同的Title、相同Query点击了不同title

【3】特征提取：

文本特征提取（预先采用了分词工具分词）

因为分词不一定准确，改进：统计分词后word前后word的分布概率，通过P(pre_word|word)等合并成词概率高的词Ngram特征： double padding Tri-gram：加入句首和句尾结构信息选择只在某一类出现的词（Title/Query：百度经验）TF-IDF强化Query尾部和头部对权重：经验分类中Query：怎么，如何。

统计特征提取：

Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法

关系对利用：

Query和Title关系：宏观：相同对Query对应Title进行合并，将合并的title作为特征补充/协同过滤推荐类别（基于相似性的方法分类）微观：提取Query、Title公共子串 Query间的关系： Session中，Query变换的部分Diff部分强烈表达意图相关Query集合共现的部分，将相似Query信息作为该Query特征补充生成Query的Family Tree（根据Query的包含关系），Query的亲属作为特征补充 title间的关系：类似Query间特征的处理

语义特征提取

LDA

转载请注明原文地址: https://www.6miu.com/read-3450291.html

技术

最新回复(0)