意图识别

xiaoxiao2021-03-01  20

【1】背景/术语:

Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title

【2】Query的意图识别和传统的文本分类问题有如下区别:

类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类样本分布不均衡:一、类别方面不均衡,vidio类占总比例需求很大。二、热门样本query出现频率高Query通常以短文本为主。Query通常极为精炼,特征比较稀疏。而Query有对应的点击Title,充分挖掘两类文本之间的关系,对效果提升有很大的帮助。一些关系网:不同Query点击了相同的Title、相同Query点击了不同title

【3】特征提取:

文本特征提取(预先采用了分词工具分词)

因为分词不一定准确,改进:统计分词后word前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词Ngram特征: double padding Tri-gram:加入句首和句尾结构信息选择只在某一类出现的词(Title/Query:百度经验)TF-IDF强化Query尾部和头部对权重:经验分类中Query:怎么,如何。

统计特征提取:

Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法

关系对利用:

Query和Title关系: 宏观:相同对Query对应Title进行合并,将合并的title作为特征补充/协同过滤推荐类别(基于相似性的方法分类)微观:提取Query、Title公共子串 Query间的关系: Session中,Query变换的部分Diff部分强烈表达意图相关Query集合共现的部分,将相似Query信息作为该Query特征补充生成Query的Family Tree(根据Query的包含关系),Query的亲属作为特征补充 title间的关系: 类似Query间特征的处理

语义特征提取

LDA

 

转载请注明原文地址: https://www.6miu.com/read-3450291.html

最新回复(0)