时间:2017年5月 出处:http://blog.csdn.net/csearch/article/details/71242934 声明:版权所有,转载请联系作者并注明出
推荐系统通常需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。
推荐冷启动问题主要分为以下3类:
用户冷启动主要解决如何给新用户做个性化推荐的问题,因为新用户历史行为记录非常稀少而产生的。
物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
系统冷启动主要解决如何在一个新开发的网站上设计个性化推荐系统。
利用用户注册时提供的年龄、性别等数据做粗粒度的个性化。 * 通常情况下,包括用户的年龄、性别、职业、名族、学历和居住地等,这些信息有的可以通过注册获得一部分。 * 对于缺失的部分可以考虑建立分类模型来进行预测。例如性别等标签可以单独建立分类模型。
有一些网站会让用户用文字描述他们的兴趣。具体的产品形式, * 比如在注册初始阶段,引导用户选择他们感兴趣的标签,比如豆瓣类的阅读网站。 * 比如在登录时对一些物品进行反馈,收集用户对这些物品的兴趣信息,然后给用户推荐那些和这些物品相似的物品。
非个性化推荐的最简单的例子就是热门排行榜,等到用户数据收集到一定的时候,再切换为个性化推荐。
对于移动端用户而言,可以考虑初始LBS位置;对于PC/M相关的,可以从IP来考虑获取其LBS信息,当然,基于IP会有一定的误伤。
对于新加入的物品,可以利用内容信息,将它们推荐给喜欢过和它们相似的物品的用户。 * 物品冷启动需要解决的问题是如何将新加入的物品推荐给它感兴趣的用户。 * UserCF算法对物品冷启动问题并不敏感。但是ItemCF对物品冷启动问题非常敏感。 * 一般来说,物品的内容可以通过向量空间模型,通过对物品内容的文本描述进行相似度计算和分析,如word2vec和doc2vec。
解决用户冷启动问题的另一个方法是在新用户第一次访问推荐系统时,不立即给用户展示推荐结果,而是给用户提供一些物品。 让用户反馈他们对这些物品的兴趣,然后根据用户反馈给提供个性化推荐。 * 比较热门 * 具有代表性和区分性 * 启动物品集合需要有多样性
有时候,为了获得更丰富的用户行为数据,可以考虑从其他网站导入的用户站外行为数据。比如用户通过豆瓣、新浪微博等账户登录,在用户同意的情况下可以获取一些行为数据。 也有通过某些主键去进行关联,比如用户手机号等,去第三方获取关联的相关标签。 利用用户的社交网络账户登录(需要授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品。
