推荐系统之协同过滤计算用户相似度

基于用户的协同过滤算法是推荐系统中最古老的算法,协同过滤,从字面上理解,就是分析用户行为之间的关系,对特定用户进行推荐.

用户行为数据有很多,大概可以分为这么几类：浏览、点击、购买、评分、评论、分享等等。

本文使用MovieLens的1M数据集,这里计算用户相似度只用到了数据ratings.data.

为了方便处理,本文已经将user.data转换为user.csv,这份数据集可以点击这里下载

ratings.csv Download

我们使用余弦相似度来计算两个用户观看电影相似度之间的差距的,下面两张图片给出了二维向量余弦相似度的计算方法.

计算两个用户的相似度,除了余弦相似度,还可以使用以下方法:

欧氏距离
曼哈顿距离
切比雪夫距离
皮尔森系数
杰夫德距离

用Python代码实现这个功能:

def distance(target_movies, movies):
    """
    :param target_movies: 表示用户A有评分数据的电影
    :param movies: 表示用户B有评分数据的电影
    :return: 表示两个用户之间的距离
    """
    # 求交集
    union_len = len(set(target_movies) & set(movies))
    if union_len == 0:
        return 0.0
    product = len(target_movies) * len(movies)
    cosine = union_len / math.sqrt(product)
    return cosine

接下来我们遍历所有用户的电影评分记录,计算第1个用户与其他用户之间的相似度,并根据相似度进行排序.

def _get_top_n_users(csvpath, target_user_id, top_n):
    frame = pd.read_csv(csvpath)  
    target_movies = frame[frame['UserID'] == target_user_id]['MovieID']
    other_users_id = [i for i in set(frame['UserID']) if i != target_user_id]
    other_movies = [frame[self.frame['UserID'] == i]['MovieID'] for i in other_users_id]
    sim_list = [distance(target_movies, movies) for movies in other_movies]
    sim_list = sorted(zip(other_users_id, sim_list), key=lambda x: x[1], reverse=True)
    return sim_list[:top_n]

我们指定target_user_id为1,top_n为10,即计算所有用户中与user_id为1的用户最相似的十个用户.