推荐系统入门（六）：新闻推荐实践1（附代码）

最新推荐文章于 2025-03-22 12:10:40 发布

南有芙蕖

最新推荐文章于 2025-03-22 12:10:40 发布

阅读量3.7k

点赞数 6

分类专栏： NLP 文章标签： python 大数据自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/weixin_42691585/article/details/110095168

版权

推荐系统入门（六）：新闻推荐实践1

前言

移动联通互联网、人工智能等技术的迅速发展为人们的工作生活带来了很多便利，但是同时也带来了信息过载问题。搜索引擎和推荐系统是解决信息过载的代表技术。传统的搜索引擎在本质上来讲是帮助用户过滤和筛选信息，这种方式满足了大多数人的需求，但没有提供个性化的服务。相对于传统搜索引擎来说，推荐系统可以兼顾个性化需求和解决信息过载问题。推荐系统是信息过滤系统的一个子集，目的在于根据用户的喜好、习惯、个性化需求以及商品的特性来预测用户对商品的喜好，为用户推荐最合适的商品，帮助用户快速地做出决策，提高用户满意度。推荐系统的价值在于能够提供尽量合适的选择或者是推荐而不需要用户明确提供他们所想要的内容。随着大数据时代的到来，传统推荐系统在挖掘数据价值上存在的问题正在限制其性能发挥。知识图谱的出现为大数据环境下的推荐系统设计提供了一种有效途径。
目前，推荐系统已经成为产业界和学术界关注、研究的热点问题，应用领域十分广泛，在电子商务、社交网络、视频音乐推荐等领域都有所应用。例如亚马逊网站、京东、淘宝网站为用户推荐商品，MovieLens推荐电影的功能等。

赛题简介

此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为背景，目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为，即用户的最后一次点击的新闻文章，这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景，解决实际问题。

数据概况

该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B。

数据表

train_click_log.csv：训练集用户点击日志
testA_click_log.csv：测试集用户点击日志
articles.csv：新闻文章信息数据表
articles_emb.csv：新闻文章embedding向量表示
sample_submit.csv：提交样例文件

字段表

Field	Description
user_id	用户id
click_article_id	点击文章id
click_timestamp	点击时间戳
click_environment	点击环境
click_deviceGroup	点击设备组
click_os	点击操作系统
click_country	点击城市
click_region	点击地区
click_referrer_type	点击来源类型
article_id	文章id，与click_article_id相对应
category_id	文章类型id
created_at_ts	文章创建时间戳
words_count	文章字数
emb_1,emb_2,…,emb_249	文章embedding向量表示

评价方式理解

理解评价方式，我们需要结合着最后的提交文件来看，根据sample_submit.csv，我们最后提交的格式是针对每个用户，我们都会给出五篇文章的推荐结果，按照点击概率从前往后排序。而真实的每个用户最后一次点击的文章只会有一篇的真实答案，所以我们就看我们推荐的这五篇里面是否有命中真实答案的。比如对于user1来说，我们的提交会是：

user1,article1,article2,article3,article4,article5.

评价指标的公式如下：

在这里插入图片描述
假如article1就是真实的用户点击文章，也就是article1命中，则s(user1,1)=1,s(user1,2-4)都是0，如果article2是用户点击的文章，则s(user,2)=1/2,s(user,1,3,4,5)都是0。也就是score(user)=命中第几条的倒数。如果都没中，则score(user1)=0。这个是合理的，因为我们希望的就是命中的结果尽量靠前，而此时分数正好比较高。

Baseline

# 导包
# import packages
import time, math, os

import collections
from tqdm import tqdm
import gc
import pickle
import random
from datetime import datetime
from operator import itemgetter
import numpy as np
import pandas as pd
import warnings
from collections import defaultdict

warnings.filterwarnings('ignore')
data_path = './data/'
save_path = './result/'

# df节省内存函数
# 节约内存的一个标配函数
def reduce_mem(df):
    starttime = time.time()
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024 ** 2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if pd.isnull(c_min) or pd.isnull(c_max):
                continue
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np