自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【Task04】新闻推荐打卡学习—召回排序

【Task04】新闻推荐打卡学习—召回排序 先码后学! 通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是: LGB的排序模型 LGB

2020-12-06 20:54:06 339

原创 【Task04】组队学习新闻推荐—特征工程

特征工程(制作特征和标签, 转成监督学习问题) (最近考试太多,先码考完再扩充一下) 我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用: 文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。 文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding

2020-12-03 18:29:28 162

原创 【Task05】Numpy组队学习—大作业

载入数据 数据:(150*4) 第一题 第二题 第三题 第四题 第五题 第六题 第七题 第八题 第九题 第十题 十一题 十二题 十三题 十四题 十五题 十六题 十七题 十八题

2020-12-01 22:34:47 165

原创 【Task03】组队学习新闻推荐系统—多路召回

【Task03】组队学习新闻推荐系统—多路召回 今天的代码比较难,时间比较紧,先码后面结合录播再看看细节,只跑通了一部分,部分注释在代码中。 import pandas as pd import numpy as np from tqdm import tqdm from collections import defaultdict import os, math, warnings, math, pickle from tqdm import tqdm import faiss import collec

2020-11-30 15:55:43 215

原创 【Task04】Numpy组队学习:线性代数

【Task04】Numpy组队学习:线性代数 本文目录【Task04】Numpy组队学习:线性代数矩阵和向量积 :dot()矩阵特征值与特征向量:eig()和eigvals()矩阵分解奇异值分解:svd()QR分解:qr()Cholesky分解范数和其它数字矩阵的范数 :norm()方阵的行列式 : det()矩阵的秩:matrix_rank()矩阵的迹:trace()解方程和逆矩阵逆矩阵(inverse matrix) inv()求解线性方程组 solve() Numpy中涉及矩阵运算可用ndarray和

2020-11-29 21:29:12 158

原创 【Task02】组队学习新闻推荐—数据分析

【Task02】组队学习新闻推荐—数据分析 本次数据分析的过程 1. 数据预处理: 分别把训练集,测试集数据按时间戳排序并统计用户点击文章的次数。用到groupy()rank()transport()函数 rank()与sorted()区别 rank():返回原序列元素对应位置的序列 sorted():只是进行排序 2. 数据浏览: 训练集测试集表格: 浏览数据文件的每个字段的含义和head() 大致对数据有个整体印象 用到的函数: merge(df,how(连接方式),on(在哪个字段进行链接))(

2020-11-27 21:51:04 191

原创 【Task03】Numpy组队学习—统计相关

【Task03】Numpy组队学习—统计相关 本文目录【Task03】Numpy组队学习—统计相关次序统计计算最小值: amin()计算最大值: amax()计算极差:ptp()计算分位数:percentile均值与方差计算中位数:median()计算平均数 mean()加权平均值:average()计算方差:var()计算标准差:std()相关计算协方差矩阵:cov()计算相关系数:corrcoef()直方图:digitize()课后习题 次序统计 计算最小值: amin() numpy.amin(a[

2020-11-26 16:26:30 170

原创 【Task02】Numpy组队学习—随机抽样

【Task01】Numpy组队学习—随机抽样 随机抽样 numpy.random 模块对 Python 内置的 random 进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数,如正态分布、泊松分布等。 numpy.random.seed(seed=None) Seed the generator. seed()用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed()值,则每次生成的随机数都相同,如果不设置这个值,则系统根据时间来自己选择这个值,此时每次生成的随机数因时间差异而不同。

2020-11-25 16:16:08 798 1

原创 【task01】组队学习——新闻推荐

【task01】组队学习——新闻推荐 赛题介绍及理解 赛题: 赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题。 数据概况: 本题一共有四个数据表: train_click_log.csv: 训练集用户点击日志 testA_click_log.cs

2020-11-24 15:16:05 308

原创 numpy学习打卡

Numpy学习笔记 一(输入输出) Numpy 输入输出 numpy 二进制文件 save()、savez()和load()函数以 numpy 专用的二进制类型(npy、npz)保存和读取数据,这三个函数会自动处理ndim、dtype、shape等信息。 npy格式:以二进制方式储存文件,在二进制文件第一行储存文件基本信息。 npz格式:压缩打包的方式储存文件 numpy.save(file, arr, allow_pickle=True, fix_imports=True) numpy.load(fil

2020-11-22 10:38:12 386

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除