
DataWhale
小珈猫
这个作者很懒,什么都没留下…
展开
-
Numpy下 5
# 数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris Versicolour,Iris Virginica。# 每类收集了50个样本,因此这个数据集一共包含了150个样本。# sepallength:萼片长度# sepalwidth:萼片宽度# petallength:花瓣长度# petalwidth:花瓣宽度import numpy as np# from sklearn.datasets import load_iris# data = load_iris()#原创 2020-12-01 19:29:41 · 108 阅读 · 0 评论 -
【Datawhale】Numpy2
numpy.random 模块对 Python 内置的 random 进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数,如正态分布、泊松分布等。numpy.random.seed(seed=None) Seed the generator.seed() 用于指定随机数生成时所用算法开始的整数值,如果使用相同的 seed() 值,则每次生成的随机数都相同,如果不设置这个值,则系统根据时间来自己选择这个值,此时每次生成的随机数因时间差异而不同。在对数据进行预处理时,经常加入新的操作或改变处原创 2020-11-25 20:52:03 · 136 阅读 · 0 评论 -
【DataWhale】推荐系统
赛题理解赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型, 在各种比赛中, 赛题理解都是极其重要且必须走好的第一步, 今天我们就从赛题的理解出发, 首先了解一下这次赛题的概况和数据,从中分析赛题以及大致的处理方式, 其次我们了解模型评测的指标,最后对赛题的理解整理一些经验。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为背景,原创 2020-11-25 20:49:32 · 196 阅读 · 0 评论 -
【DataWhale】推荐系统简介
一、简介What用户:推荐系统是一种帮助用户快速发现有用信息的工具;公司:推荐系统是一种增加公司产品与用户接触,购买等行为概率的工具。Why用户:更多地利用用户的各类历史信息猜测其可能喜欢的内容;公司:最大限度吸引、留存用户,增长用户粘性,提高用户转化率,从而使商业目标连续增长。 实现将用户-商品-公司之间利益最大化。Who 从上面的1和2可以看出用户与公司是需要推荐系统的主要对象,那么可以在1和2的基础上展开想想什么样子的人需要推荐系统,以及什么样的公司需要推荐系原创 2020-10-19 21:09:43 · 475 阅读 · 1 评论 -
【Datawahle】Numpy下-输入输出
numpy 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型(npy、npz)保存和读取数据,这三个函数会自动处理ndim、dtype、shape等信息,使用它们读写数组非常方便,但是save()输出的文件很难与其它语言编写的程序兼容。npy格式:以二进制的方式存储文件,在二进制文件第一行以文本形式保存了数据的元信息(ndim,dtype,shape等),可以用二进制工具查看内容。npz格式:以压缩打包的方式存储文件,可以用压缩软件解压。numpy.save(原创 2020-11-23 19:24:04 · 169 阅读 · 0 评论 -
【DataWhale学习】图像检索
从文字进行检索:TBIR从内容检索:CBIRCBIR应用场景:拍照购,服装检索,人脸识别,内容审核检索的本质:特征提取和相似度计算流程图如下:图像检索特征:如果图像相似,则图像特征也相似局部特征:关键点:比如角点,数控不一全局特征:图像整体的统计信息局部特征:关注局部信息,比如sift特征点优点:尺度不变性缺点:提取的数量不固定,而且容易受到文字的影响全局特征:全局信息,比如颜色直方图或者CNN特征优点:关注全局信息,而且特征维度固定缺点:对尺度变化敏感图像检索的类别:比原创 2020-11-16 17:51:04 · 201 阅读 · 0 评论 -
【Datawhale】推荐系统GBDT+LR
GBDT+LR简介前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。 而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型, 该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预测结果, 该模型能够综合利用用户、物品和上下文等多种不同的特征, 生成较为全面的推荐结果, 在CTR点击率预估场景下使用较.原创 2020-10-30 15:52:38 · 1041 阅读 · 1 评论 -
【Datawhale】推荐系统-Wide & Deep
点击率预估是对每次广告点击情况作出预测,可以输出点击或者不点击,也可以输出该次点击的概率,后者有时候也称为pClick.对于点击率预估模型而言,其最终作用是输出点击的一个概率,是一个回归模型可以解决[[FM模型]]的一些问题如泛化能力过强导致会推荐一些其实并没有那么相关的物品。Wide & Deep 模型的记忆能力和泛化能力对于RS而言,memorization和generalization是两个常见的概念,其中memorization代表推荐系统的保守性,即RS通过记忆为用户推荐之前行为的i原创 2020-10-27 20:07:05 · 281 阅读 · 0 评论 -
【Datawhale】推荐系统-矩阵分解和FM
一、矩阵分解矩阵分解模型是在协同过滤共现矩阵的基础上, 使用更稠密的隐向量表示用户和物品,挖掘用户和物品的隐含兴趣和隐含特征, 在一定程度上弥补协同过滤模型处理稀疏矩阵能力不足的问题。它的核心思想是通过隐含特征(latent factor)联系用户兴趣和物品(item), 基于用户的行为找出潜在的主题和分类, 然后对item进行自动聚类,划分到不同类别/主题(用户的兴趣)。我们下面拿一个音乐评分的例子来具体看一下隐特征矩阵的含义。假设每个用户都有自己的听歌偏好, 比如A喜欢带有小清新的, 吉他伴奏的原创 2020-10-25 20:52:08 · 182 阅读 · 0 评论 -
【DataWhale】numpy组队学习(三)
更改形状在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。通过修改 shap 属性来改变数组的形状。 import numpy as np x = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.shape) # (8,)x.shape = [2, 4]print(x)# [[1 2 9 4]# [5 6 7原创 2020-10-25 20:37:04 · 106 阅读 · 0 评论 -
【Datawhale】numpy学习-数据类型及数组创建
常量numpy.nan:表示空值。nan = NaN = NAN,两个numpy.nan是不相等的。numpy.isnan(x, *args, **kwargs) Test element-wise for NaN and return result as a boolean array.numpy.inf:表示正无穷大。numpy.pi:表示圆周率numpy.e:表示自然常数数据类型常见数据类型:Python 原生的数据类型相对较少, bool、int、float、str等。这在不需要关心原创 2020-10-19 15:59:50 · 548 阅读 · 0 评论 -
【Datawhale】零基础入门金融风控(三)特征工程
学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import原创 2020-09-21 20:07:36 · 286 阅读 · 0 评论 -
【Datawhale】零基础入门金融风控(二)数据分析
导入数据分析及可视化过程需要的库:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')读取文件data_train = pd.read_csv('./train.csv')data_test_a = pd.read_csv('./test原创 2020-09-18 22:55:09 · 393 阅读 · 0 评论 -
【Datawhale】零基础入门金融风控(一)
内容比赛地址数据流程分类算法常见的评估指标代码示例比赛地址https://tianchi.aliyun.com/competition/entrance/531830/introduction数据该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。提交结果原创 2020-09-15 20:16:48 · 448 阅读 · 0 评论 -
【Datawhale】之LeetCode分类练习(查找2)
两数之和class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: nums=list(enumerate(nums)) nums.sort(key=lambda x:x[1]) l,r=0,len(nums)-1 while l<r: if nums[l][1]+nums[r][1]==target:原创 2020-08-28 18:14:20 · 151 阅读 · 0 评论 -
【DataWhale】之动手学数据分析(五)
建模1.建模标准①处理完前面的数据我们就得到建模数据,下一步是选择合适模型。②在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习。③模型的选择一方面是通过我们的任务来决定的。④除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定。⑤刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型。模型创建①创建基于线性模型的分类模型(逻辑回归)。②创建基于树的分类模型(决策树、随机森林)。原创 2020-08-28 17:26:56 · 137 阅读 · 0 评论 -
【DataWhale】之动手学数据分析(四)
导入numpy、pandas包和数据# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 导入result.csv这个文件text=pd.read_csv('C:/Users/unit2/data/result.csv')t原创 2020-08-26 10:34:02 · 231 阅读 · 0 评论 -
【Datawhale】之LeetCode分类练习(查找)
搜索插入位置题目给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。你可以假设数组中无重复元素。代码class Solution: def searchInsert(self, nums: List[int], target: int) -> int: start,end=0,len(nums) while start < end: mid = (st.原创 2020-08-26 10:19:47 · 204 阅读 · 0 评论 -
【Datawhale】之LeetCode分类练习(动态规划)
动态规划动态规划常常用于有重叠子问题和最优子结构性质的问题,动态规划方法所消耗时间往往远少于朴素解法。主要思想如果要解决一个给定问题,我们需要解其不同部分,即子问题,再根据子问题的解得出原问题的解。动态规划往往用于优化递归问题,例如斐波那契数列,如果运用递归的方式来求解回重复计算很多相同的子问题,利用动态规划思想可以减少计算量。动态规划仅仅解决每个子问题一次,具有天然剪枝的功能,从而减少计算量。一旦某个给定子问题的解已经解出,则将其记忆化存储下来,便于下次需要同一个子问题解之时直接查表。动态规划原创 2020-08-23 18:35:49 · 159 阅读 · 0 评论 -
【DataWhale】之动手学数据分析(三)
import numpy as npimport pandas as pdtext_left_up= pd.read_csv('D:\\pythondata\\train-left-up.csv')text_left_down= pd.read_csv('D:\\pythondata\\train-left-down.csv')text_right_up= pd.read_csv('D:\\pythondata\\train-right-up.csv')text_right_down= pd.r原创 2020-08-23 18:28:08 · 124 阅读 · 0 评论 -
【DataWhale】之动手学数据分析(二)
# 加载所需的库import numpy as npimport pandas as pdfrom matplotlib import pyplot as plt# 核心代码,设置显示的最大列、宽等参数,消掉打印不完全中间的省略号pd.set_option('display.max_columns', 1000)pd.set_option('display.width', 1000)pd.set_option('display.max_colwidth', 1000)# 加载数据集df原创 2020-08-21 22:45:36 · 135 阅读 · 0 评论 -
【DataWhale】之动手学数据分析(一)
任务一:载入数据import numpy as npimport pandas as pd此处使用绝对路径加载数据df=pd.read_csv('D:\\anacode\\shuju//train.csv')df.head()遇到的问题:使用python3时,调用pandas的read_csv()方法时,默认使用C engine作为parser engine 而当文件名中包含中文时,就会报错,所以将engine为python就可以解决问题了##每1000行为一个数据模块,逐行读取chu原创 2020-08-19 20:40:18 · 314 阅读 · 0 评论 -
【Datawhale】之LeetCode分类练习(分治)
分治介绍主要思想分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。分治算法的步骤分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题);治:将这些规模更小的子问题逐个击破;合:将已解决的子问题逐层合并,最终得出原问题的解;分治法适用的情况原问题的计算复杂度随着问题的规模的增加而增加。原问题能够被分解成更小的子问题。子问题的结构和性质与原问题一原创 2020-08-19 19:41:02 · 225 阅读 · 0 评论