
数据挖掘
yftadyz
毕业于浙江大学数学系,专注于机器学习、深度学习领域,希望使用机器学习、深度学习算法解决实际生产应用问题。
展开
-
Pandas使用技巧之groupby+apply/agg
目录背景数据groupby+applygroupby+agg总结背景分组计算指标是使用pandas进行数据分析的常用操作,今天分享一下groupby+apply/agg这套组合拳的用法。数据数据是学生id和周末参加的辅导班名称:df=pd.DataFrame({‘id’:[1,1,2,2,1,1,1],‘class’:[‘a’,‘a’,‘c’,‘c’,‘b’,‘b’,‘b’]})groupby+apply现在想统计每个id参加的class个数(剔除重复),那么我们就可以使用groupby+a原创 2021-04-11 11:24:29 · 3449 阅读 · 0 评论 -
Python统计分析可视化库seaborn(相关性图,变量分布图,箱线图等等)
转一篇介绍python的seaborn的文章,里面展现了很多的例子,总有一款适合你!https://www.cnblogs.com/caiyishuai/p/11184166.html原创 2021-03-22 14:51:48 · 558 阅读 · 0 评论 -
集群环境下的机器学习建模pipeline
一般大公司的数据中心都是集群环境,数据放在hdfs上,通过数仓进行管理,访问数仓的工具一般是hive。所以在这种环境下搭建机器学习流水线,可以分为以下几步:1、从hive中获得模型输入2、模型预测3、将预测结果写入本地文件系统4、从本地文件系统将数据写入hive表供下游调用import osimport pandas as pdimport subprocessos.chdir('your_path')#read data from hivecmd=shell_commandds=o原创 2020-10-14 08:50:11 · 262 阅读 · 0 评论 -
生成对角矩阵 numpy.diag
给定对角线上元素,我想生成对角矩阵,在网上搜了一下,竟然都是numpy.diagonal。这个函数的作用是提取给定矩阵的对角元素,当然不是我想要的。后来发现numpy.diag才是生成对角矩阵的函数,所以写此文章记录之。import numpy as npa=[1,2,3]np.diag(a)Out[4]: array([[1, 0, 0], [0, 2, 0], [0, 0, 3]])...原创 2020-10-08 08:31:38 · 36200 阅读 · 2 评论 -
机器学习评估指标AUC与Precision、Recall、F1之间的关系
目录数学推导实验说明实验一实验二实验代码AUC、 Precision、Recall、F1等都是机器学习中常用的模型评估指标,本文通过数学推导和实验结果探讨AUC与Precision、Recall、F1等的关系。数学推导假设r为recall,p为precision,预测阈值为0.5,TP、TN、FP、FN如下图所示:假设一共有N个样本,正负样本各一半,当正负样本比例不是1:1时,下面的推导过程也适用。首先,使用r和p表示TP、TN、FP、FN,公式如下:TP=N2⋅rTP = \frac{N}{原创 2020-08-18 01:15:12 · 7248 阅读 · 0 评论 -
数据预处理之标准化和归一化的区别
标准化是这个:原创 2020-07-13 09:24:21 · 562 阅读 · 0 评论