
数据分析与机器学习实战
skyHdd
deep work,simple life
展开
-
类别不均衡(目标变量)
查看数据比例from collections import Counter# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42原创 2020-07-09 22:21:02 · 1504 阅读 · 0 评论 -
用户增长理解
用户增长公司:专用名词:1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期:4、PMF 市场匹配:5、增长黑客AARRR:6、MVP(最小可行性产品):思考:1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP:花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司:一定要先找到PMF2、爆发期公司怎么做? 满足黑客增长模型AARRR模型,多融资,傍巨头3、成熟期公司应该怎么做?公司:初创公司爆发型公司成原创 2020-06-01 06:44:03 · 1058 阅读 · 0 评论 -
Pandas DataFrame 分组求和、分组乘积
import numpy as npimport pandas as pdpd.set_option('display.max_columns', 10)# 删除空数据def DropNan(data_qd): for i in range(len(data_qd)): if np.isnan(data_qd['test_uniq_cnt'][i]) or \ np.isnan(data_qd['fail_uniq_cnt'][i]):原创 2020-05-25 20:42:48 · 4955 阅读 · 0 评论 -
数据挖掘 模型的衡量标准与建模
模型的衡量标准一、模型的衡量标准1、generating a good model准确性Accurate稳定性stable推广性general2、Ease of Use 是否好用generate a fitmeasure accuracymake predictionsswitch algorithmshare results3、Feature selectionuncorelated predi...原创 2020-04-27 19:20:02 · 1065 阅读 · 1 评论 -
pandas 细节总结
pandas 细节总结1、pandas option设置2、快速统计信息和数据类型 df.describe().T 、 df.info()3、多列排序 data.sort_values()4、去重复4.1、全部列去重复 data.drop_duplicates()4.2、某一列去重复 data.drop_duplicates(subset = '列标签')5、基于其他列创建一个新列M1:添加修改列...原创 2020-04-22 22:49:49 · 1134 阅读 · 1 评论 -
pycharts 数据分析与数据可视化
pycharts 数据可视化特性pycharts库安装调用快速画图进阶Echarts 是一个由百度开源的数据可视化。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。特性简洁的 API 设计,使用如丝滑般流畅,支持链式调用;囊括了 30+ 种常见图表,应有尽有;支持主流 Notebook 环境,Jupyter Note...原创 2020-04-19 17:23:37 · 1300 阅读 · 0 评论 -
python 数据画图
python 数据画图1、matplotlib2、seaborn3、echarts前端1、matplotlibimport matplotlib.pyplot as pltmatplotlib学习:matplotlib官网链接:https://matplotlib.org/2、seabornimport seaborn as snsseaborn 学习:seanborn-galle...原创 2020-04-17 21:14:30 · 635 阅读 · 0 评论 -
【利用Python进行数据分析】13 - Python建模库介绍
第十三章 Python建模库介绍1、pandas与模型代码的接口2、用Patsy创建模型描述2.1、Patsy创建模型设计矩阵2.2、用Patsy公式进行数据转换2.3、分类数据和Patsy主要内容:pandas数据规整和模型拟合和评分介绍两个流行的建模工具,statsmodels和scikit-learn。1、pandas与模型代码的接口模型开发的通常工作流是使用pandas进行数据加...原创 2020-04-08 20:55:40 · 1197 阅读 · 1 评论 -
【利用Python进行数据分析】12 - pandas高级应用
第12章 pandas高级应用1、分类数据1.1、pandas处理重复值常见函数1.2、分类编码 series_str.take(values)1.3、pandas的分类类型1.4、用分类进行计算 (pd.Series(draws).groupby(bins).agg(['count', 'min', 'max']).reset_index())1.5、用分类提高性能1.6、分类方法1.7、为建模...原创 2020-04-07 20:34:22 · 357 阅读 · 1 评论 -
【利用Python进行数据分析】11 - 时间序列
这里写目录标题日期和时间数据类型及工具字符串和datetime的相互转换dateframe转字符串字符串转日期格式时间序列(time series)数据是一种重要的结构化数据形式,时间序列数据主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或2010年全年。时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被...原创 2020-04-02 22:47:04 · 637 阅读 · 1 评论 -
【利用Python进行数据分析】6-数据加载、存储与文件格式
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1、读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结。pandas读取数据表6-1 pandas中的解析函数这些函数的选项可以划分为以下几个大类:索引:将一个或多个列当做返回的D...原创 2020-03-02 19:35:08 · 428 阅读 · 1 评论 -
【利用Python进行数据分析】4 NumPy基础
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...原创 2020-03-01 12:05:23 · 3203 阅读 · 1 评论 -
【利用Python进行数据分析】5 - pandas入门
pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格,但二者最大的不同是pa...原创 2020-02-25 20:22:07 · 1176 阅读 · 1 评论 -
【利用Python进行数据分析】3-Python的数据结构、函数和文件
一、数据结构和序列1.1、元组1.1.1、定义元组元组是一个固定长度,不可改变的Python序列对象,创建元组的最简单方式,是用逗号分隔一列值。当用复杂的表达式定义元组,最好将值放到圆括号内。tup1 = 1,2,3 #(1,2,3)tup2 = (1,2),(3,4,5),(6,7,8,9,10) #((1,2),(3,4,5),(6,7,8,9,10))用tuple可以将任意序...原创 2020-02-17 19:19:21 · 553 阅读 · 1 评论 -
【利用Python进行数据分析】2 -Python语法基础、IPython和Jupyter Notebooks
Python解释器Python是解释性语言。Python解释器同一时间只能运行一个程序的一条语句。标准的交互Python解释器可以在命令行中通过键入python命令打开。提示输入代码。要退出Python解释器返回终端,可以输入exit()或按Ctrl-D。运行Python程序只需调用Python的同时,使用一个.py文件作为它的第一个参数。假设创建了一个hello_world.py文件,可以...原创 2020-02-16 15:42:01 · 1032 阅读 · 1 评论 -
【利用Python进行数据分析】1 - python介绍、安装与设置
结构化数据结构化数据(structured data),这个术语代指了所有通用格式的数据,例如:表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。多维数组(矩阵)。通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。间隔平均或不平均的时间序列。这绝不是一个完整的列表。大部分数据集都能被...原创 2020-02-15 20:21:38 · 520 阅读 · 1 评论 -
【利用Python进行数据分析】10 数据聚合与分组计算
对数据集进行分组并对各组应用一个函数,是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,实现对数据集进行切片、切块、摘要等操作。使用一个或多个键(形式可以是函数、数组或DataFrame列名)分割pandas对象。计算分组的概述统计,比如数量、平均值或标准差,或是用户定义的函数。应用组内转换或...原创 2020-02-13 22:34:10 · 2225 阅读 · 1 评论 -
【T-Tensorflow框架学习】基于Tensorflow构造基础线性回归模型
基于Tensorflow构造基础线性回归模型'''Creat by HuangDandandandanhuang@sjtu.edu.cn2018-08-26构造基础线性回归模型'''#构造线性回归的模型import numpy as npimport tensorflow as tfimport matplotlib.pyplot as plt#随机生成1000个点,围...原创 2018-08-28 22:35:15 · 219 阅读 · 0 评论 -
【A-006】python数据分析与机器学习实战-线性回归算法原理推导
线性回归算法原理推导线性回归注意回归与分类问题的差别。回归的结果是一个完整的值,分类是是与否的问题。 特征值是怎么影响结果的。先进行一个假设,假设参数,参数反应的是数据对结果的影响,也称为权重系数,对最后的结果产生较大的影响。参数和数据进行组合最终拟合出一个平面。偏置项和数据没有关系,对最后的结果产生较小的影响。对偏置项进行组合,使得原式保持不变,因此引入X0 参数,全部等于1。这也是...原创 2018-08-28 14:46:19 · 763 阅读 · 1 评论 -
【A-1】CNN与常用框架
DNN 是深度神经网络,是一种统称 神经网络不需要提取特征,在前向传播当中,学习权重,完成直线之间的且操作和或操作 神经强大的原因在于: 不需要你手动提取特征,表征其在样本空间中的分布,神经网络可以自动学习它的空间分布,不管样本分布在那个角落和区域CNN 卷积神经网络 在图像中特别强大RGB在CNN中不需要提取特征,惹事直接输入RGB像素点参数。 归一化的目的是将数据在某一范围内...原创 2018-08-28 11:16:04 · 1025 阅读 · 1 评论 -
【A-002】python数据分析与机器学习实战-Python科学计算库-Numpy科学计算库
写在前面: 我们都知道数据整理成矩阵的形式,方便处理。Numpy是一个矩阵运算的数据库,也可以用作其他的用途'''Creat by HuangDandandandanhuang@sjtu.edu.cn2018-08-26'''import numpy as np##1-查看某一个函数的用法 print (help(numpy.函数名称))#print(help(np.sh...原创 2018-08-26 23:42:45 · 320 阅读 · 0 评论