- 博客(145)
- 资源 (5)
- 收藏
- 关注
原创 数据分析 | 异常数据识别小结
这里写目录标题1. 定义与使用场景定义使用场景数据异常的原因2. 单变量数据异常识别2.1 简单统计量分析2.2 三倍标准差2.3 box-cox转化+3倍标准差基本介绍基本公式Box-Cox优势python 实现2.4 箱线图3. 时间序列数据异常识别3.1 设置恒定阈值3.2 设置动态阈值-移动平均法3.3 STL数据拆解法4. 多变量异常数据识别4.1 孤立森林模型基本介绍算法逻辑介绍1. 定义与使用场景定义异常检测,即发现一组数据点中和大多数数据不同的数据点。如果你要去网上搜索英文文献,可以用
2021-04-12 15:28:56
4337
原创 数据分析必备之sql细节
这里写目录标题条件统计读取jason字符串数据字符串转化jason格式';'转义分组拼接字符串拼接判断字符串是否含有目标字符串str1……返回字符串的位置,没有返回0字符串替换条件统计select col1,col2,sum(case when condition1 then value1 else value2)group by col1,col2读取jason字符串数据select action[‘key’],action.key,action.data[‘page’] from maidia
2020-11-25 20:13:54
870
原创 数据标准化方法论思考总结
数据标准化总结数据标准化总结元数据管理目录式实现 VS 词素管理应对策略数据字典制定步骤术语解释小例子实施步骤标准化对象收集词素拆分标准单词、标准用户定义数据标准结构词素管理的思考数据词典(数据字典)QA数据标准化总结元数据管理目录式实现 VS 词素管理目前各个公司或多或少都存在数据标准问题,英文名称中后缀相同,中文名称不同;英文……而且随着业务数据的增加,数据标准问题会像滚雪球一样越积越多。基于越来越多的数据标准问题,目录式管理元数据(IBM目前就是目录式的),元数据语义层和数据模型建模的关联很
2020-11-12 20:17:59
1695
原创 python数据分析作图细节
python数据分析作图细节seabornbarplot条形图countplot计数图distplotHistograms直方图Kernel density estimaton核密度估计distplot()kdeplot()Fitting parametric distributions拟合参数分布seaborn官方链接:http://seaborn.pydata.org/index.htmlSeaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界
2020-11-10 19:09:16
658
原创 用户画像理解和方法论
用户画像的技术和方法论前言什么是用户画像(what)什么是用户画像常用用户画像什么是商品画像为什么需要用户画像以及精细化运营(why)如何构建商品和用户画像(how)举例(方法论)商品&用户画像的应用总结前言用户画像也是近几年比较热的一个词,不过很多小伙伴对于画像的认知还只是标签化的层面,或者是只是利用其做一些简单的分群分析;如何全面地认知并做系统性地尝试,背后有非常多的点需要我们深思挖掘。今天就根据自己的一些浅见进行分享,因为与商品画像的联系,中间也会掺杂一些商品画像的知识。今天的分享希望
2020-10-27 17:09:40
2160
1
原创 CDA level 2 案例1实现
案例相关代码:常用库导入# 导入相关库import numpy as npimport pandas as pdimport seaborn as snssns.set_style("whitegrid") import matplotlib.pyplot as plt%matplotlib inlinefrom matplotlib.pylab import rcParamsrcParams['figure.figsize'] = 12, 4import xgboost as
2020-08-11 00:29:22
817
原创 Error 细节
1、TypeError: only integer scalar arrays can be converted to a scalar indexhttps://www.cnblogs.com/cloud-ken/p/8465494.html使用np.random.choice创建list,使用这个List作为Data[] List对象的索引。出现TypeError: only integer scalar arrays can be converted to a scalar index错误。
2020-07-13 20:28:31
195
原创 数据平滑 log1p
数据平滑处理 – log1p( ) 和 exmp1( )在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量.数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。平滑问题很容易处理掉,
2020-07-10 22:20:49
1047
1
原创 类别不均衡(目标变量)
查看数据比例from collections import Counter# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42
2020-07-09 22:21:02
1494
原创 jupyter notebook命令细节
配置生成配置文件jupyter notebook --generate-config复制代码浏览器方案:1、打开文件 jupyter_notebook_config.py (C:\Users\Administrator.jupyter 中) 2、找到 # c.NotebookApp.browser = '''' 3、添加: import webbrowse
2020-07-08 23:01:03
1031
原创 sklearn 算法调参 决策树调参
scikit-learn决策树算法类库介绍scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结,重点比较两者参数使用的不同点和调参的注意点。Deci..
2020-07-05 16:26:17
1007
原创 sklearn 细节总结
sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于
2020-06-23 20:08:23
262
原创 字节跳动 数据分析 一轮技术面
第一写面经,记录一下这次难得的面试,感谢字节跳动的面试官。除了有一丝遗憾,自己在很多知识点的表达方面有所欠缺,没有用结构化思维去清晰的表达,也希望不要打乱自己学习的节奏,在数据分析方面不断提升自己的能力。总体情况时间:2020.06.08面试时间:1小时10分钟面试感受:技术面的面试官很有字节跳动的特点,不断引导你,帮你总结。反思自己的面试过程,发现数据分析的逻辑思维还需要进一步总结,形成分析的框架。同时,在表达能力上还需要多一些锻炼。再夸一夸字节的面试官:1、全程引导你回答问题,就算你没有回
2020-06-08 17:26:57
4159
原创 SQL 窗口函数
SQL 窗口函数引入概念基本语法窗口函数注意事项理解窗口函数特点使用场景开窗函数和聚合函数的区别窗口函数和group by子句的区别排序窗口函数partition by vs order by专用窗口函数区别聚合窗口函数窗口函数计算移动平均框架:移动平均使用场景面试经典题1、面试经典排名问题2、面试经典topN问题每组最大的N条记录3.如何在组里比较引入概念窗口函数:窗口函数也称为OLAP函数(Online Anallytical Processing,联机分析处理),意思是对数据库数据进行实时分析处
2020-06-05 23:39:46
719
原创 机器学习问题解决架构模板(通用)
出处:http://blog.youkuaiyun.com/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平
2020-06-04 22:51:57
561
原创 特征选择:贪心算法和其评价矩阵的AUC
"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d
2020-06-04 22:46:28
1305
原创 k-折划分训练集和测试集
将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题,使用分层分割就对了。在Python中,用scikit-learn很容易就做到了。(CV)遇到回归问题,一个简单的K-Fold分割就可以了。当然,也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证 。 k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 k 折都会遵循下面的过程:将 k-1 份训练集子集作为 training
2020-06-04 22:20:29
3828
原创 用户增长理解
用户增长公司:专用名词:1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期:4、PMF 市场匹配:5、增长黑客AARRR:6、MVP(最小可行性产品):思考:1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP:花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司:一定要先找到PMF2、爆发期公司怎么做? 满足黑客增长模型AARRR模型,多融资,傍巨头3、成熟期公司应该怎么做?公司:初创公司爆发型公司成
2020-06-01 06:44:03
1034
原创 数值数据分析流
数值数据分析流引入框架数据分析流框架理解1、需求2、y量化3、x选择4、描述4.1图形4.2统计量5、预分析(特征工程,流程化和模块化)5.1、异常值单变量异常值多变量异常值5.2、缺失值单变量缺失值多变量缺失值5.3、特征筛选单变量特征筛选多变量特征筛选5.4、共线性 scipy.optional单变量多变量5.5、变换单变量多变量5.6、编码单变量编码多变量编码6、建模(大模型:机器学习)小数据算法:8 statsmodel 小数据大数据算法:20 sklearn 大数据7、修正7.1、残差7.
2020-05-26 23:09:08
502
原创 Pandas DataFrame 分组求和、分组乘积
import numpy as npimport pandas as pdpd.set_option('display.max_columns', 10)# 删除空数据def DropNan(data_qd): for i in range(len(data_qd)): if np.isnan(data_qd['test_uniq_cnt'][i]) or \ np.isnan(data_qd['fail_uniq_cnt'][i]):
2020-05-25 20:42:48
4944
原创 pyspark DataFrame 数据预处理
文章目录一、在pyspark中运行代码二、pyspark 与 DataFrame三、pyspark DataFrame的创建及保存3.1、创建SparkSession对象:3.2、创建DataFrame3.3、DataFrame的保存四、pyspark DataFrame的常见操作五、pandas.DataFrame、spark.DataFrame互相转换pyspark = spark + python一、在pyspark中运行代码pyspark提供了python交互式执行环境;pyspark可以实
2020-05-18 22:36:12
1741
1
原创 【剑指offer】python实现 牛客网AC
剑指offer目录01-二维数组中的查找.py02-替换空格.py03-从尾到头打印链表.py04-重建二叉树.py05-用两个栈实现队列.py06-旋转数组的最小数字.py01-二维数组中的查找.py题目:在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。算法原理:从...
2020-05-06 22:34:58
392
原创 决策树scikit-learn重要参数详解
这里写目录标题决策树与SKlearn工具包参数汇总参数详解不纯度计算方法参数:criterion**sklearn提供了两种选择:**基尼系数与信息熵比较重要参数: random_state & splitterrandom_statesplitter剪枝参数:1、max_depth2、min_samples_leaf3、min_samples_split4、max_features5、m...
2020-04-28 22:26:11
4623
原创 【数据挖掘算法实现】决策树sklearn实现
决策树算法实现决策树模型介绍(什么场景使用)优点缺点决策树思维导图决策树算法实现 python(参数控制)决策树模型介绍(什么场景使用)决策树 -有监督(有y)产生的模型具有可解释性。决策树不仅可以用来构建模型也可以用来筛选变量。(决策树用一个递归的过程将数据切分成越来越小的单元格中,单元格中数据逐步得到‘净化’,在这个过程中,决策树会选择出对有知道数据挖掘任务最重要的那些变量)决策树...
2020-04-27 21:51:37
362
原创 数据挖掘 数据集网站
数据集网站sklearn自带数据集 datasetsUCI机器学习数据集sklearn自带数据集 datasetssklearn不仅有函数还有数据集,在datasets包中,例如导入datasets中iris数据集:from sklearn.datasets import load_irisUCI机器学习数据集网址:UCI Machine Learning Repositoryhtt...
2020-04-27 19:35:43
293
1
原创 数据挖掘 模型的衡量标准与建模
模型的衡量标准一、模型的衡量标准1、generating a good model准确性Accurate稳定性stable推广性general2、Ease of Use 是否好用generate a fitmeasure accuracymake predictionsswitch algorithmshare results3、Feature selectionuncorelated predi...
2020-04-27 19:20:02
1058
1
原创 pandas 细节总结
pandas 细节总结1、pandas option设置2、快速统计信息和数据类型 df.describe().T 、 df.info()3、多列排序 data.sort_values()4、去重复4.1、全部列去重复 data.drop_duplicates()4.2、某一列去重复 data.drop_duplicates(subset = '列标签')5、基于其他列创建一个新列M1:添加修改列...
2020-04-22 22:49:49
1110
1
原创 pycharts 数据分析与数据可视化
pycharts 数据可视化特性pycharts库安装调用快速画图进阶Echarts 是一个由百度开源的数据可视化。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。特性简洁的 API 设计,使用如丝滑般流畅,支持链式调用;囊括了 30+ 种常见图表,应有尽有;支持主流 Notebook 环境,Jupyter Note...
2020-04-19 17:23:37
1293
原创 python基础知识 查漏补缺
python基础知识 查漏补缺1、函数中的参数是形参,如果调用是不写关键字,默认按顺序把参数放进去。如果写了关键字,可以调换。函数中如果有return,才能赋值 a=func_()2、python 循环变量不需要加end,因为python代码前面的空格相当于循环体3、条件分支,条件最好互斥。否则,那个条件先满足,执行那个条件,后面条件不满足if condition1:print(‘1’)...
2020-04-19 16:48:26
443
原创 python 数据画图
python 数据画图1、matplotlib2、seaborn3、echarts前端1、matplotlibimport matplotlib.pyplot as pltmatplotlib学习:matplotlib官网链接:https://matplotlib.org/2、seabornimport seaborn as snsseaborn 学习:seanborn-galle...
2020-04-17 21:14:30
629
原创 Anaconda 常用使用技巧总结
Anaconda 常用使用技巧总结1、变量查询2、批量备注:Ctrl+/3、spyder打开.ipynk文件执行4、Prompt命令5、python安装新的第三方库1、变量查询whos #查看变量和变量信息who #查看变量2、批量备注:Ctrl+/3、spyder打开.ipynk文件执行step1-打开:Ipynk文件可以直接拖到spyder界面,右键convert to pyt...
2020-04-17 20:42:51
2735
原创 python安装新的第三方库 4种常见方式总结
python安装新的第三方库方法1:conda install pandas方法2:下载好安装包,安装 pip install xxx.zip方法3:python setup.py install方法4:pip install xxx.whl方法1:conda install pandas方法1是从anaconda云中安装,速度一言难尽。可以在prompt中下面语句,配置anaconda仓库...
2020-04-17 20:24:52
447
原创 【利用Python进行数据分析】13 - Python建模库介绍
第十三章 Python建模库介绍1、pandas与模型代码的接口2、用Patsy创建模型描述2.1、Patsy创建模型设计矩阵2.2、用Patsy公式进行数据转换2.3、分类数据和Patsy主要内容:pandas数据规整和模型拟合和评分介绍两个流行的建模工具,statsmodels和scikit-learn。1、pandas与模型代码的接口模型开发的通常工作流是使用pandas进行数据加...
2020-04-08 20:55:40
1187
1
原创 【利用Python进行数据分析】12 - pandas高级应用
第12章 pandas高级应用1、分类数据1.1、pandas处理重复值常见函数1.2、分类编码 series_str.take(values)1.3、pandas的分类类型1.4、用分类进行计算 (pd.Series(draws).groupby(bins).agg(['count', 'min', 'max']).reset_index())1.5、用分类提高性能1.6、分类方法1.7、为建模...
2020-04-07 20:34:22
351
1
原创 【利用Python进行数据分析】11 - 时间序列
这里写目录标题日期和时间数据类型及工具字符串和datetime的相互转换dateframe转字符串字符串转日期格式时间序列(time series)数据是一种重要的结构化数据形式,时间序列数据主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或2010年全年。时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被...
2020-04-02 22:47:04
632
1
原创 廖雪峰官网Git学习笔记
自定义标题Git简介安装Git创建版本库创建版本库初始化一个Git仓库,使用git init命令。添加文件进入版本库文件添加 Git add 文件提交 Git commit -m 版本切换版本回退查看历史记录 git log返回上个版本 get reset --hard HEAD^查看每一条记录 git reflogGit简介Git是分布式版本控制系统。集中式版本控制系统最大的毛病就是必须联...
2020-03-20 20:29:56
336
1
原创 【利用Python进行数据分析】6-数据加载、存储与文件格式
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1、读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结。pandas读取数据表6-1 pandas中的解析函数这些函数的选项可以划分为以下几个大类:索引:将一个或多个列当做返回的D...
2020-03-02 19:35:08
426
1
原创 【利用Python进行数据分析】4 NumPy基础
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...
2020-03-01 12:05:23
3198
1
数据分析数据流.zip
2020-06-02
stopwords.txt
2020-02-04
MATLAB智能算法30个案例分析
2015-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人