数据分析
文章平均质量分 94
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
异常检测方法——DBSCAN、孤立森林、OneClassSVM、LOF、同比环比、正态分布、箱线图
基于时间序列分析 同比环比基于统计 单特征且符合正态分布基于统计 箱线图基于聚类 DBSCAN基于树模型 孤立森林基于线性模型 OneClassSVM基于密度 LOF原创 2021-05-07 15:30:01 · 5641 阅读 · 0 评论 -
Mysql 练习(牛客网Mysql总结)
Mysql 练习查找最晚入职员工的所有信息select * from employees where hire_date = (select max(hire_date) from employees);查找入职员工时间排名倒数第三的员工的所有信息-- order by 排序-- desc 从大到小-- limit 2,1 从第二条开始读,读一条select * from employees order by hire_date desc limit 2,1;查找各个部门当前(原创 2020-11-02 11:40:25 · 488 阅读 · 0 评论 -
特征工程系列:特征预处理
特征工程系列:特征预处理1. 什么是特征工程2. 数值型特征无量纲化2.1 标准化 z-score StandardScaler2.2 归一化2.2.1 MinMax归一化2.2.2 MaxAbs归一化2.3 正态分布化 Normalization2.4 标准化和归一化对比2.5 归一化和标准化使用的场景3. 数据型特征特征分箱(数据离散化)3.1 无监督分箱法3.1.1 自定义分箱3.1.2 等距分箱 pd.cut()3.1.3 等频分箱 pd.qcut()3.1.4 聚类分箱 \*3.1.5 二值法原创 2020-12-01 21:54:50 · 638 阅读 · 0 评论 -
数据分析之关联分析 Apriori
数据分析之关联分析项与项集项 指我们分析数据中的一个对象项集 由若干项构成的集合 不能重复 数量可以为1支持度为某项集在数据中出现的频率 即 项集在记录中出现的次数 除以数据中所有的数据support(A)=count(A)/count(dataset)=P(A)support(A) = count(A)/count(dataset) = P(A)support(A)=count(A)/count(dataset)=P(A)置信度A与B同时出现的次数 除以A出现的概率原创 2020-11-29 21:39:57 · 1246 阅读 · 0 评论 -
蒸汽预测赛题——模型训练
蒸汽预测赛题——模型训练理论知识1. 导入相关库2. 导入数据3. 切分数据4. 多元线性回归 LinearRegression5. K近邻回归 KNeighborsRegressor6. 随机森林回归 RandomForestRegressor7. LGB模型回归 lightgbm天池大赛比赛地址:链接理论知识回归用在目标数量连续时预测线性回归模型 LinearRegression假定因变量Y和自变量X呈线性相关 可以用Y=AX+b X是权重from sklearn.metr原创 2020-11-20 16:27:34 · 335 阅读 · 0 评论 -
卡方检验、T检验+F检验、方差分析、Z检验
卡方检验、T检验+F检验、方差分析、Z检验转载 2020-11-20 13:56:59 · 3011 阅读 · 1 评论 -
特征工程系列:特征筛选的原理与实现
特征工程系列:特征筛选的原理与实现1. 什么是特征工程2. 特征选择的方法2.1 Filter方法 过滤法2.2 Wrapper方法 封装式2.3 Embedded方法 嵌入式3. 特征选择实现3.1 去掉取值变化小的特征 要有区分度3.2 单变量特征选择3.2.1 Pearson相关系数 连续型3.2.2 互信息 和 最大信息系数 MINE 离散型3.2.3 距离相关系数3.2.4 基于学习模型的特征排序 cross_val_score3.2.5 卡方检验 离散型 chi23.3 线性模型与正则化3.原创 2020-11-20 00:27:36 · 1297 阅读 · 0 评论 -
常见决策树(ID3、C4.5、CART)带代码
决策树定义是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树信息熵熵 用于衡量一个对象的有序程度从信息的完整性上描述当系统的有序状态一致时,数据越集中的地方熵值越小;数据越分散的地方熵值越大从信息的有序性上描述当数据量一致时,系统越有序, 熵值越低;系统越混乱分散,熵值越高Ent(A) = - (求和 k=1-n) p_k * log_2(p_k) = -p1log2p1-p2l原创 2020-09-10 00:17:49 · 1363 阅读 · 0 评论 -
数据分析概念总结
数据分析概念总结APrirori算法: 通过分析购物篮中的商品集合,找出商品之间的关联关系。利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额。商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系预测用户购物行为属于商业智能,即Business Intelligence,缩写是 BI他们积累的顾客的消费行为习惯会存储在数据仓库中,即Data Warehouse,缩写DW通过对个体进行消费行为分析总结出来的规律属于数据挖掘,即Data Mining,缩写是 DM原创 2020-11-12 00:05:13 · 668 阅读 · 0 评论 -
Numpy操作总结
Numpy小结具体操作详见:链接Numpy定义开源的Python科学计算库,用于快速处理任意维度的数组Numpy中,存储对象是ndarray创建np.array([])numpy的优势内存块风格一体式存储支持并行化运算效率高于纯Python代码底层使用了C,内部释放了GIL(全局解释器)ndarray的属性名字 属性解释ndarray.shape 数组维度的元组ndarray.ndim 数组维数ndarray.size 数组中的元素数量原创 2020-08-25 23:39:49 · 341 阅读 · 0 评论 -
数据分析中NumPy 基础用法
NumPy 基础用法为什么要用NumPy创建数组结构数组连续数组的创建算数运算计数组 / 矩阵中的最大值函数 amax(),最小值函数 amin()统计最大值与最小值之差 ptp()统计数组的百分位数 percentile()统计数组中的中位数 median()、平均数 mean()统计数组中的加权平均值 average()统计数组中的标准差 std()、方差 var()NumPy 排序为什么要用NumPy这是因为列表 list 的元素在系统内存中是分散存储的,列表中 list 保存的是对象的指针,如原创 2020-11-10 18:26:36 · 452 阅读 · 0 评论 -
网易2020校招数据分析方向提前批笔试题解析
网易2020校招数据分析方向提前批笔试题选择题简答题编程题选择题有一类二叉树用三叉链表来存储的时候除了带有指向左右孩子节点的两个指针,还有指向父节点的指针,那么这样一棵二叉树有2个节点,那么有多少指针指向NULL(注:根节点的父指针指向NULL,对于不存在的节点表示为NULL)?题解 : 4个指针 画个图可知下列最短路径算法的叙述中正确的是(B)A. Dijkstra算法通常用于求每一对顶点间的最短路径;B. Dijkstra算法不允许图中带有负权值的边,而Floyd算法则可以适用;原创 2020-11-10 10:26:45 · 704 阅读 · 0 评论 -
特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)
特征工程系列:数据清洗1.什么是特征工程2. 数据预处理3. 数据清洗拓扑图4. 格式内容清洗5. 逻辑错误清洗6. 异常值清洗6.1 异常值检查方法(3σ原则、箱线图分析)6.1.1 基于统计分析6.1.2 3σ原则6.1.3 箱线图分析6.2 数据光滑处理(分箱、回归)6.3 异常处理方法7. 缺失值清洗(删除、填充、不处理)7.1 数据填充方法(统计量统计、模型预测、插值法填充)7.1.2统计量统计7.1.3 模型预测填充7.1.4 插值法填充7.2 缺失总结1.什么是特征工程特征工程是利用原创 2020-11-03 16:12:05 · 10507 阅读 · 2 评论 -
连续特征和分类特征数据缺失的处理方法
数据缺失 处理方法连续的特征分类的特征利用算法预测缺失值连续的特征缺失比例比较严重 可以考虑舍弃可以考虑使用平均值 中位数 分位数填充算法预测 (利用样本中的其它特征作为 特征值,有缺失的特征作为目标值)分类的特征缺失比例比较严重 可以考虑舍弃把缺失作为单独的分类, 如果之前的数据只有两个分类,那么把缺失考虑进来就变成3个分类算法预测利用算法预测缺失值其它特征和要预测的特征之间是否有联系样本数据是否足够利用算法预测缺失值会引入噪声...原创 2020-11-02 15:33:42 · 1254 阅读 · 0 评论 -
利用pandas的chunksize分块处理大型csv文件
利用pandas的chunksize分块处理大型csv文件当读取超大的csv文件时,可能一次性不能全部放入内存中,从而无法加载,所以需要分块处理。在read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReaderimport pandas as pd''' chunksize:每一块有100行数据 iterator:可迭代对象 '''reader = pd.read_csv('all_test.csv',chun原创 2020-11-02 12:02:03 · 2029 阅读 · 0 评论 -
小红书2020校招数据分析笔试题卷四 解析
小红书2020校招数据分析笔试题卷四 解析单选题多选题填空题简答题题目来自小红书2020校招数据分析笔试题卷四单选题如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为550元 题解:这里500元为成本,总利润 = 单件利润 * 成交数量 设 定价为x 总利润 = (x -500) * (1 - (x - 500)/100 ) = -1/100x2 +11x原创 2020-10-30 15:03:34 · 3709 阅读 · 0 评论 -
数据分析之 假设检验
数据分析之 假设检验1. 检验总体的均值是否可靠——Z检验1.1 背景1.2 流程1.2.1 解决方法之 假设检验1.2.2 解决方法之 反证法1.2.3 悖论1.2.4 P-value与显著性水平1.3 假设检验 步骤 总结1.4 验证——Z检验1.4.1 代码1.5 单边拒绝域1.5.1 代码2. 单样本t检验2.1 背景2.2 步骤2.3 代码2.4 自由度3. 成对数据的t检验3.1 背景3.2 步骤3.3 代码4. 比率检验4.1 背景4.2 步骤4.3 代码5. A/B测试1. 检验总体的原创 2020-10-29 15:15:03 · 2190 阅读 · 0 评论
分享