
数据分析
tide1994
博客都是自己的学习笔记,所以有些乱糟糟的哈~
展开
-
常见数据分析work(1)
1.描述性统计 描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。 ①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。 ②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。 ③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的...原创 2019-06-08 01:26:57 · 517 阅读 · 0 评论 -
假设检验与常见的统计检验方法
1.假设检验: 1.1 基本思想: 小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设 1.2 P值 P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。...原创 2019-06-08 01:41:56 · 6051 阅读 · 0 评论 -
记录一次的算法面试
一个公司给的面试题,300特征预测Label的值,特征没有给任何具体的含义,label也没给 part 1 包的导入数据读入 `# -*- coding: utf-8 -*- import pandas as pd import numpy as np import lightgbm as lgb from sklearn.model_selection import KFold from ...原创 2019-06-10 23:48:26 · 292 阅读 · 0 评论 -
csv 转 ffm
1. FFM介绍 FFM最初的概念来自Yu-Chin Juan与其比赛队员,是他们借鉴了来自Michael Jahrer的论文中的field概念提出了FM的升级版模型。通过引入field的概念,FFM把相同性质的特征归于同一个field。 FFM 模型不同于常见的DataFrame格式文件,需要将数据格式转换成如下所示的格式: y field_1:index_1:value_1 ...原创 2019-07-03 16:14:15 · 312 阅读 · 0 评论 -
常见数据分析work(2)
4. 相关性分析 离散变量与离散变量: 1. 卡方检验:主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实2.际频数的吻合程度或拟合优度问题。 2. 信息增益和信息增益率: 信息增益=熵-条件熵 信息增益率=(熵-条件熵)/条件熵 离散变量与连续变量: 1.连续变量离散化 2. 箱型图 连续变量与连续变量: pearson检...原创 2019-07-11 13:56:34 · 291 阅读 · 0 评论