
数据分析学习总结笔记
文章平均质量分 90
Lynn Wen
这个作者很懒,什么都没留下…
展开
-
准确率、召回率、F-1值、ROC
准确率、召回率、f1值原创 2022-06-17 10:01:34 · 1039 阅读 · 1 评论 -
数据研发学习笔记03:8种经典的统计学谬论
文章目录1 辛普森悖论 Simpson's Pradox1.1 概念1.2 案例1.3 避免方式2 基本比率谬误 Base Rate Fallacy2.1 概念2.2 案例2.3 避免方式3 伯克森悖论 Berkson's Paradox3.1 概念3.2 案例3.3 避免方式4 罗杰斯现象 Will Rogers Phenomenon4.1 概念4.2 案例4.3 避免方式5 幸存者偏差5.1 概念5.2 案例5.3 避免方式6 赌徒谬论 Gambler's Fallacy6.1 概念6.2 案例6.3原创 2020-05-13 11:17:19 · 5401 阅读 · 0 评论 -
英文停用词表
用SQL创建英文停用词表CREATE TABLE word_noise_input LIFECYCLE 10 AS SELECT wordFROM VALUES('\'d'),('\'ll'),('\'m'),('\'re'),('\'s'),('\'t'),('\'ve'),('ZT'),('ZZ'),('a'),('a\'s'),('able'),('about'),('above'),('abst'),('accordance'),('according'),原创 2020-06-28 16:15:57 · 619 阅读 · 0 评论 -
数据研发学习笔记09:关联规则挖掘及Python实践
文章目录1 引言2 频繁模式与关联规则3 频繁项集的典型挖掘方法3.1 逐层发现算法Apriori3.2 无候选集发现算法FP-growth4 关联规则的生成方法5 关联规则的其他类型6 关联规则的兴趣度的其他度量6.1 Lift度量6.2 cosine度量7 Python实践:关联规则挖掘1 引言关联规则挖掘(Association Rules Mining)或者关联分析(Association Analysis)最早是为了进行购物篮分析而提出的。关联规则可以用于对交叉营销和市场布局进行辅助决策。原创 2020-05-24 22:31:36 · 978 阅读 · 0 评论 -
数据研发学习笔记08:数据预处理
文章目录1 数据预处理基本思想2 数据规范化2.1 最小-最大法(min-max normalization)2.2 零均值规范化(z-score)3 数据离散化3.1 等距离(equal- distance)分箱3.2 等频率(equal-frequency)分箱3.3 基于熵的离散化方法3.4 ChiMerge方法4 数据清洗4.1 处理缺失数据4.2 处理噪音数据5 特征提取与特征选择5.1 特征提取5.2 特征选择1 数据预处理基本思想数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题原创 2020-05-23 16:20:34 · 2448 阅读 · 0 评论 -
数据研发学习笔记07:利用Python对数据进行描述性统计
文章目录1.1 集中趋势1.1 均值1.2 中位数1.3 众数2 离散趋势2.1 极差2.2 四分位数2.3 四分位数极差(四分位距)2.4 五数概括2.5 箱线图2.6 方差和标准差2.7 DataFrame描述性统计3 基本统计图3.1 条形图3.2 饼状图3.3 折线图3.4 直方图3.5 散点图3.6 分位数-分位数图4 高级绘图4.1 雷达图4.2 词云图5 计算数值属性的三种距离5.1 欧氏距离5.2 曼哈顿距离5.3 明可夫斯基距离1.1 集中趋势1.1 均值1.2 中位数1原创 2020-05-23 11:18:38 · 764 阅读 · 0 评论 -
数据分析学习总结笔记17:文本分析入门案例实战
文章目录1 数据准备2 分词3 统计词频4 词云5 提取特征6 用sklearn进行训练1 数据准备数据样例如下, 数据总量为7.7万+:本节通过一个实战的例子来展示文本分析的最简单流程。首先设定因变量为原始数据中的"评分"。自变量是"评价内容",这里根据评价内容提取TF-IDF特征。之后,通过评价内容的特征建模预测下整体评分。import jieba #导入分词模块import pa...原创 2020-05-02 22:30:44 · 3538 阅读 · 2 评论 -
数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析
文章目录1 引言2 数据集3 文本统计信息分析4 Ngram模型探索5 基于pyLDAvis的主题模型探索6 绘制词云图7 情感分析7.1 TextBlob7.2 Vader Sentiment Analysis8 命名实体识别NER9 词性标签探索分析10 文本可读性分析11 结语1 引言探索性数据分析是所有机器学习工作流程中最重要的部分之一,自然语言处理也不例外。但是应该选择哪些工具来进行...原创 2020-05-02 10:08:45 · 2304 阅读 · 1 评论 -
数据分析学习总结笔记15:时间序列分析及Python实现
文章目录1 引言2 时间序列的特性2.1 自相关2.2 季节性2.3 平稳性3 时间序列建模3.1 移动平均法3.2 指数平滑法3.3 双指数平滑法3.4 三重指数平滑法3.5 周期性差分自动平滑回归模型(SARIMA)4 实例——股票价格的预测5 结论1 引言本篇主要帮助大家理解移动平均,指数平滑,平稳性,自相关,SARIMA,通过案例和Python编程实现时间序列的预测技术。无论我们是预...原创 2020-04-19 10:31:30 · 2450 阅读 · 4 评论 -
数据分析学习总结笔记13:生存分析及Python实现
文章目录1 引言2 定义3 数学直观4 Kaplan-Meier 估计5 Cox比例风险模型6 总结1 引言生存分析是一套统计方法,用来解决诸如“多长时间后,某个特定事件发生”这样的问题; 换句话说,也可以称之为**“事件时间分析”**。 这种方法被称为生存分析,是由于主要是由医学研究人员开发的,他们更感兴趣的是寻找不同群体患者的预期寿命(例如: 用药物a治疗的组群1和用药物b治疗的组群2)。...原创 2020-04-18 21:13:29 · 7947 阅读 · 1 评论 -
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度
文章目录1 空间地理相关性2 技术性定义3 空间相关类型4 Moran’s I(莫兰系数)5 空间自相关的应用6 案例研究: 意大利人口迁移分析7 总结8 实现工具1 空间地理相关性地理空间自相关是指一个物体与附近其他物体的相似程度。通俗地说,它度量的是相近物体与其他相近物体的相似程度。地理信息系统的第一规则: 一切事物都与其他事物相关联。但是相近事物比较远事物更相关 (Waldo r. ...原创 2020-04-18 16:39:33 · 26200 阅读 · 0 评论 -
数据分析学习总结笔记11:空间复杂度和时间复杂度
文章目录1 算法与程序2 算法复杂度概述3 时间复杂度3.1 时间复杂度记号O3.2 时间复杂度的计算3.3 时间复杂度的类别3.4 时间复杂度分析实例4 空间复杂度1 算法与程序(1)算法:是解决问题的方法或过程,严格的讲是满足下述性质的指令序列:输入:有零个或多个外部量作为算法的输入;输出:算法产生至少一个量作为输出;确定性:组成算法的每条指令清晰、无歧义;有限性:算法中每条指令...原创 2020-04-12 16:04:41 · 865 阅读 · 0 评论 -
数据分析学习总结笔记10:网络分析
数据分析学习总结笔记10:网络分析1 网络分析概述1.1 三大社会科学理论1.2 网络分析内容2 网络的基本概念与特征量2.1 网络的发展2.2 网络的表达形式2.3 网络基本概念与特征量2.3.1 网络整体指标2.3.2 网络节点指标3 社会网络分析3.1 社会网络分析法概述3.2 微博传播简介3.3 社会网络分析工具——Cytoscape简介3.4 社会网络分析的应用4 社交网络4.1 社交...原创 2020-04-04 15:35:11 · 11271 阅读 · 1 评论 -
数据分析学习总结笔记09:文本分析
数据分析学习总结笔记09:文本分析1 文本分析1.1 文本分析概述1.2 结构/非结构化数据1.3 文本数据特点1.4 自然语言处理——NLP1.5 文本挖掘的应用2 文本分词2.1 英文分词——KNIME2.2 中文分词2.2.1 中文分词工具2.2.2 分词的方法1 文本分析1.1 文本分析概述文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文...原创 2020-04-04 09:39:38 · 18650 阅读 · 1 评论 -
数据分析学习总结笔记08:数据分类典型方法及其R语言实现
数据分析学习总结笔记08:数据分类典型方法及其R语言操作1 判别分析1.1 判别分析简介1.1.1 判别分析概念1.1.2 判别分析的种类1.2 距离判别法1.2.1 两总体距离判别1.2.2 多总体距离判别1.3 Fisher 判别法1.3.1 Fisher 判别法原理1.3.2 Fisher 判别法步骤1.4 Bayes 判别法1.4.1 Bayes 判别法概念1.4.2 概率判别1.4.3 ...原创 2020-04-03 15:48:00 · 1570 阅读 · 0 评论 -
数据分析学习总结笔记07:回归分析概述
数据分析学习总结笔记07:回归分析概述1 什么是回归分析1.1 回归分析概述1.2 “回归”的由来1.3 回归分析归纳1.3.1 回归分析的主要内容1.3.2 回归分析的一般模型2 统计学中的回归模型2.1 相关分析与回归分析2.2 回归模型的具体化2.3 回归类型的判断2.4 回归分析中的统计问题3 机器学习角度看回归3.1 数据分析问题的不同视角3.2 机器学习分类3.3 机器学习的流程1 ...原创 2020-04-03 10:19:55 · 2792 阅读 · 0 评论 -
数据分析学习总结笔记07:方差分析
数据分析学习总结笔记07:方差分析1 方差分析概述1.1 方差分析简介1.2 方差分析基本思想和原理1.3 方差分析的基本假设2 单因素方差分析(One-way ANOVA)2.1 单因素方差分析概念2.2 单因素方差分析的原理2.3 单因素方差分析的基本假设3 双因素方差分析(Two-way ANOVA)3.1 无交互作用的双因素方差分析3.2 有交互作用的双因素方差分析4 方差分析实践操作4....原创 2020-04-03 09:13:49 · 3725 阅读 · 0 评论 -
数据分析学习总结笔记06:T检验的原理和步骤
数据分析学习总结笔记06:T检验1 单样本T检验1.1 单样本T检验概念1.2 单样本T检验步骤2 独立样本T检验2.1 独立样本T检验概念2.2 独立样本T检验步骤1 单样本T检验1.1 单样本T检验概念目的:利用来自某总体的样本数据,推断该总体的均值是否与指定的检验值之间存在显著性差异。前提:样本来自的总体服从正态分布。基本思想:首先,计算出样本均值;其次,根据经验或以往的调查结果...原创 2020-04-02 22:41:25 · 31311 阅读 · 1 评论 -
数据分析学习总结笔记05:缺失值分析及处理
数据分析学习总结笔记05:缺失值处理1 缺失值概念2 缺失值分析的类别2.1 按数据缺失形式划分2.2 按缺失机制与方式划分3 缺失值的处理方法3.1 删除缺失值3.2 缺失值替代3.3 缺失值分析1 缺失值概念在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分......原创 2020-04-02 22:00:27 · 4797 阅读 · 0 评论 -
数据分析学习总结笔记04:异常值处理
数据分析学习总结笔记04:异常值处理1 异常值概述2 如何判断异常值2.1 简单的统计分析2.2 3δ原则2.3 四分位数检验/箱型图分析2.4 格拉布斯检验2.5 基于模型检测2.6 基于距离检测2.7 基于密度检测3 如何处理异常值1 异常值概述数据存在异常值、缺失值和重复值是数据清洗工作中主要可能遇到的三个问题。异常值是数据中的极端的观测值,即在数据集中存在不合理的值,又称离群点。在...原创 2020-04-02 10:55:40 · 17148 阅读 · 2 评论 -
数据分析学习总结笔记03:数据降维经典方法
1. 数据降维概述2. 数据降维的应用3. 数据降维的六种方法3.1 主成分分析(PCA)3.1.1 PCA概述主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分。主成分能够尽可能保留原始数据的信息。...原创 2020-04-01 23:03:06 · 4647 阅读 · 0 评论 -
数据分析学习总结笔记02:聚类分析及其R语言实现
**数据分析学习总结笔记02:聚类分析Cluster Analysis**1. 聚类分析概述1.1 聚类分析的直观理解在科学研究、社会调查或日常生活中,通过观察个体的特征,将群体中的个体归为不同的族群/簇(Cluster)。2. 聚类分析的方法3. 聚类分析的应用3.1 市场营销——精准营销在市场营销中,基于消费者的历史交易信息、消费者背景等对消费者进行划分,从而对不同类型的消费...原创 2020-04-01 17:23:20 · 4134 阅读 · 0 评论 -
数据分析学习总结笔记01:情感分析
本文以数据分析的角度详细介绍情感分析,主要内容如下:情感分析概述、情感分析方法、情感分析工具。原创 2020-04-01 11:13:50 · 32645 阅读 · 2 评论 -
数据分析学习总结笔记14:A/B Test及Python实现
文章目录1 引言2 A/B Test的必要性3 统计形式主义的必要性4 假设检验入门4.1 z检验评估平均花费时间4.2 z检验评估平均花费时间4.3 Z检验评估转化率5 总结1 引言A/B Test,又称为对比测试,指的是一种实验技术,以确定根据一个选定的指标,新的设计是否带来改进。在Web分析和UI用户体验中,这个想法是通过随机分割流量并比较每个分割点的指标,来比较现有网站(a)和新网...原创 2020-04-19 08:57:32 · 984 阅读 · 0 评论