
数据分析
rungedu
计算机,算法,智能,机器学习,足球,易经,传统文化,诗词
展开
-
机器学习第六周 机器学习重要概念补充
机器学习第六周 机器学习重要概念补充一、学习目标sklearn中的Pipeline偏差与方差模型正则化之L1正则、L2正则二、学习内容《浅析多项式回归与sklearn中的Pipeline》《ML/DL重要基础概念:偏差和方差》《(理论+代码)模型正则化:L1正则、L2正则》三、开动ing前面已经对简单线性回归和多元线性回归做了学习,如果数据没有线性关系那该如何处理。也就是对...原创 2020-04-04 16:02:49 · 403 阅读 · 0 评论 -
机器学习第五周 最优化方法:梯度下降
机器学习第五周 最优化方法:梯度下降一、学习目标梯度下降:实现梯度下降、线性回归中的梯度下降随机梯度下降:相关代码即调用二、学习内容《还不了解梯度下降法?看完这篇就懂了!》《手动实现梯度下降(可视化)》《线性回归中的梯度下降》《速度更快的随机梯度下降法》《梯度下降番外:非常有用的调试方式及总结》三、开动概括总结:机器学习于千万里寻找那一个函数f(x),对这个函数进...原创 2020-03-27 23:07:38 · 337 阅读 · 0 评论 -
numpy 学习
学习自:哔哩哔哩 上 Python3 快速入门数据分析 洺宇吖import numpy as npimport randomt1 = np.arange(12)#t1.shape 一维数组是其个数;二维数组 shape两个值;三维列表则shape是三个值t1array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])#...原创 2020-03-21 15:42:07 · 381 阅读 · 0 评论 -
机器学习第一周KNN k近邻分类
机器学习第一周:机器学习的敲门砖kNN算法一、学习目标kNN算法的思想及其原理使用python手动实现kNN算法,并在sklearn中调用了解监督学习和非监督学习的概念二、kNN算法的思想及其原理 KNN算法中文名称叫做K近邻算法。它是一个有监督的机器学习算法,其核心思想是未标记的样本的类别,由距离它最近的K个邻居投票来决定。(1)有已经标记的数据,需要判断一个未标记的数...原创 2020-03-01 23:41:03 · 243 阅读 · 0 评论 -
统计学第十六周 时间序列分析与预测
统计学第十六周 时间序列分析与预测概念:基本概念时间序列:是同一现象在不同时间的相继观察值排列而成的序列。平稳序列:基本上不存在趋势的序列。各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,单并不存在某种规律,波动可以看成是随机的。非平稳序列:包含趋势、季节性或周期性的序列,它可能只包含其中一种成分,也可能包含几种成分,非平稳序列又分为有趋势的序列、有趋势和季节...原创 2020-02-29 22:59:45 · 3402 阅读 · 0 评论 -
统计学第十五周 方差分析实践
统计学第15周 方差分析实践题目数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:1、每个地区间的销售量是否相同?2、不同月份的销售量是否相同?3、不同时间与地区的销售量是否相同?数据问题1 每个地区间的销售量是否相同?根据上一节学习内容,可以用单因素方差分析,先假设,再构造统计量,最后进行决策根据上一节学...原创 2020-02-21 23:39:05 · 637 阅读 · 0 评论 -
统计学第十二周:回归分析
统计学第十二周:回归分析一、 概念回归分析主要解决的问题有:(1)从一组样本数据出发,确定变量之间的数学关系式(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的,那些事不显著的。(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。一元线性回归1.1 相关关系⚛️...原创 2020-01-17 22:42:31 · 1779 阅读 · 0 评论 -
统计学第十一周:利用假设检验分析
统计学第十一周:一 问题:1、人体体温的总体均值是否为98.6华氏度?2、人体的温度是否服从正态分布?3、人体体温中存在的异常数据是哪些?4、男女体温是否存在明显差异?5、体温与心率间的相关性(强?弱?中等?)引申出来的点:你要怎么向运营或者产品的同事展示数据结果?二 根据给出的数据进行验证(假设检验)原假设H0:给出数据,人体体温的总体均值μ0=98.6,备择假设H1:...原创 2020-01-11 21:56:27 · 597 阅读 · 0 评论 -
统计学第十周 假设检验
统计学第十周 假设检验hypothesis testing参数估计和假设检验,是统计推断的两个组成部分,他们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是样本统计量估计总体参数的方法,总体参数在估计前是未知的。而在假设检验中,则是先对均值提出一个假设,然后利用样本信息取检验这个假设是否成立。一. 基本概念原假设统计中用一个等式或不等式表示问题的原假设。H0表示原...原创 2020-01-05 23:29:53 · 1185 阅读 · 0 评论 -
数据可视化-第六周
数据可视化 第六周如何提升数据可视化的表现效果影响数据可视化的因素:非数据层面+数据层面????非数据层面:1.1 布局要强调最重要的数据信息,将用户注意力集中再可视化结果的最重要区域,针对重点数据,对可视化结果的重要性和优先级进行排序。通过对可视化空间的合理布局设计,将用户的注意力集中到可视化结果中最重要的一个或几个区域上。在用户关注的重点区域,集中放置,吸引视觉焦点,并通过不同区域强调...原创 2019-12-23 20:39:33 · 547 阅读 · 0 评论 -
python groupby分组运算
DataFrame groupby使用agg()运算多个分组A.groupby( [“班级”,“性别”]).agg([np.sum, np.mean, np.std])#一次计算了三个时间分组时间序列直接作为index或者有一列是时间序列,如果时间中有"/",需要进行转换:A[“生日”] = pd.to_datetime(A[“生日”],format ="%Y/%m/%d")#...原创 2019-12-16 21:58:43 · 904 阅读 · 0 评论 -
数据可视化第5周:常用图表对比
数据可视化第五周常用图表对比,当我们需要展示的时候,该如何选择图表?根据学习提供的思路:????可视化目标????数据集格式????图表异同????适用场景一.常用图表的对比柱状图&条形图联系:???? 两者均是两个字段,一个代表分类,另一个代表数值。????当数据的记录数不大于12条,分类字段的字符长度小于5时,两者可以互换。区别:????柱状图:如果分类字段时时间序列,可以优先使用柱状图,能更...原创 2019-12-15 23:56:24 · 2262 阅读 · 0 评论 -
数据可视化第4周
数据可视化第4周数据可视化数据关系的表示:(本为引自数据科学家联盟公众号,主要是数据可视化小组自己做的笔记,如引用请联系微信公众号:数据科学家联盟)对进度、关系、地理信息进行可视化一、三类数据区间型数据区间型数据一般分为两种:????????数据本身就是比例数据,一般以XX率的形式出现,用来指示某项指标的达成情况????????数据本身是数值型数据,但是根据业务需要会对数据进行区间段划分,并和一些...原创 2019-12-08 22:27:38 · 573 阅读 · 0 评论 -
可视化学习第三周-对比型和分布型数据
一.目标了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;二.如何优雅地选择数据图表:对比型和分布型数据图表2.1 对比型和分布型对比型:对比两组或两组...原创 2019-12-01 22:06:20 · 720 阅读 · 0 评论 -
统计学习第5周
统计学习第5周一、概率第四周复习1、离散变量、随机变量2、期望、方差3、离散概率分布 二项分布、伯努利分布、泊松分布4、连续概率分布 均匀分布、正态分布、指数分布二、Python实现1.在安装python及进行科学计算,建议安装anaconda 3.5.0 ,版本,可以百度搜索清华大学镜像进行下载,安装,该版本对应python3.6;对于python的IDEA ,可以安装p...原创 2019-11-29 22:47:51 · 377 阅读 · 0 评论 -
数据可视化第二周
数据可视化第二周二、离散场景和连续场景两组数据分析展示2.1离散场景1时序数据数据集1,场景某电商公司2018年销售额整体趋势情况,以及不同品类销售额的发展趋势,可用折线图。(第一次觉得用百分比堆叠图或者普通堆叠图表示较好,并列柱状图可能数据线条比较多,而且折现条数也是,用百分比堆叠图,能利用百分比堆叠图各类趋势变化,还有占比比较清楚。普通的堆叠图应该也可以,不过4个题目全看过后感觉还是用...原创 2019-11-24 22:32:54 · 234 阅读 · 0 评论 -
python的Numpy练习(python3)
#coding=utf-8import numpy as np'''numpy 数组'''data = np.arange(12).reshape(3,4) #创建一个3行4列的数组#print(data)#print(type(data))#print(data.ndim) #数组维度的个数,2维,3*4#print(data.shape) #数组的行数 列数 ...原创 2019-11-23 14:13:18 · 491 阅读 · 0 评论 -
统计学习第四周
统计学习第四周一、基本概念1.随机变量概念:在同一组条件下,如果每次试验可能出现的结果,并且所有结果都可以列出来,即X的所有可能值为x1,x2,x3,...,xn都能例举出来,而且X所有的可能值x1,x2,...,xn具有确定的概率P(x1),p(x2),p(x3),...,p(xn),其中P(xi)=p(X=xi),x_1,x_2,x_3,...,x_n都能例举出来,而且X所有的可...原创 2019-11-21 22:43:08 · 195 阅读 · 0 评论 -
数据可视化小组-第一周 解读数据可视化
数据可视化小组-第一周解读数据可视化对于数据可视化,还是挺有一些感触的,毕竟正在参与公司的可视化的展示。感觉小组推送的文章中4个步骤是很中肯的。> > 可视化4个过程:> >> > > > 1.确定数据可视化的主题> > > >> > > > 2.提炼可视化主题的数据> >...原创 2019-11-16 23:57:31 · 368 阅读 · 0 评论 -
统计学习第三周:描述性统计
一、python安装python安装,我们常用在windows或者linux中安装。目前经常用到的版本有python2.7,python3.6.X,不过目前python2.7在2020年将会被取消更新。网上建议升级到3.x版本,但是目前仍有些程序运行在python2.7稳定版本上,因此可能会经常安装2个版本的python。可以安装anaconda,其中自带了相关的python科学计算包...原创 2019-11-13 23:21:20 · 380 阅读 · 0 评论 -
统计学习小组第二周-数据的维度描述
数据的描述维度:数据的维度主要用集中趋势、离散程度、分布形态三块表示。一、集中趋势1.算数平均值2.加权算数平均值注:算数平均值是特殊的加权算数平均值,其每个权重均为1;同时如果数据样本中出现极大值、极小值时,再计算平均值,其实际的意义可能就会打折扣,如我们经常说的被平均了。3.几何平均值xj=x1x2⋯xnx_j=\sqrt{x_1 x_2 \cdots x_n}xj=...原创 2019-11-10 00:32:25 · 1507 阅读 · 0 评论