DataAnalysis-Maggie-Lecture1

Lec1 5-31

目标:学习多种数据分析算法和技巧,数据分析应用。
期中,project,期末
 

术语区别:
数据科学是领域,统计分析是数学子学科,
ML是让电脑自己通过数据和经验改进算法,AI是一种模仿人类的ML。
数据挖掘:是处理数据然后发现模式的方法,技术有聚类,分类,回归树。
模式识别:将输入自动分类到提前处理好的类别,和DataMining区别是:DM不提前知道模式。
DataAnalytics:各种数据分析总称。预测,决策,供应链,零售分析等等。
数据挖掘是DA的一个步骤。

需要软件Orange,等

DA可能包含的步骤:

EXAMPLE:紫色鸢尾花Iris。

4种DataScales
定性数据:
1NominalData有限种类分类(狗;兔子)
2OrdinalData有序的分类(高兴;无感;苦恼)
定量数据
1IntervalScale(高兴程度从零到一)
2RatioScale(一天能吃几个汉堡)

数学概念
Mean均值,median中值,mode众数。
数学均值,权均值,调和平均数,几何平均数。

关系:相似度,不相似度,关系有特征计算出来
 

距离用来描述不相似度
特征距离计算统一公式:闵氏距离公式。

P = 1:曼哈顿距离(出租车距离)
P = 2 欧几里得距离:两点直线距离
P = 无穷 切比雪夫距离:两点各坐标差中的最大值。

Cosine距离,本期最重要的距离,广泛用在文本,NLP
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

 

相似度描述,杰卡德距离
Jaccard相似度对于数组,Jaccard对于二维向量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值