Lec1 5-31
目标:学习多种数据分析算法和技巧,数据分析应用。
期中,project,期末
术语区别:
数据科学是领域,统计分析是数学子学科,
ML是让电脑自己通过数据和经验改进算法,AI是一种模仿人类的ML。
数据挖掘:是处理数据然后发现模式的方法,技术有聚类,分类,回归树。
模式识别:将输入自动分类到提前处理好的类别,和DataMining区别是:DM不提前知道模式。
DataAnalytics:各种数据分析总称。预测,决策,供应链,零售分析等等。
数据挖掘是DA的一个步骤。
需要软件Orange,等
DA可能包含的步骤:
EXAMPLE:紫色鸢尾花Iris。
4种DataScales
定性数据:
1NominalData有限种类分类(狗;兔子)
2OrdinalData有序的分类(高兴;无感;苦恼)
定量数据
1IntervalScale(高兴程度从零到一)
2RatioScale(一天能吃几个汉堡)
数学概念
Mean均值,median中值,mode众数。
数学均值,权均值,调和平均数,几何平均数。
关系:相似度,不相似度,关系有特征计算出来
距离用来描述不相似度
特征距离计算统一公式:闵氏距离公式。
P = 1:曼哈顿距离(出租车距离)
P = 2 欧几里得距离:两点直线距离
P = 无穷 切比雪夫距离:两点各坐标差中的最大值。
Cosine距离,本期最重要的距离,广泛用在文本,NLP
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
相似度描述,杰卡德距离
Jaccard相似度对于数组,Jaccard对于二维向量