
数据挖掘
Track48
zhengzhaozuo
展开
-
统计学习方法--笔记1
1.2 监督学习输入变量和输出变量均为连续:回归问题输出变量离散的为分类问题输入变量和输出变量均为变量序列的为标注问题标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列,即分类-》一个值,标注-》一个向量监督学习的目的:在于学习一个由输入到输出的映射,这一映射由模型表示1.3 统计学习三要素方法=模型+策略+算法模型:就是所要学习的条件概率分布或决策函数。策略:使用什么准则学习或选择最...原创 2018-04-07 16:09:01 · 181 阅读 · 0 评论 -
数据挖掘笔记-1
第一章 绪论1.1 什么是数据挖掘KDD: Knowledge Discovery in Database数据输入->数据预处理->数据挖掘->后处理->信息获取数据预处理包括:特征选择维归约规范化选择数据子集后处理包括:模式过滤可视化模式表达1.2 数据挖掘要解决的问题可深缩:着眼于数据量剧烈增长的问题高维性:对象拥有数量不少的属性异种数据和复杂数据:数据来源广泛,且结构...原创 2018-04-07 16:14:51 · 478 阅读 · 0 评论 -
gdbt
一、GBDT/GBRT 1. GBDT简介 GBDT是一个基于迭代累加的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。 树模型也分为决策树和回归树 决策树常用来分类问题,回归树常用来预测问题。 1. 决策树常用于分类标签值,比如用户性别、网页是否是垃圾页面、用户是不是作弊; ...原创 2018-04-07 16:16:26 · 701 阅读 · 0 评论 -
数据预处理
sklearn-数据预处理 包:sklearn.preprocessing提供了一些实用的公共函数和转化类标准化,或称为去平均和方差缩放对一个数据集进行标准化是大部分机器学习估测器的要求scikit-learn中的许多学习器都需要将数据集进行标准化处理。数据集的标准化:当个体特征太过或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散...转载 2018-04-07 16:24:06 · 349 阅读 · 0 评论 -
numpy使用
numpy 随机正态分布:numpy.random.randn(7,4) 返回7行4列的随机数,且呈现正态分布n维数组对象ndarray : 能够对整个数据执行操作:类似于*10shape:形状 dtype:类型 ndim:维数创建ndarray:1. 先创建列表data1=[1,2,4,5]或者data1=[[2,3,5,6][8,9,7,5]]2. 转换:arr1=np.array(d...原创 2018-04-07 16:27:41 · 357 阅读 · 0 评论 -
pandas使用
pandas pandas主要有两个数据结构:Series和DataFrameSeriesSeries是一种类似于一维数组的对象,它有一组数据以及一组与之相关的数据标签组成obj=Series([4,7,-2,1]) //没有指定索引索引在左,值在右obj=Series([4,7,-2,1],index=[‘a’,’b’,’d’,’c’])frame=DataFrame(np.arange(9)...原创 2018-04-07 16:28:26 · 316 阅读 · 0 评论 -
统计学习方法--笔记2
第二章 感知机2.1感知机感知机:二类线性分类模型,旨在求出将训练数据进行线性划分的分离超平面S感知机属于判别模型:即直接求出条件概率方法:导入基于误分类的损失函数,利用梯度下降法对损失模型进行最小化,求出模型分类:原始模型和对偶模型神经网络与支持向量机的基础f(x)=sign(w*x+b):感知机w为权值向量,b为偏置(bias) sign()为符号函数,即x大于等于0,sign(x)=1,反...原创 2018-04-09 21:28:29 · 237 阅读 · 0 评论