自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 SQL语句(下)

摘自菜鸟教程1.AVG()函数AVG() 函数返回数值列的平均值。SELECT AVG(COLUMN_NAME) FROM TABLE_NAME;从 "access_log" 表的 "count" 列获取平均值:SELECT AVG(count) AS CountAverage FROM access_log;选择访问量高于平均访问量的 "site_id" 和 "count":SELECT site_id, count FROM access_log WHER...

2021-10-19 11:07:13 239

原创 SQL语句(中)

"Websites" 表中的 "id" 列指向 "access_log" 表中的字段 "site_id"。上面这两个表是通过 "site_id" 列联系起来的。摘自菜鸟教程1.SQL SELECT TOP, LIMIT,ROWNUM子句SELECT TOP 子句用于规定要返回的记录的数目。并非所有的数据库系统都支持SELECT TOP语句,MYSQL支持LIMIT语句来选取指定的条数数据,ORACLE可以使用ROWNUM来选取。SQL Server语法SELECT TOP num...

2021-10-19 10:20:01 866

原创 SQL 语句(上)

摘自菜鸟教程1.SQL SELECTSELECT语句用于从数据库中选取数据。结果被存储在一个结果表中,称为结果集。SELECT column_name, column_name FROM table_name;SELECT * FROM table_name;其中* 表示从表中选取所有列。2.SQL SELECT DISTINCTSELECT DISTINCT 语句用于返回唯一不同的值。在表中,一个列可能会包含多个重复值,有时需要返回不同的值。DISTINCT关键...

2021-10-18 20:01:03 212

原创 百面机器学习之第12章 集成学习

1.集成学习的种类集成学习分哪几种?他们有何异同?1.Boosting Boosting方法训练基分类器时采用串行的方法,各个基分类器之间有依赖。 它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。2.Bagging Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器...

2021-10-10 15:09:20 516

原创 百面机器学习之第二章 模型评估(下)

1.余弦距离的应用为什么在一些场景中要使用余弦相似度而不是欧氏距离? 对于两个向量A和B,其余弦相似度定义为: 即两个向量夹角的余弦,关注的是向量之间的角度关系,并不关心它们的绝对大小,其取值范围是[-1,1]。当一对文本相似度的长度差距很大,但内容相近时,如果使用词频或词向量作为特征,它们在特征空间中的欧式距离通常很大;而如果使用余弦相似度的话,它们之间的夹角可能很小,因而相似度高。此外,当研究的对象的特征维度很高时,余弦相似度在高...

2021-10-09 13:03:45 182

原创 百面机器学习之第二章 模型评估(上)

模型评估只要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。1.评估指标的局限性准确率的局限性?分类准确率是指分类正确的样本占总样本个数的比例,即: 其中n_correct为被正确分类的样本个数,n_total为总样本的个数。 准确率是分类问题中最简单也是最直观的评价指标,但存在明显缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获...

2021-10-08 15:32:54 254

原创 百面机器学习之第一章 特征工程

特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际过程中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。1.特征归一化为什么需要对数据类型的特征做归一化?为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,使得不同指标之间具有可比性。 对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内,最常用的...

2021-10-07 15:04:28 254

原创 常见的梯度下降法

为了降低随机梯度的方差,从而使得迭代算法更加稳定,也为了充分利用高度优化的矩阵运算操作,在实际应用种会同时处理若干训练数据,该方法称为小批量梯度下降法。对于小批量梯度下降法的使用,有以下三点需要注意的地方。(1)如何选取参数m?在不同的应用中,最优的m通常会不一样,需要通过调参选取。一般m取2的幂次时能充分利用矩阵运算操作,所以可以在2的幂次中选最优的取值,例如32,64,128,256等。(2)如何挑选m个训练数据?为了避免数据的特定顺序给算法收敛带来的影响,一般会在每次遍历训练数据之前,先对

2021-09-29 14:29:49 1158

原创 神经网络中的激活函数

为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质:连续并可导(允许少数点上不可导)的非线性函数,可导的激活函数可以直接利用数值优化的方法来学习网络参数。 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。 激活函数的导函数的值域要在一个合适的区间内,不能太大也不能太小,否则会影响训练的效率和稳定性。在神经网络中常用的激活函数Sigmoid型激活函数Sigmoid型函数是指一类S型曲线函数,为两端饱和函数(见文末解释什么是两端饱和函数)。常用的Sigmoid型函数有Lo

2021-09-29 14:25:05 1007

原创 机器学习(四)-------logistic 回归

logistic回归logistic回归实现原理:在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分为A类,小于0.5的数据被分为B类。Sigmoid函数  是一种阶跃函数。当x为0 时,Sigmoid函数值为0.5,。随着x的增长,对应的Sigmoid值将逼近于1;随着...

2018-09-26 15:46:41 425

原创 机器学习(三)------朴素贝叶斯

朴素贝叶斯概要不确定性知识表示与推理贝叶斯定理 朴素贝叶斯算法 算法基本流程 朴素贝叶斯算法的优缺点 朴素贝叶斯算法性能 算法小结贝叶斯定理贝叶斯定理的核心思想:选择具有最高概率的决策。贝叶斯概率引入先验知识和逻辑推理来处理不确定命题。条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率,条件概率公式为   。一般我们可以...

2018-09-23 15:54:55 404

原创 机器学习(二)-----决策树

决策树概要决策树的构造 ID3算法介绍 信息熵与信息增益 决策树的优缺点决策树的构造依决策树是托决策而建立起来的一种树。决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。选择属性,确定特征属性之间的拓扑关系。关键:分裂属性属...

2018-09-21 12:43:27 287

原创 机器学习(一)---k-近邻算法

K-近邻算法简要简单来说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。(即近朱者赤,近墨者黑)k-近邻算法原理 k-近邻算法的三要素 k-近邻算法的基本流程 k-近邻算法优缺点 k-近邻算法的适用数据范围k-近邻算法原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将...

2018-09-21 10:12:54 568

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除