- 博客(25)
- 收藏
- 关注
原创 SQL函数及总结
1.MAX()函数==>返回所选列的最大值--MAX语法SELECT MAX(column_name)FROM table_nameWHERE condition;--eg:SELECT MAX(user_age)FROM `table1`;2.MIN()函数==>返回所选列的最小值(用法同MAX)3.COUNT()函数--①COU...
2018-08-16 20:38:36
778
原创 SQL进阶语法(笔记)
SELESCT TOP子句==>指定返回记录的数量注意:1)不是所有的数据库都支持。2) MySQL==> LIMIT ORACLE ==> ROWNUM在MySQL中的用法:SELECT column_name(s)FROM table_nameWHERE conditionLIMIT number;在ORACLE中的用法:SELECT co...
2018-08-15 16:39:04
1238
原创 Sql之基础语法(笔记)
sql语法规则:①总是以关键字开头,分号结尾②不区分大小写最重要的SQL命令:SELECT - 从数据库中提取数据UPDATE - 更新数据库中的数据DELETE - 从数据库中删除数据INSERT INTO - 向数据库中插入新数据CREATE DATABASE - 创建新数据库ALTER DATABASE - 修改数据库CREATE TABLE - 创建新表ALT...
2018-08-14 21:00:41
509
原创 Git的一些常用操作
查看状态 命令行:$ git status查看项目的分时支们(包括本地和远程) 命令行: $ git branch -a删除本地分支 命令行: $ git branch -d <BranchName>删除远程分支 命令行: $ git push origin --delete <BranchName>执行本地文件提交上传的顺序命令行: $ git ...
2018-08-13 20:09:09
330
原创 NLP之Seq2Seq
如果你没有学习过LSTM的知识,那么你可以参考下笔者的前面的一篇文章:深度学习之RNN(循环神经网络)一 什么是Seq2Seq?所谓Seq2Seq(Sequence to Sequence), 就是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。它被提出于2014年,最早由两篇文章独立地阐述了它主要思想,分别是Google Brain团队的《Sequence to Sequen...
2018-08-12 21:52:38
29587
5
原创 自然语言处理(NLP)概述
学了一段时间的自然语言,从今天起将陆续回顾所学的内容,如果您在我的文章中发现任何错误,或者有任何想法,欢迎与您交流,一起探讨,共同进步!!!一 NLP的主要研究内容笔者认为,学习任何一门课程,我们首先要知道课程的学习的价值和主要的研究内容。随着近年来人工智能的兴起,NLP的研究也逐渐火热,各方面的NLP应用也越来越多的改变着人们的生活。那么,当前的世界上对NLP的主要研究内容有哪些呢?...
2018-08-11 21:46:38
1374
原创 python之高阶函数map,reduce,filter用法
高阶函数的使用能够极大地简化python算法的复杂度(主要是逼格高了!!)。好了,不废话,直接看用法。map函数---它是将传入的函数依次作用到序列的每个元素上,并把结果作为新的Iterator返回。举例说明:# map函数testList = [1, 2, 3, 4, 5, 6, 7, 8, 9]def square(x): return x * xlist1 =...
2018-08-11 11:23:08
800
原创 深度学习之目标检测与目标识别
本文主要讲述了目标识别中的第一种类型---基于region proposal的目标检测和目标识别的算法, 主要主要包括R-CNN,Fast R-CNN,Faster R-CNN等网络, 揭示了基于region proposal的目标检测和目标识别的算法的发展历程.此外,在开头还简要叙述了目标识别的分类及其应用的主要场景.
2018-06-05 21:58:54
60864
2
原创 深度学习之RNN(循环神经网络)
一 RNN概述 前面我们叙述了BP算法, CNN算法, 那么为什么还会有RNN呢?? 什么是RNN, 它到底有什么不同之处? RNN的主要应用领域有哪些呢?这些都是要讨论的问题. 1) BP算法,CNN之后, 为什么还有RNN? 细想BP算法,CNN(卷积神经网络)我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数...
2018-05-28 20:49:09
251653
26
原创 深度学习之卷积神经网络(Convolutional Neural Networks, CNN)(二)
前面我们说了CNN的一般层次结构及其每个层的作用等内容. 这一节将在前一节的内容的基础上, 讨论CNN中的参数初始化, CNN过拟合的处理方法, 参数学习的方法, CNN的优缺点等内容.一 CNN参数初始化...
2018-05-28 09:39:22
4883
原创 深度学习之卷积神经网络(Convolutional Neural Networks, CNN)(一)
前面, 我们介绍了DNN及其参数求解的方法(BP算法),我们知道了DNN仍然存在很多的问题,其中最主要的就是BP求解可能造成的梯度消失和梯度爆炸的问题.那么,人们又是怎么解决这个问题的呢?本节的卷积神经网络(Convolutional Neural Networks, CNN)就是一种解决方法. 我们知道神经网络主要有三个部分组成, 分别为: ① 网络结构--- 描述...
2018-05-16 21:15:33
28425
原创 深度学习之BP算法
作为深度学习领域的破冰之作,BP神经网络重新燃起了人们对深度学习的热情.它解决了DNN中的隐层传递中的权重值的计算问题.那么,BP算法思想是什么?它又是如何实现的呢?这就是本节的研究内容.一.BP算法的提出及其算法思想 神经网络主要是由三个部分组成的,分别是:1) 网络架构 2) 激活函数 3) 找出最优权重值的参数学习算法. BP算法就是目前使用较为广泛的一种参数学习算...
2018-05-14 21:43:19
97732
16
原创 朴素贝叶斯算法(Naive Bayes)
一.相关公式 先验概率P(A):在不考虑任何条件下,根据经验或样本统计给出的事件发生的概率. 条件概率P(B|A):A事件发生的条件下,事件B发生的概率. 后验概率P(A|B):事件B发生后,对事件A的概率的重新评估. Bayes公式: 贝叶斯公式是由条件概率和全概率公式组成.二.贝叶斯算法 1. 朴素贝叶斯的特征条件独立性假设 朴素贝叶斯认为...
2018-05-04 15:46:48
7241
原创 交叉验证(Cross Validation)与网格交叉验证(GridSearchCV)的区别
一.交叉验证 交叉验证就是将原始数据集(dataset)划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果. 作用: 1) 交叉验证是用来评估模型在新的数据集上的预测效果,也可以一定程度上减小模型的过拟合 2) 还可以从有限的数据中获取尽可能多的有效信息。 交叉验证主要有以下几种方法: ① 留出法.简单地将原始数据集划分为训练集,验证集...
2018-05-03 16:49:25
5529
5
原创 Logistic回归算法
一.logistic回归要点概述 Logistic回归算法是机器学习中的较为简单的也是一般教学中首先讲解的算法. 对于Logisti回归,我们首先要知道它是一种二分类算法,不是回归算法. 其次,我们要知道Logistic回归的一个重要的函数:sigmoid函数以及为什么选用这个函数?这些在后面都会讲到. 最后,我们还要知道Logistic回归的目标函数是什么?如何用梯度下降...
2018-05-01 11:20:48
1567
原创 SVM算法(Support Victor Machine,支持向量机)
一、SVM前置知识 1) SVM的思想 对于线性可分的数据集,我们一定可以找到多个超平面(二维是直线,三维是平面)将数据集分为两个类别,这个就是SVM算法的前身感知器模型。 SVM算法就是在感知器模型的基础上,找到一个超平面将数据集分为两类,并且使得距离超平面最近的点距离超平面最远。其实这也很好理解,距离超平面越近说明越容易被分类到其它类别中去,置信度也就越低,要想置信度大只有使...
2018-04-13 11:38:59
2209
原创 聚类算法(无监督算法)
一、聚类算法简介 聚类的基本思想:对于给定的M个样本的数据集,给定聚类(簇)的个数K(K<M),初始化每个样本所属的类别,再根据一定的规则不断地迭代并重新划分数据集的类别(改变样本与簇的类别关系),使得每一次的划分都比上一次的划分要好。 聚类是一种无监督的算法。 距离的常用度量方法:欧氏距离(P=2)二、聚类算法分类 聚类算法有很多种,主要分为划分聚类、密度聚类和谱聚...
2018-04-10 11:18:21
24099
1
原创 集成学习(Ensemble Learning)
一、集成学习简介 集成学习的思想就是将多个弱学习器组合成一个强学习器。集成学习的优点在于保证了弱分类器的多样性,使得其得到的结果往往比单个学习器的效果好(可以理解为真理往往掌握在大多数人手中)。 常见的集成学习的思想主要有: 1)bagging (自举汇聚法) bagging算法:对于有m个样本的原始数据集,进行n次有放回的抽样得到一个样本,重复s次操作得到s个数据集...
2018-04-08 16:00:20
2107
原创 决策树(DecisionTree)
一、决策树前置知识准备 1.1 信息熵 信息熵也叫香农熵,其计算公式为: 1.2 条件熵 在给定X的条件下,所有的不同x值的条件下Y的熵的平均值叫做条件熵。 计算公式为: 1.3 纯度度量的公式(值越大越不纯) 1)信息熵 2)基尼系数 3)错误率 ...
2018-04-07 11:13:09
1089
原创 KNN(K近邻)总结
一、KNN思想简介 KNN 采用的是“物以类聚,人以群分”的思想。也就是找出K个距离待遇测点最近的数据点,然后根据这K个点的类别(或者数值),根据一定的规则判断(或者计算)得到带预测点的类别(或者数值)。 KNN的核心就是找出数据点的K个邻近的数据点。 在分类中采用少数服从多数或者加权的少数服从多数的分类方法。(当然,KNN一般用于分类) 在回归中采用平均值或者加权平均值的...
2018-04-06 21:27:51
779
原创 特征工程(总结)
一、数据清洗 1.1 预处理 1)数据处理工具的选择: 一般选用数据库处理和Python等工具处理。 2)查看数据的元数据以及数据特征 1.2 缺省值处理(删除、补全) 缺省值处理的一般步骤:确定缺省值范围、去除不需要的字段、填充缺省值内容(经验值、均值、中位数、众数、推测值)、重新获取数据。 1.3 格式、内容错误的数据(修改、删除) 1.4 逻辑错误...
2018-04-05 22:00:45
2106
原创 HMM算法概述(总结)
一:马尔科夫简述 1.1 马尔科夫性质:设{X(t), t ∈ T}是一个随机过程,E为其状态空间,若对于任意的t 1 <t 2 < ...<t n <t,任意的x 1 ,x 2 ,...,x n ,x∈E,随机变量X(t)在已知变量X(t 1 )=x 1 ,...,X(t n )=x n 之下的条件分布函数只与X(t n )=x n 有关,而与X(t 1 )=x 1...
2018-04-03 15:53:46
6511
原创 线性回归及其梯度下降法(小结)
所谓回归,就是根据已知数据集及其标签集预测出一个模型,并可以根据这个预测出来的模型预测出未知标签的数据对应的值。常见的回归方法有:线性回归、Lasso回归、Ridge回归、多项式回归、决策树等。线性回归,就是根据实际数据集和标签集,找到最符合的,使得成立。其中为实际值与预测值之间的误差值。那么,怎么求解最优的拟合直线呢?根据中心极限定理,可知误差值服从高斯分布。在这里,我们省略极大似然估计过程,直...
2018-04-02 22:14:09
1109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人