- 博客(29)
- 收藏
- 关注
原创 动手学深度学习(五):卷积神经网络
卷积神经网络基础卷积神经网络(convolutional neural network)是含有卷积层(convolutional layer)的神经网络。本文中介绍的卷积神经网络均使用最常见的二维卷积层。它有高和宽两个空间维度,常用来处理图像数据。本文中,我们将介绍简单形式的二维卷积层的工作原理。1、二维互相关运算虽然卷积层得名于卷积(convolution)运算,但我们通常在卷积层中使用更...
2020-02-19 11:52:59
389
原创 动手学深度学习(四):机器翻译
机器翻译和注意力机制机器翻译是指将一段文本从一种语言自动翻译到另一种语言。因为一段文本序列在不同语言中的长度不一定相同,所以我们使用机器翻译为例来介绍编码器—解码器和注意力机制的应用。步骤1、读取和预处理2、含注意力机制的编码器—解码器我们将使用含注意力机制的编码器—解码器来将一段简短的法语翻译成英语。(1)编码器(2)注意力机制在“编码器—解码器(seq2seq)”⼀节⾥,解码器...
2020-02-19 11:38:55
959
原创 动手学深度学习(三):过拟合和欠拟合
模型选择1、训练误差和泛化误差训练误差:指模型在训练数据集上表现出的误差。泛化误差:指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。机器学习模型应关注降低泛化误差。2、模型选择验证数据集预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集,简称验证集。例如,我们可以从给定的训练集中随机选取一小部分作为验证集,而将...
2020-02-19 11:09:46
329
原创 动手学深度学习(二):循环神经网络
语言模型语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为T的文本中的词依次为w1,w2,…,wT,那么在离散的时间序列中,wt(1≤t≤T)可看作在时间步(time step)t的输出或标签。1、语言模型的计算例如,在一段含有4个词的文本序列的概率:我们需要计算词的...
2020-02-14 15:15:23
267
原创 动手学深度学习(一):回归和多层感知机
线性回归1、线性回归与分类线性回归输出是一个连续值,在实际中很常见,如预测房屋价格、气温、销售额等连续值的问题。分类问题中模型的最终输出是一个离散值。图像分类、垃圾邮件识别、疾病检测等输出为离散值的问题都属于分类问题的范畴。2、模型设房屋的面积为 x1 ,房龄为 x2 ,售出价格为 y 。需要建立基于输入 x1 和 x2 来计算输出 y 的表达式:y’=x1w1+x2w2+b(w1 和...
2020-02-14 14:25:13
1610
深度学习
一、深度学习步骤1、定义好一堆函数(神经网络)这是一个神经网络,有左边是输入、权重、b代表偏差,再经过激活函数输出值多个神经网络相连举例:应用于图片识别,输入一张图片“2”,输入值为像素值,输出是某个数字的概率,是一个十维度的向量,我们的目的是想得到结果说是“2”的概率最大。2、训练函数一个好的函数应该训练所有例子的损失函数,所谓损失函数是指预测值与目标函数的误差。根据已知的模型...
2019-10-18 09:42:42
864
原创 数据挖掘实战(六):模型融合
文章目录一、模型融合简介1、Voting2、Averaging3、Stacking二、Stacking代码实现任务:模型融合,模型融合方式任意,并结合Task5给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。一、模型融合简介1、Voting从最简单的Voting说起,这也可以说是一种模型融合。假设...
2019-08-18 11:33:20
443
原创 数据挖掘实战(五):模型调优
文章目录一、K折交叉验证和网格搜索法1、K折交叉验证2、网格搜索法二、代码实现1、利用GGridSearchCV调参1.1 参数1.2 划分数据集1.3 模型用字典集合1.4 查看参数2、参数优化前后对比使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。一、K折交叉验证和网格搜索法1、K折交叉验证K折交叉验证(k-fold cross...
2019-08-15 16:04:34
958
原创 数据挖掘实战(四):模型评估
文章目录一、模型评估方法二、代码实现任务要求:记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线一、模型评估方法举例一:假设有1000个病人的数据,要对1000个病人进行分类,有哪些是癌症的?哪些不是患有癌症的?假设其中有990个人不患癌症,10个人是患癌症。(1...
2019-08-14 09:07:46
768
原创 机器学习(七):贝叶斯之新闻分类器
文章目录一、文档与关键词提取1、 停用词2、Tf-idf:关键词提取3、相似度二、新闻分类器1、 数据2、 分词:使用结巴分词器3、 TF-IDF:整个文章关键词提取4、 LDA:主题模型5、基于贝叶斯算法进行新闻分类一、文档与关键词提取1、 停用词在一篇文档中,有很多停用词,比如“今天”、“明天”、“一下”…这些词对文本的分析都没有用处,跟主题没有关系。2、Tf-idf:关键词提取TF...
2019-08-12 10:25:02
1464
原创 数据挖掘实战(三):模型构建
用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)1、数据处理import matplotlib.pyplot as pltimport pandas as pdimport numpy as npdf = pd.read_csv('data.csv',encoding='gbk')df_raw = df.copy()d...
2019-08-11 09:35:03
391
原创 数据挖掘实战(二):特征工程
文章目录一、特征衍生二、特征选择1. 利用随机森林做特征选择2. 利用IV值做特征选择2.1 WOE2.2 IV2.3 代码实现3. 利用相关系数做特征选择一、特征衍生特征衍生是现有的特征进行某种组合,生成新的具有含义的特征。举例:下面有份数据集,这份数据表示的是用户在电商平台上的购物行为(购物行为0表示点击但未购买,1表示购买)通过这份数据(1〜9月的购物数据),需要解决的场景是预测...
2019-08-08 16:49:45
942
原创 机器学习(六):贝叶斯
文章目录一、条件概率1. 介绍2. 举例2.1 分析2.2 计算二、拼字纠错案例1. 介绍2. 代码实现2.1 计算词频2.2 编辑距离2.3 计算拼错概率一、条件概率1. 介绍条件概率:指在事件B发生的情况下,事件A发生的概率,用P(A|B)表示。在事件B发生的情况下,事件A发生的概率:推导得:同理得:因此:贝叶斯公式:这里把P(A)称为“先验概率”,也就是在B事件...
2019-08-06 18:08:45
592
原创 数据挖掘实战(一):数据分析
文章目录一、数据集二、数据分析1. 数据分析1.1查看数据类型1.2 查看缺失值1.3 查看每列某类重复值占的最大比例2. 无关特征删除3. 数据类型处理4. 缺失值填补三、总结一、数据集本次数据集是金融数据,做的是预测贷款用户是否会逾期。一共有89个特征,表格中 “status” 是结果标签:0表示未逾期,1表示逾期。部分数据集如下:对数据进行处理:数据类型的分析、无关特征删除、数据类型...
2019-08-05 21:13:06
998
原创 机器学习(五):决策树
文章目录一、决策树1、简介2、衡量标准-熵3、如何选择节点4、决策树算法5、决策树剪枝策略5.1 为什么剪枝5.2 剪枝策略6、代码实现一、决策树1、简介决策树是一个树结构,每个非叶子节点表示一个特征属性,每个叶子节点存放一个类别。进行决策的过程就是从根节点开始一步步走到叶子节点。训练阶段:根据给定数据集,从根节点开始选择特征,构造出一棵树。测试阶段:根据构造出来的树模型从上到下走一遍。...
2019-08-01 15:48:12
1042
原创 机器学习(四):逻辑回归实战——信用卡欺诈检测
文章目录1、数据2、样本不均衡解决方案3、交叉验证4、模型评估方法5、正则化惩罚6、混淆矩阵7、逻辑回归阈值对于结果的影响8、SMOTE算法1、数据数据链接在此https://pan.baidu.com/s/1APgU4cTAaM9zb8_xAIc41Q密码: xgg7import pandas as pdimport matplotlib.pyplot as pltimport nu...
2019-07-26 18:57:55
1954
原创 机器学习(三):逻辑回归
文章目录一、问题的引入二、逻辑回归模型1、函数:2、根据图像,可知:3、代价函数3、梯度下降求使得代价函数最小的参数三、代码实现1、前言2、数据2、建立分类器3、损失函数,计算损失4、计算每个参数的梯度三、三种不同的梯度下降方法1、三种停止策略2、三种梯度下降方法2.1 洗牌2.2 梯度下降求解一、问题的引入在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。比如:判断一封电...
2019-07-26 18:37:07
224
原创 MySQL小项目练习
文章目录1、数据导入导出1.1 导入sql1.2导入csv文件1.3 导出数据2、作业项目七:各部门工资最高的员工项目八:换座位项目九: 分数排名项目十:行程和用户1、数据导入导出1.1 导入sqlmysql> create database bookrecommend;mysql> use bookrecommend;mysql> set names utf8;m...
2019-04-06 22:29:33
1995
1
原创 推荐系统之基于标签的推荐算法
文章目录1、联系用户和物品的途径2、标签系统的典型代表3、基于标签的推荐系统1、联系用户和物品的途径第一种方式利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品,第二张方式是利用和用户兴趣相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品,第三种是通过一些特征联系用户和物品,向用户推荐用户喜欢的特征的物品集合。特征包括物品的属性集合,也可以是隐语义向量。这文将讨论一直...
2019-04-05 20:41:16
7543
原创 MySQL学习笔记(三)
文章目录1、MySQL表数据类型1.1 数值1.2 日期/时间1.3 字符串类型2、用SQL语句创建表3、用SQL语句向表中添加数据4、用SQL语句删除表5、用SQL语句修改表5.1 删除、添加字段5.2 修改字段5.3 修改表名作业:项目三:超过5名学生的课项目四:交换工资6、表联结6.1 MySQL别名6.2 INNER JOIN6.3 LEFT JOIN6.4 CROSS JOIN6.5 自...
2019-04-04 17:59:45
583
原创 推荐系统之协同过滤
文章目录1、协同过滤算法简介2、协同过滤算法核心3、基于用户的协同过滤3.1步骤:3.2 优缺点:4 基于物品的协同过滤4.1 步骤:1、协同过滤算法简介协同过滤就是指利用兴趣相投、拥有共同经验群体的喜好来推荐用户感兴趣的信息。一般分为基于用户的协同过滤和基于物品的协同过滤。2、协同过滤算法核心(1)收集用户评分、物品信息集(2)找到相似的用户或物品(3)计算并进行推荐3、基于用户的...
2019-04-02 11:42:13
821
原创 MySQL学习笔记(二)
文章目录1、查询语句1.1 导入数据库1.2 查询语句 SELECT FROM1.3 where子句1.4 GROUP BY分组语句1.5 ORDER BY排序语句1.6 函数1.7 注释1.8 格式建议2、练习2.1 查找重复的电子邮箱(难度:简单)2.2 查找大国(难度:简单)1、查询语句练习:https://www.yiibai.com/mysql/how-to-load-sample-...
2019-04-01 11:27:05
443
原创 MySQL学习笔记(一)
文章目录1、安装2、安装成功3、数据库基础知识4、MySQL数据库1、安装安装mysql,参考http://www.runoob.com/mysql/mysql-install.html安装Navicat,我使用的是破解版Navicat12,参考https://www.52pojie.cn/thread-692132-1-1.html2、安装成功安装好的的MySQL如下,记住要使用数据库...
2019-03-31 17:23:31
215
原创 python实现猜数字游戏
文章目录1、题目2、思路3、代码1、题目设计一个猜数字的游戏,系统随机生成一个1~100之间的整数,每猜一次系统就会提示玩家该数字是偏大还是偏小,如果猜中了,则告知玩家并提前结束游戏。2、思路用面向对象的编程方式来实现,把问题抽象化,这个游戏有3个属性,分别是随机数的取值范围,min和max,目标值 target,还有一个方法用于如何猜游戏,随着需求的变化,我们可以不断地加其他属性和方法。...
2019-01-27 14:28:55
9385
1
原创 机器学习(一)导论
文章目录一、机器学习应用领域1、数据挖掘机器学习相关(传统的监督学习/深度学习)2、计算机视觉(深度学习)3、自然语言处理(深度学习)4、机器人决策二、机器学习理论分类1、传统监督学习2、深度学习3、强化学习三、什么是机器学习?1、学习算法2、监督学习3、无监督学习一、机器学习应用领域数据挖掘计算机视觉(机器读懂图片)自然语言处理(机器理解文字)机器人决策(机器可以做决策)1、数据挖掘...
2019-01-10 18:34:41
238
原创 Sklearn学习笔记
文章目录1、Scikit learn 简介2、通用学习模式(2)数据集(3)代码(4)输出结果3、sklearn强大数据库(1)示例(2)也可以生成虚拟的数据四、sklearn的属性和功能5、正则化(1)示例(2)数据标准化对机器学习的影响1)不进行归一化2)进行归一化6、交叉验证(1)Model交叉验证法(2)以准确率判断分类模型的好坏(3)以平均方差判断回归模型的好坏1、Scikit lea...
2019-01-05 20:32:23
839
原创 Numpy学习笔记
文章目录Numpy学习笔记1、数组与numpy的区别2、numpy的属性3、numpy的创建array(1)创建全0数组(2)创建数据全为1数组(3)创建全空数组(4)创建连续数组4、numpy基础运算(1)一维矩阵的运算(2)多维矩阵的运算1)点乘dot()2)sum(),min(),max()用法3)索引argmin()和argmax()5、Numpy索引(1)一维索引6、Numpy arra...
2019-01-05 20:10:21
786
5
原创 Django学习笔记(一)
文章目录Django学习笔记(一)安装环境如何安装如何在pycharm中配置Anaconda的python工具包Django的安装Django学习笔记(一)安装环境推荐Anaconda+PycharmAnaconda是一个基于Python的数据处理和科学计算平台,它已经内置了许多非常有用的第三方库,装上Anaconda,就相当于把Python和一些如Numpy、Pandas、Scrip、M...
2019-01-03 20:31:23
138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人