- 博客(66)
- 资源 (18)
- 收藏
- 关注

原创 机器学习实战+源代码
1. 内容提要本书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的 Python 代码阐 释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学习算法,并将其运用于某些策略性任务中,如分类、预测及推荐等。本书适合机器学习相关研究人员及互联网从业人员学习参考。本书没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码...
2020-03-06 17:02:47
7668

原创 Linux命令的基本使用
常用 Linux 命令命令 作用 ls 查看当前文件夹下的内容 pwd 查看当前所在文件夹 cd[目录名] 切换文件 touch[文件名] 如果文件不存在,新建文件 mkdir[目录名] 创建目录 rm[文件名] 删除指定的文件名 clear 清屏 ctrl + shift + = 放大终端窗口的字体显示ctr...
2019-12-22 17:49:57
292

原创 动手学深度学习
(资料下载方式见文末)内容简介:本书向希望了解深度学习,特别是对实际使用深度学习感兴趣的学习者。本书并不要求你有任何深度学习或者机器学习的背景知识,我们将从头开始解释每个概念。虽然深度学习技术与应用的阐述涉及了数学和编程,但你只需了解基础的数学和编程,例如基础的线性代数、微分和概率,以及基础的Python编程。本书将全⾯介绍深度学习从模型构造到模型训练的⽅⽅⾯⾯,以及它们在计算机视觉和⾃...
2019-12-04 10:29:02
716

原创 filter用法--Python
filter被称为高阶函数是有道理的。filter(self, /, *args, **kwargs)Docstring: filter(function or None, iterable) --> filter object Return an iterator yielding those items of iterable for which functio...
2019-06-06 10:28:10
2245

原创 conda虚拟环境
查看所有环境conda info --envs新建虚拟环境conda create -n myenv python=3.6删除虚拟环境conda remove -n myenv --all激活虚拟环境conda activate myenv退出虚拟环境conda deactivate myenvImportError: numpy.core.mu...
2019-06-04 10:39:50
1098

原创 特征工程
本节将介绍特征工程的一些常见示例:表示分类数据的特征、表示文本的特征和表示图像的特征。另外,还会介绍提高模型复杂度的衍生特征和处理缺失数据的填充方法。这个过程通常被称为向量化,因为它把任意格式的数据转换成具有良好特性的向量形式。01分类数据一种常见的非数值数据类型是分类数据。例如,浏览房屋数据的时候,除了看到“房价”(price)和“面积”(rooms)之类的数值特征,还会有“地...
2019-05-21 08:58:52
353

原创 win10配置jdk环境
安装JDK首先下载jdk进官网下载jdkhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html本篇文章下载1.8的选择相应的系统。一键安装即可。安装后会有两个jre,一个jdk内部的,和jdk外部的关于两套jre的解释一个jre文件在JDK的外部,一个...
2019-05-20 09:48:26
284

原创 pycharm如何从第一个断点跳转至第二个断点
pycharm如何从第一个断点跳转至第二个断点例如第一个断点在第一行第二个断点在第五十行那么开始debug后,首先停在第一行随后点击菜单栏的Run-> Resume Program即可跳转至第二个断点...
2019-05-15 00:14:42
2455

原创 SVN更新后新上传的文件不包含在项目中,需要手动添加“包含在项目中”解决办法
当我们把新添加的文件提交到SVN后,其他人虽然能够获取新文件,但是文件不能自动加载到项目中。解决办法是:我们不仅要把所添加的文件提交到SVN,还需要把项目文件一起提交。原因就是svn提交的过程中没有提交.csproj文件。将文件提交后,就可以正常使用。...
2019-05-13 09:43:49
2464

转载 PyCharm 操作技巧
#0. PyCharm 常用快捷键#1.查看使用库源码PyCharm 主程序员在 Stackoverflow 上答道经常听人说,多看源码。源码不仅能帮我们搞清楚运行机制,还能学习优秀的库或者框架的最佳实践。调用库时,你可以在你好奇的几乎任何地方点击Command+B,就可以很方便的跳转到源码里的类,方法,函数,变量的定义。#2. 让你的代码 PEP8写 P...
2019-04-25 11:48:12
2474

原创 Pycharm中代码块整体缩进快捷键
使用pycharm时,经常会需要多行代码同时缩进、左移1、多行代码同时缩进 选中多行代码,按下Tab键,一次缩进四个字符。2、多行代码同时左移 选中多行代码,同时按住shift+Tab键,一次左移四个字符。...
2019-03-19 11:17:25
5450

原创 交叉熵代价函数
1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+b 】。在训练神经网络过程中,我们通过梯度下降算法来更新w和b,因此需要计算代价函数对w和b的导数:然后更新w、b:w <—— ...
2019-03-14 17:01:12
394

原创 正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitting,...
2019-03-14 16:40:37
383

原创 XGBoost常用参数说明
xgboost是⼀种⾼效率boosting算法,适⽤回归和⼆分类问题,详见 https://github.com/dmlc/xgboost 。参数说明:常见问题输⼊特征和⽬标特征都必须是int和double类型。搜索公众号:ai_works,获取更多机器学习资讯:长按二维码,关注:机器学习AI工场...
2019-03-14 16:22:52
521

原创 Matplotlib可视化最有价值的 50 个图表(附完整 Python 源代码)
本文总结了 Matplotlib 以及 Seaborn 用的最多的50个图形,掌握这些图形的绘制,对于数据分析的可视化有莫大的作用,强烈推荐大家阅读后续内容。在数据分析和可视化中最有用的 50 个 Matplotlib 图表。 这些图表列表允许您使用 python 的 matplotlib 和 seaborn 库选择要显示的可视化对象。介绍这些图表根据可视化目标的7个不同情景进行分组。...
2019-03-13 16:12:36
2071
1

原创 安装CPU版本Tensoflow
一、安装Anaconda3(1) 下载Anaconda安装文件(2) 注意安装Anaconda时一定要把环境变量加入windows环境中。要没有勾选,安装完后还有手动加入。而且注意3.4版本是默认不加入Anaconda的文件路径到环境变量的。 (3) 安装完成后,运行开始菜单—>Anaconda3—>Anaconda Prompt 输入如下命令查看已安装的库c...
2019-02-23 15:08:05
853

原创 机器学习之数据预处理(Python 实现)
数据清洗和预处理是模型训练之前的必要过程,否则模型可能就「废」了。本文将带你领略如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。数据预处理是建立机器学习模型的第一步(也很可能是最重要的一步),对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效——就是这么简单。人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和...
2019-02-22 10:15:20
2312

原创 机器学习经典算法优缺点对比及选择建议
1. 偏差&方差在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差(bias)和方差(variance):1. 偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。2. 方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。模型的真实误差是两者之...
2019-02-18 10:09:07
950

原创 机器学习—决策树(ID3算法)
作为机器学习中的一大类模型,树模型一直以来都颇受学界和业界的重视。目前无论是各大比赛各种大杀器的XGBoost、lightgbm还是像随机森林、Adaboost等典型集成学习模型,都是以决策树模型为基础的。传统的经典决策树算法包括ID3算法、C4.5算法以及GBDT的基分类器CART算法。 三大经典决策树算法最主要的区别在于其特征选择准则的不同。ID3算法选择特征的依据是信息增益、C4...
2019-02-15 09:49:51
1555

转载 8个清洗数据Python代码
最近,大数据工程师Kin Lim Lee在Medium上发表了一篇文章,介绍了8个用于数据清洗的Python代码。数据清洗,是进行数据分析和使用数据训练模型的必经之路,也是最耗费数据科学家/程序员精力的地方。这些用于数据清洗的代码有两个优点:一是由函数编写而成,不用改参数就可以直接使用。二是非常简单,加上注释最长的也不过11行。在介绍每一段代码时,Lee都给出了用途,也在代码中也给出注...
2019-02-11 11:55:39
1326

原创 数据预处理
第一步:导入需要的库这两个是我们需要导入的库,Numpy包含数学计算函数,Pandas用于导入和管理数据集。第二步:导入数据集数据集通常是.csv格式,CSV文件以文本形式保存表格数据。文件的每一行是一条数据记录。我们使用Pandas的read_csv()方法读取本地csv文件为一个数据帧。然后,从数据帧中制作自变量和因变量的矩阵和向量。第三步:处理丢失数据...
2019-02-09 13:25:47
331

原创 sklearn的train_test_split解析
train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0) 参数解释...
2019-02-09 11:56:03
649

原创 python中读取文件时路径问题
在python中,当前目录、父目录、根目录、子目录的表示分别示例如下:./当前目录../上级目录//:在python中,路径可以接受“/”“\”,由于“\”在python中是作为转义符使用,所以在路径中使用“\”时,要写成“\”,而在整个路径的字符串前面加 r 后可以在程序运行后只把反斜杠当做一个普通字符来用,也可以解决问题.1、当前目录:os.listdir(“.”) f1 = ope...
2019-02-09 11:37:59
11890

原创 Pycharm配置anaconda环境
具体步骤:File–> default settings –> project interpreter –> add在弹出来的对话框中左侧选择conda environment。由于我已经自己安装了anaconda,所以选择existing environment,在existing environment下边的interpreter(解释器)中选择anaconda安装...
2019-01-30 17:36:30
655

原创 Pandas中的read_csv()将第一行的数据变成了列名
Panda read_csv()在读取csv数据的时候把第一行的数据变成了列名,解决方法如下:设置参数data = pd.read_csv('./data.csv',header=None,encoding = 'gb18030') # 编码格式要注意将header的参数设置为None,问题解决。给数据添加列名还可以用下面的方法:data.columns = ['ID'...
2019-01-19 11:46:53
17006
2

原创 pandas的read_csv读入csv文件编码格式报错
在用pandas的read_csv()方法读取csv文件时报错 'utf-8' codec can't decode byte 0xbe in position 0data = pd.read_csv('./data.csv') 我们应该将编码该为gb18030data = pd.read_csv('./data.csv',encoding = 'gb18030') # 编...
2019-01-19 10:31:51
4724
2

原创 matplotlib图例、标签、坐标轴刻度的字体设置
plt.figure(figsize=[15,8]) plt.scatter(X, Y, label = 'RealValue')plt.plot(X, func(X, a, b), 'red', label = 'CurveLine') plt.title(station, fontdict={'family' : 'Times New Roman', 'size' : 16})plt...
2019-01-15 11:30:47
8559

原创 Selenium调用webdriver.chrome()时报错
问题描述: 今天因为在学习要使用selenium这个python库,我下载好了selenium,并且也Import成功了,但是在使用webdirver.chorme()时,却提示PATH路径中没有chromedriver。 解决方法: 下载和自己的chrome版本对应的chromedirver(我的版本是71,所以下载了2.45版本的chromedriver)。然后将这个文件解...
2019-01-13 00:31:35
5574
1

原创 sql 查询_嵌套查询
在做SQL查询的时候,遇到这样的问题:对一张表进行条件查询,在得到的查询结果中再对其中某列进行条件过滤,最终得到新的查询结果。可以通过以下语句实现:select * from(select * from table_A) table_A where PASSWORD='123' ...
2019-01-03 16:28:59
5191

原创 机器学习——朴素贝叶斯算法
朴素贝叶斯的“朴素”对应着“独立性假设”这一个朴素的假设、“贝叶斯”对应着“后验概率最大化”这一贝叶斯思想。朴素贝叶斯算法的一个非常重要的基本假设就是独立性假设:若样本空间X是n维的,那么对 ,我们假设 是有随机变量 生成的、且 之间在各种意义下相互独立。朴素贝叶斯算法一般来说包含三种模型:离散型朴素贝叶斯:所有维度的特征都是离散型随机变量。连续型朴素贝叶斯:所有维度的特征都是...
2018-12-28 17:37:57
1088

原创 LeetCode206 链表的逆置
链表逆序 (选自LeetCode206)已知链表头节点指针head,将链表逆序。(不可申请额外空间)图1.链表逆序 拆解链表逆序的过程: /*** 就地逆转法**//*** Definition for singly-linked list.* struct ListNode {* int val;* Lis...
2018-12-21 17:20:42
261

原创 机器学习算法之K近邻算法(KNN)
KNN是一种基本分类与回归算法,它没有显式的学习过程。它不像其他模型有损失函数、有优化算法、有训练过程。对于给定的实例数据和其对应的所属类别,当要对新的实例进行分类时,根据这个实例最近的K个实例所属的类别来决定其属于哪一个类。KNN算法示意图:图1.KNN算法KNN算法过程如下:KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决...
2018-12-20 20:54:40
1538

原创 ANACONDA Prompt中不能用使用pip install XXX 进行安装
解决办法:输入命令conda install -c anaconda html5lib会看到一系列更新的结果,然后再次使用pip安装包,发现可以成功安装。以上方法不成功的话,可以尝试输入命令:conda install pip执行完上面命令后执行 pip install pyecharts--------------------- ...
2018-11-16 16:29:14
7382
4

原创 vs2012中将图片放到resource中进行调用
1.在项目中新建一个名叫resource的文件夹,然后将所需图片信息放入该文件夹,如图2.右击该项目,选择属性-》资源选项卡,步骤如图所示点击添加现有文件,然后找到你刚刚添加的resource文件,将里面的所有图片全部添加进来。就此所有的准备工作就大功告成了。接下来一句代码,来告诉大家如何引用这些图片资源。 this.pictureBox1.Image = globa...
2018-11-08 15:41:47
3608

原创 VS2015使用Sublime Text主题
studio styles工具:studio styles,官网:http://studiostyl.es/ 在studiostyles上已经有许多制作好的主题了,快去下载你喜爱的主题吧安装方法如果之前安装了 Visaul Studio Color Theme Editor ,在使用studiostyles时可选择禁用它。1、下载好 vssettings文件链接...
2018-11-07 15:05:51
1241
3

原创 GitHub上传本地项目
首先你得注册一个自己的GitHub账号,注册网址:https://github.com/join 有了自己的账号以后,就可以进行登录,开始创建一个新的项目创建一个新的项目,填写项目名称,描述创建完成之后,跳转到下面的页面,下面红框中的网址要记住,在后面上传代码的时候需要使用接下来,我们需要先下载Git,这里最好下载最新版本的Git,这里附上我下载的Git2.6.2的网址...
2018-11-06 10:35:54
253

原创 树形模型集成库Xgboost&LightGBM
以下内容是个人学习笔记,图片及调参内容参考自寒小阳老师讲义。sklearn库:中小型数据集;Xgboost/LightGBM库:工业界大型数据,可以分布式部署。 工业界非常喜欢树形模型原因:(1)可解释性好,和人的判断非常相似,可以顺着树的路径找出做决策的方式,出问题容易debug。(2)树形模型不需要做幅度缩放,树分裂时不受各个特征变化幅度的影响(衡量各个特征时,熵/Gini index的...
2018-10-26 17:37:47
431

原创 scikit-learn使用joblib持久化模型过程中的问题详解
在机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:joblib.dump(clf,'../../data/model/randomforest.pkl')...
2018-10-25 10:43:50
1523

原创 Jupyter Notebook中快捷键
notebook里每一个叫做cell。Command和Edit模式Command mode 和 Edit mode。 在一个cell中,按下Enter,进入Edit模式,按下Esc,进入Command 模式运行当前cell,并移动到下一个Cell在一个cell中(在command模式下), Shift + Enter 创建Cell 在一个cell中(在command模式...
2018-10-23 17:49:51
466
Numerical Python
2018-07-26
Python面试题
2018-07-26
SqlServer2008安装报错处理
2018-07-20
SQL_SERVER_2008R2中文安装图文教程(win7_64位)
2018-03-30
Vue.js权威指南_PDF电子书下载 高清 带索引书签目录_张耀春;黄轶;王静;苏伟;王瑾;殷献勇(著) _电子工业出版社_P512_2016-09-01
2018-03-30
C语言的词法分析器
2011-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人