- 博客(41)
- 收藏
- 关注
原创 spark java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
在用spark连接mysql数据库时出现java.lang.ClassNotFoundException: com.mysql.jdbc.Driver报错,可以通过设置–driver-class-path /path/mysql-connector-java-5.1.46.jar来完美解决/home/hadoop/spark/spark-2.4.0-bin-hadoop2.7/bin/spar...
2019-08-12 14:03:45
4078
2
原创 linux离线部署python环境
在实际生产中,经常需要离线在服务器上部署python环境。第一步:安装python环境选择安装miniconda3作为python环境。下载Miniconda3-latest-Linux-x86_64.sh之后安装即可,习惯将路径保存为/opt/miniconda3sh Miniconda3-latest-Linux-x86_64.sh第二步:安装离线包第一种方法:在安装离线包时,...
2019-07-23 16:23:35
1568
原创 spark-submit 碰到 Spark-submit:System memory 466092032 must be at least 471859200
在利用spark进行分布式计算时,/home/hadoop/spark/spark-2.4.0-bin-hadoop2.7/bin/spark-submit --master=yarn ALS.py以上代码是在centos7,利用spark集群运行ALS.py代码,结果出现报错:Spark-submit:System memory 466092032 m...
2019-07-22 15:44:01
333
原创 Python实现Adaboost(decisiontree)
from sklearn import datasetsfrom sklearn.svm import LinearSVCfrom sklearn import ensemblefrom sklearn.model_selection import validation_curveimport matplotlib.pyplot as pltimport numpy as npdat
2017-09-07 17:57:30
1193
原创 Python进行参数调优GridSearchCV和RandomizedSearchCV
# -*- coding: utf-8 -*-"""Created on Wed Sep 6 14:30:24 2017@author: 飘的心"""from sklearn.datasets import load_digitsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selec
2017-09-06 15:27:25
12325
原创 python学习learning_curve和validation_curve
learning_curve是展示不同数据量,算法学习得分validation_curve是展示某个因子,不同取值的算法得分# -*- coding: utf-8 -*-"""Created on Wed Sep 06 09:55:13 2017@author: 飘的心"""from sklearn.model_selection import learning_curve
2017-09-06 11:37:00
8524
原创 sklean中交叉检验和混淆矩阵
'''今天学习到的东西,、很重要'''#cross_validationfrom sklearn import cross_validationx_train,x_test,y_train,x_test=cross_validation(x,y,test_size=0.25, random_state=0,stratify=y
2017-09-05 17:18:36
3912
1
原创 Python实现CART,并且展示混淆矩阵
# -*- coding: utf-8 -*-"""Created on Tue Sep 5 16:18:15 2017@author: piaodexin"""from sklearn import datasetsfrom sklearn import cross_validationfrom sklearn.tree import DecisionTreeClassifi
2017-09-05 16:36:55
1198
原创 Python实现KMeans聚类
from sklearn import datasets #加载数据包from sklearn.cluster import KMeans #加载KMeansfrom sklearn import cross_validation #加载交叉检验,然后处理数据data=datasets.load_iris()x=data.datay=data.targetx_train,x_t
2017-09-05 14:46:12
643
原创 python实现自编码器autoencode
# -*- coding: utf-8 -*-"""Created on Sun Sep 3 13:48:19 2017@author: piaodexin"""from __future__ import division, print_function, absolute_importimport tensorflow as tffrom tensorflow.exampl
2017-09-03 16:59:02
9589
1
原创 抓取360图片
"""Created on Tue Apr 18 12:47:50 2017@author: 飘的心"""import requestsfrom bs4 import BeautifulSoupimport jsonimport osdef load_img(key): url='http://image.so.com/i?ie=utf-8&src=hao_360so
2017-09-01 16:45:37
1102
原创 Python中学习器流水线Pipeline
'''sklean提供的pipeline来将多个学习器组成流水线,通常流水线的形式为:将数据标准化的学习器---特征提取的学习器---执行预测的学习器除了最后一个学习器之外,前面的所有学习器必须提供transform方法,该方法用于数据转化(例如: 归一化,正则化,以及特征提取'''from sklearn.datasets import load_digitsfro
2017-09-01 16:25:48
17189
2
原创 对糖尿病数据进行PCA降维
from sklearn import datasets #加载数据集from sklearn import decompositiondata=datasets.load_diabetes() data=data.datajiangwei=decomposition.PCA(n_components=4) #提取四个主成分jiangwei.fit(data)jiangwe
2017-09-01 15:15:43
1289
原创 Python将数据写入netCDF4中
'''输入的data的shape=(627,652)'''def write_to_nc_canque(data,file_name_path): import netCDF4 as nc lonS=np.linspace(119.885,120.536,652) latS=np.linspace(29.984,29.358,627) da=nc.Datase
2017-09-01 14:52:01
11581
原创 Python实现感知器
# -*- coding: utf-8 -*-"""Created on Fri Sep 1 11:56:12 2017@author: piaodexin"""#import pandas as pdimport numpy as np#生成正标签数据x1=np.random.randn(50,2)+40y1=np.ones((50,1))data1=np.hstack
2017-09-01 14:45:39
1084
原创 pthon连接mysql和sqlserver
import pymysqlconn=pymsql.connect(host=host0,user=uid0,password=pwd0,database=db0,charset='utf-8')cur=conn.cursor()cur.excute('insert into table(...) values(...)')#插入数据conn.commit() #
2017-08-24 15:57:14
319
原创 MYSQL语句读取顺序
在mysql中,读取顺序:开始----from---where----group by---having---order by---select ----limit 例子:原始表格信息:语句:查询成绩有1门以上不及格的学生select name,count(*) as gkfrom aawhere scoregroup by nameh
2017-08-23 17:34:50
1261
原创 学习mysql
#创建表格,decimal(10,2) 代表最长10位,小数点后两位create table hydropowermeteorology.hehe(id varchar(20) primary key not null,name varchar(20),math decimal(10,2),english decimal (10,2))#查询表格select *
2017-08-23 15:35:01
286
原创 画饼图
"""===============Basic pie chart===============Demo of a basic pie chart plus a few additional features.In addition to the basic pie chart, this demo shows a few optional features:
2017-08-22 14:46:24
572
原创 softmax回归
在分类中,我们会碰到二分类,这个时候我们就可以使用logistic回归,然后多分类的任务在现实中才是常见的,例如让你分类某一个电影属于哪一类,以及文章类型属于哪一类,这个时候我们就需要softmax回归。 在Logistic回归中,样本数据的值,而在softmax回归中,其中是类别种数,比如在分析电影类别时中,表示要识别的10种类型的电影。设
2017-08-22 11:26:24
653
原创 浅谈广义线性回归
首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下 其中为自然参数,它可能是一个向量,而叫做充分统计量,也可能是一个向量,通常来说。 实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量服从高斯分布,那么 得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。 那么如
2017-08-22 11:06:12
7621
原创 Python学习异常检测
# -*- coding: utf-8 -*-"""Created on Mon Aug 21 14:11:22 2017@author: cq"""#python处理异常try : 2/0except Exception,e: #其中e为实例,即错误的实况 print(e) try: a
2017-08-21 18:05:35
1143
原创 Python进行特征提取
# -*- coding: utf-8 -*-"""Created on Mon Aug 21 10:57:29 2017@author: 飘的心"""#过滤式特征选择#根据方差进行选择,方差越小,代表该属性识别能力很差,可以剔除from sklearn.feature_selection import VarianceThresholdx=[[100,1,
2017-08-21 17:11:07
15266
2
原创 hessian矩阵
黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出,并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题。函数方程为y=f(x1,x2,x3,.......xn),则hessian矩阵就是:因为求导的顺序不影响最终结果,所以它
2017-08-20 13:29:40
2022
转载 机器学习中牛顿法与拟牛顿法
提要:今天讲的牛顿法与拟牛顿法是求解无约束问题最优化方法的常用方法。一 牛顿法假设我们求下面函数的最小值:假设f(x)具有连续的二阶的连续偏导数,假设第K次迭代值为xk的值,那么可将f(X)在xk附近进行二阶泰勒展开得到:我们对上述公式求导可得: 假设其中可逆,我们就可以得到牛顿法的迭代公式为: 这样就可以
2017-08-20 00:36:36
647
原创 python增加xml文件节点
from xml.etree.ElementTree import ElementTree,Elementtree=ElementTree()tree.parse('D://myself.xml')#下面主要是在根目录里加一级目录#2得到根目录root=tree.getroot()#创建一级目录element=Element('train',{'name':'w
2017-08-18 16:29:13
20313
5
转载 Python读取与更改xml文件
'''原始文档内容 path="/tmp"> output_formatter="OutPutFormatt
2017-08-18 16:05:16
10463
1
原创 用python写xml文件
info=[{'id':1,'name':'wang','age':10,'major':'math'}, {'id':2,'name':'zhang','age':11,'major':'statistic'}, {'id':3,'name':'shan','age':18,'major':'english'}, {'id':4,'name':'chen
2017-08-18 11:46:19
824
原创 大批量导入数据到mysql中
#大量导入数据进入MySQLimport pymysqlconn=pymysql.connect(host=host0,user=uid0,password=pwd0,database=db0,charset="utf8")cur=conn.cursor()tt='insert into kuqu(id,name,shuliang) values 'for i,a in enu
2017-08-18 10:46:36
447
原创 Python进行数据处理
# -*- coding: utf-8 -*-"""Created on Thu Aug 17 17:15:14 2017@author: cq"""#二元化from sklearn.preprocessing import Binarizerx=[[1,2,3,4,5], [5,4,3,2,1], [3,3,3,3,3], [1,1,1
2017-08-17 18:02:26
492
转载 python实现神经网络
# -*- coding: utf-8 -*-"""Created on Sun Jul 30 18:23:26 2017@author: r"""import randomimport mathrandom.seed(0)def rand(a,b): return (b-a)*random.random()+adef make
2017-08-17 00:34:08
535
原创 python.numpy的简单学习
>>> import numpy as np>>> >>> a1=np.arange(0,16,2) #生成数组,第一个值是起始值,第二个值是结束值,第三个是差值,a1 #第一个、第三个值可以省略,但是第二个值必须有,如果只有第三个,则起点为0,差值为1>>> a2=np.linspace(0,1,100) #生成等差序列,起始值为0,结束值为1
2017-08-16 10:37:28
278
原创 机器学习中的特征选择和优缺点
特征选择和机器学习算法两者存在紧密的联系,根据特征选择中子集评价标准和后续学习算法的结合方式可分为嵌入式(embedded)、过滤式(filter)和封装式(wraper)1.嵌入式特征选择在嵌入式特征选择中,特征选择算法本身作为组成部分嵌入到学习算法里,最典型的就是决策树算法,如Quinlan的ID3,C4.5以及Breiman的CART算法等,决策树算法在树增长过程的每个递归步
2017-08-15 23:49:40
20280
原创 随机森林的优缺点
随机森林是建立在决策树的基础上,决策树在分类时是选择所有变量,而随机森林则是产生很多决策树,然后每根决策树选择不同的变量,进行分析,最后选取决策树中的众数,作为最终结果优点:不会产生过拟合现象可以作用在高维数据中能够展现出那些变量重要具有很好的抗干扰能力可以并行处理缺点:可能有很多相似的决策树,掩盖了真实的结果对小数据或者底维数据可能不能
2017-08-14 21:24:39
6585
原创 决策树的优缺点
优点:得出结果的过程易于理解,比神经网络等黑箱操作好理解 计算量较小比其他算法计算的较快缺点:很容易造成过拟合,需要采用剪枝操作 当类别太多时,会很复杂
2017-08-14 21:20:44
4501
原创 神经网络为什么要使用激活函数,为什么relu要比sigmoid要好
第一个问题:为什么引入非线性激励函数?如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与只有一个隐藏层效果相当,这种情况就是多层感知机(MLP)了。正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最
2017-08-14 16:33:46
7025
2
转载 神经网络中梯度消失的原因
转载自哈工大SCIR(公众号) 为了弄清楚为何会出现消失的梯度,来看看一个极简单的深度神经网络:每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络:
2017-08-14 16:22:50
3141
转载 各种激活函数的比较
激活函数的作用首先,激活函数不是真的要去激活什么。在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。比如在下面的这个问题中:如上图(图片来源),在最简单的情况下,数据是线性可分的,只需要一条直线就已经能够对样本进行很好地分类。但如果情况变得复杂了一点呢?在上图中(图片来源),数据就变成了线性不可分的情况。在这种情况
2017-08-14 16:01:07
12818
1
转载 logict分类器和sigmoid分类器
首先说明啊:logistic分类器是以Bernoulli(伯努利) 分布为模型建模的,它可以用来分两种类别;而softmax分类器以多项式分布(Multinomial Distribution)为模型建模的,它可以分多种互斥的类别。补充:什么是伯努利分布?伯努利分布[2] 是一种离散分布,有两种可能的结果。1表示成功,出现的概率为p(其中0什么是二项分布?二项分布即重复
2017-08-14 15:53:57
2150
转载 spark基础了解
概述 经过多年来开拓性的工作,UC Berkeley AMP Lab开发了Spark。它使用分布式内存数据结构,提高了数据处理的速度,在大多数工作上优于Haddop。本文用一个真实的数据集,展示Spark的结构,以及基本的转换(transformations)与行动(actions)。如果你想尝试编写和运行自己的Spark代码,可以到Dataquest试试本教程的(英文)互动版本。
2017-08-11 16:59:14
472
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人