飘的心-优快云博客

原创 spark java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

在用spark连接mysql数据库时出现java.lang.ClassNotFoundException: com.mysql.jdbc.Driver报错，可以通过设置–driver-class-path /path/mysql-connector-java-5.1.46.jar来完美解决/home/hadoop/spark/spark-2.4.0-bin-hadoop2.7/bin/spar...

2019-08-12 14:03:45 4140 2

原创 linux离线部署python环境

在实际生产中，经常需要离线在服务器上部署python环境。第一步：安装python环境选择安装miniconda3作为python环境。下载Miniconda3-latest-Linux-x86_64.sh之后安装即可，习惯将路径保存为/opt/miniconda3sh Miniconda3-latest-Linux-x86_64.sh第二步：安装离线包第一种方法：在安装离线包时，...

2019-07-23 16:23:35 1690

原创 spark-submit 碰到 Spark-submit:System memory 466092032 must be at least 471859200

在利用spark进行分布式计算时，/home/hadoop/spark/spark-2.4.0-bin-hadoop2.7/bin/spark-submit --master=yarn ALS.py以上代码是在centos7，利用spark集群运行ALS.py代码，结果出现报错：Spark-submit:System memory 466092032 m...

2019-07-22 15:44:01 384

原创 Python实现Adaboost（decisiontree）

from sklearn import datasetsfrom sklearn.svm import LinearSVCfrom sklearn import ensemblefrom sklearn.model_selection import validation_curveimport matplotlib.pyplot as pltimport numpy as npdat

2017-09-07 17:57:30 1239

原创 Python进行参数调优GridSearchCV和RandomizedSearchCV

# -*- coding: utf-8 -*-"""Created on Wed Sep 6 14:30:24 2017@author: 飘的心"""from sklearn.datasets import load_digitsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selec

2017-09-06 15:27:25 12432

原创 python学习learning_curve和validation_curve

learning_curve是展示不同数据量，算法学习得分validation_curve是展示某个因子，不同取值的算法得分# -*- coding: utf-8 -*-"""Created on Wed Sep 06 09:55:13 2017@author: 飘的心"""from sklearn.model_selection import learning_curve

2017-09-06 11:37:00 8599

原创 sklean中交叉检验和混淆矩阵

'''今天学习到的东西，、很重要'''#cross_validationfrom sklearn import cross_validationx_train,x_test,y_train,x_test=cross_validation(x,y,test_size=0.25, random_state=0,stratify=y

2017-09-05 17:18:36 4001 1

原创 Python实现CART，并且展示混淆矩阵

# -*- coding: utf-8 -*-"""Created on Tue Sep 5 16:18:15 2017@author: piaodexin"""from sklearn import datasetsfrom sklearn import cross_validationfrom sklearn.tree import DecisionTreeClassifi

2017-09-05 16:36:55 1257

原创 Python实现KMeans聚类

from sklearn import datasets #加载数据包from sklearn.cluster import KMeans #加载KMeansfrom sklearn import cross_validation #加载交叉检验，然后处理数据data=datasets.load_iris()x=data.datay=data.targetx_train,x_t

2017-09-05 14:46:12 692

原创 python实现自编码器autoencode

# -*- coding: utf-8 -*-"""Created on Sun Sep 3 13:48:19 2017@author: piaodexin"""from __future__ import division, print_function, absolute_importimport tensorflow as tffrom tensorflow.exampl

2017-09-03 16:59:02 9685 1

原创抓取360图片

"""Created on Tue Apr 18 12:47:50 2017@author: 飘的心"""import requestsfrom bs4 import BeautifulSoupimport jsonimport osdef load_img(key): url='http://image.so.com/i?ie=utf-8&src=hao_360so

2017-09-01 16:45:37 1135

原创 Python中学习器流水线Pipeline

'''sklean提供的pipeline来将多个学习器组成流水线，通常流水线的形式为：将数据标准化的学习器---特征提取的学习器---执行预测的学习器除了最后一个学习器之外，前面的所有学习器必须提供transform方法，该方法用于数据转化（例如：归一化，正则化，以及特征提取'''from sklearn.datasets import load_digitsfro

2017-09-01 16:25:48 17239 2

原创对糖尿病数据进行PCA降维

from sklearn import datasets #加载数据集from sklearn import decompositiondata=datasets.load_diabetes() data=data.datajiangwei=decomposition.PCA(n_components=4) #提取四个主成分jiangwei.fit(data)jiangwe

2017-09-01 15:15:43 1332

原创 Python将数据写入netCDF4中

'''输入的data的shape=(627,652)'''def write_to_nc_canque(data,file_name_path): import netCDF4 as nc lonS=np.linspace(119.885,120.536,652) latS=np.linspace(29.984,29.358,627) da=nc.Datase

2017-09-01 14:52:01 11719

原创 Python实现感知器

# -*- coding: utf-8 -*-"""Created on Fri Sep 1 11:56:12 2017@author: piaodexin"""#import pandas as pdimport numpy as np#生成正标签数据x1=np.random.randn(50,2)+40y1=np.ones((50,1))data1=np.hstack

2017-09-01 14:45:39 1112

原创 pthon连接mysql和sqlserver

import pymysqlconn=pymsql.connect(host=host0,user=uid0,password=pwd0,database=db0,charset='utf-8')cur=conn.cursor()cur.excute('insert into table(...) values(...)')#插入数据conn.commit() #

2017-08-24 15:57:14 346

原创 MYSQL语句读取顺序

在mysql中，读取顺序：开始----from---where----group by---having---order by---select ----limit 例子：原始表格信息：语句：查询成绩有1门以上不及格的学生select name,count(*) as gkfrom aawhere scoregroup by nameh

2017-08-23 17:34:50 1307

原创学习mysql

#创建表格,decimal(10,2) 代表最长10位，小数点后两位create table hydropowermeteorology.hehe(id varchar(20) primary key not null,name varchar(20),math decimal(10,2),english decimal (10,2))#查询表格select *

2017-08-23 15:35:01 312

原创画饼图

"""===============Basic pie chart===============Demo of a basic pie chart plus a few additional features.In addition to the basic pie chart, this demo shows a few optional features:

2017-08-22 14:46:24 607

原创 softmax回归

在分类中，我们会碰到二分类，这个时候我们就可以使用logistic回归，然后多分类的任务在现实中才是常见的，例如让你分类某一个电影属于哪一类，以及文章类型属于哪一类，这个时候我们就需要softmax回归。在Logistic回归中，样本数据的值，而在softmax回归中，其中是类别种数，比如在分析电影类别时中，表示要识别的10种类型的电影。设

2017-08-22 11:26:24 741

原创浅谈广义线性回归

首先，广义线性模型是基于指数分布族的，而指数分布族的原型如下其中为自然参数，它可能是一个向量，而叫做充分统计量，也可能是一个向量，通常来说。实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量服从高斯分布，那么得到的是线性最小二乘回归，当随机变量服从伯努利分布，则得到的是Logistic回归。那么如

2017-08-22 11:06:12 7718

原创 Python学习异常检测

# -*- coding: utf-8 -*-"""Created on Mon Aug 21 14:11:22 2017@author: cq"""#python处理异常try : 2/0except Exception,e: #其中e为实例，即错误的实况 print(e) try: a

2017-08-21 18:05:35 1174

原创 Python进行特征提取

# -*- coding: utf-8 -*-"""Created on Mon Aug 21 10:57:29 2017@author: 飘的心"""#过滤式特征选择#根据方差进行选择，方差越小，代表该属性识别能力很差，可以剔除from sklearn.feature_selection import VarianceThresholdx=[[100,1,

2017-08-21 17:11:07 15351 2

原创 hessian矩阵

黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出，并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题。函数方程为y=f(x1,x2,x3,.......xn),则hessian矩阵就是：因为求导的顺序不影响最终结果，所以它

2017-08-20 13:29:40 2219

转载机器学习中牛顿法与拟牛顿法

提要：今天讲的牛顿法与拟牛顿法是求解无约束问题最优化方法的常用方法。一牛顿法假设我们求下面函数的最小值：假设f(x)具有连续的二阶的连续偏导数，假设第K次迭代值为xk的值，那么可将f(X)在xk附近进行二阶泰勒展开得到：我们对上述公式求导可得: 假设其中可逆，我们就可以得到牛顿法的迭代公式为：这样就可以

2017-08-20 00:36:36 695

原创 python增加xml文件节点

from xml.etree.ElementTree import ElementTree,Elementtree=ElementTree()tree.parse('D://myself.xml')#下面主要是在根目录里加一级目录#2得到根目录root=tree.getroot()#创建一级目录element=Element('train',{'name':'w

2017-08-18 16:29:13 20447 5

转载 Python读取与更改xml文件

'''原始文档内容 path="/tmp"> output_formatter="OutPutFormatt

2017-08-18 16:05:16 10547 1

原创用python写xml文件

info=[{'id':1,'name':'wang','age':10,'major':'math'}, {'id':2,'name':'zhang','age':11,'major':'statistic'}, {'id':3,'name':'shan','age':18,'major':'english'}, {'id':4,'name':'chen

2017-08-18 11:46:19 858

原创大批量导入数据到mysql中

#大量导入数据进入MySQLimport pymysqlconn=pymysql.connect(host=host0,user=uid0,password=pwd0,database=db0,charset="utf8")cur=conn.cursor()tt='insert into kuqu(id,name,shuliang) values 'for i,a in enu

2017-08-18 10:46:36 481

原创 Python进行数据处理

# -*- coding: utf-8 -*-"""Created on Thu Aug 17 17:15:14 2017@author: cq"""#二元化from sklearn.preprocessing import Binarizerx=[[1,2,3,4,5], [5,4,3,2,1], [3,3,3,3,3], [1,1,1

2017-08-17 18:02:26 533

转载 python实现神经网络

# -*- coding: utf-8 -*-"""Created on Sun Jul 30 18:23:26 2017@author: r"""import randomimport mathrandom.seed(0)def rand(a,b): return (b-a)*random.random()+adef make

2017-08-17 00:34:08 569

原创 python.numpy的简单学习

>>> import numpy as np>>> >>> a1=np.arange(0,16,2) #生成数组，第一个值是起始值，第二个值是结束值，第三个是差值，a1 #第一个、第三个值可以省略，但是第二个值必须有，如果只有第三个，则起点为0，差值为1>>> a2=np.linspace(0,1,100) #生成等差序列，起始值为0，结束值为1

2017-08-16 10:37:28 310

原创机器学习中的特征选择和优缺点

特征选择和机器学习算法两者存在紧密的联系，根据特征选择中子集评价标准和后续学习算法的结合方式可分为嵌入式（embedded）、过滤式（filter）和封装式（wraper）1.嵌入式特征选择在嵌入式特征选择中，特征选择算法本身作为组成部分嵌入到学习算法里，最典型的就是决策树算法，如Quinlan的ID3，C4.5以及Breiman的CART算法等，决策树算法在树增长过程的每个递归步

2017-08-15 23:49:40 20589

原创随机森林的优缺点

随机森林是建立在决策树的基础上，决策树在分类时是选择所有变量，而随机森林则是产生很多决策树，然后每根决策树选择不同的变量，进行分析，最后选取决策树中的众数，作为最终结果优点：不会产生过拟合现象可以作用在高维数据中能够展现出那些变量重要具有很好的抗干扰能力可以并行处理缺点：可能有很多相似的决策树，掩盖了真实的结果对小数据或者底维数据可能不能

2017-08-14 21:24:39 6641

原创决策树的优缺点

优点：得出结果的过程易于理解，比神经网络等黑箱操作好理解计算量较小比其他算法计算的较快缺点：很容易造成过拟合，需要采用剪枝操作当类别太多时，会很复杂

2017-08-14 21:20:44 4565

原创神经网络为什么要使用激活函数，为什么relu要比sigmoid要好

第一个问题：为什么引入非线性激励函数？如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与只有一个隐藏层效果相当，这种情况就是多层感知机（MLP）了。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最

2017-08-14 16:33:46 7108 2

转载神经网络中梯度消失的原因

转载自哈工大SCIR（公众号）为了弄清楚为何会出现消失的梯度，来看看一个极简单的深度神经网络：每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络：

2017-08-14 16:22:50 3185

转载各种激活函数的比较

激活函数的作用首先，激活函数不是真的要去激活什么。在神经网络中，激活函数的作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题。比如在下面的这个问题中：如上图(图片来源)，在最简单的情况下，数据是线性可分的，只需要一条直线就已经能够对样本进行很好地分类。但如果情况变得复杂了一点呢？在上图中(图片来源)，数据就变成了线性不可分的情况。在这种情况

2017-08-14 16:01:07 12882 1

转载 logict分类器和sigmoid分类器

首先说明啊：logistic分类器是以Bernoulli（伯努利）分布为模型建模的，它可以用来分两种类别；而softmax分类器以多项式分布（Multinomial Distribution）为模型建模的，它可以分多种互斥的类别。补充：什么是伯努利分布？伯努利分布[2] 是一种离散分布,有两种可能的结果。1表示成功，出现的概率为p(其中0什么是二项分布？二项分布即重复

2017-08-14 15:53:57 2200

转载 spark基础了解

概述经过多年来开拓性的工作，UC Berkeley AMP Lab开发了Spark。它使用分布式内存数据结构，提高了数据处理的速度，在大多数工作上优于Haddop。本文用一个真实的数据集，展示Spark的结构，以及基本的转换（transformations）与行动（actions）。如果你想尝试编写和运行自己的Spark代码，可以到Dataquest试试本教程的（英文）互动版本。

2017-08-11 16:59:14 560

空空如也

空空如也