谁用了尧哥这个昵称-优快云博客

原创机器学习秘籍

为什么深度到现在才流行起来？1、海量的数据2、计算规模足够大学习算法的表现如何？在小数据集情况下，传统算法是否会表现得更好，取决于人们如何进行特征选择工程。例如，假设你只有 20 个训练样本，那么使用逻辑回归还是神经网络可能无关紧要，此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据，推荐你使用神经网络。开发集与测试集1、训练集用于运行你的学习算...

2019-02-20 16:00:49 354

原创 TensorFlow入门-MNIST

1、首先要将tensorflow、tensorboard、numpy等更新到最新版本2、需要先下载mnist数据集，可以在优快云上找，官网比较慢。数据放在MNIST_data文件夹里面。from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf# 用来自动下载数据的，mnist是个...

2018-11-08 23:37:53 327 1

原创 Python sklearn 中的SVM示例

Python sklearn 中的SVM示例# -*- coding: utf-8 -*-import pandas as pdfrom numpy.random import shufflefrom sklearn import svmimport joblibfrom sklearn import metricsinputfile = '../Data/moment.csv'...

2018-09-26 22:21:40 5933 6

原创 Spark 2.x 决策树示例代码-IRIS数据集

数据集下载下载链接代码package Iris;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.Pipeline;import org.apache.spark.ml.PipelineModel;...

2018-04-20 21:05:40 946

原创深度学习-自学手册

人工智能机器学习神经网络前馈神经网络：没有回路的反馈神经网络：有回路的 DNN 深度神经网络 CNN 卷积神经网络 RNN 循环神经网络 LSTM 是RNN的一种，长短期记忆网络自然语言处理神经网络神经元-分类器 Hebb 学习方法，随机 –类似SGD一篇神经网络入门 BP反向传播，表示很复杂的函数/空间分布从最后一层往前调整参数，反复循环该操作y=a(wx+b)

2017-12-23 21:18:38 992

原创 Python word2vector（含安装环境）

一、安装Anaconda Anaconda下载因为镜像在国外，最好不要晚上下，一大早下比较好，如果是迅雷会员就无所谓了。我下的是Anaconda3-5.0.1-Windows-x86_64.exe，给一个百度网盘的链接百度网盘链接密码:6jm4 安装在D:\PythonSoftware\Anaconda3下面，自己建立文件夹，路径不能有空格，不能有中文。安装时一定要勾选 “添

2017-11-26 20:16:30 12289 3

原创项目管理idea+maven+git

安装idea参考我之前的博客：安装idea 修改idea设置快捷键修改安装maven下载地址下载：解压到E盘Maven文件夹下：在Maven文件夹下新建一个LoaclWarehouse文件夹，用作仓库。修改E:\Maven\apache-maven-3.5.0\conf下settings.xml文件：在如下图位置：添加：<localRepository>E:

2017-08-18 23:41:30 3647

原创 sqoop安装及使用

安装下载地址： http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量： export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQ

2017-04-23 00:27:45 6456

转载 scala与java的区别

1、scala与java都有7中数值类型：int、short、long、byte、float、double、boolean这7种，但是scala中这7种值类型是类，在java中属于基本类型，java中，数据类型分成基本类型和引用类型，scala中不区分。 2、scala中的变量或函数的类型总是写在变量或者函数名的后面 3、scala中的操作符与java中的操作符没有什么不同，但是在scala中，

2017-04-17 16:41:46 1260

原创 SparkSQL+Hive（持续更新）

1、SparkSQL SparkSQL学习手册package SparkSqlimport org.apache.spark.sql.{SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object sparksql_test { def main(args: Array[String]): Unit

2017-04-16 19:20:02 1380

原创大数据题的解法总结

1.网页黑名单系统，垃圾邮件过滤，爬虫网址判重空间有限制，允许一定的错误率使用布隆过滤器来做 2.内存限制下，找到很多数中出现次数最多的数用hash来做，key是数字，value是次数进阶：将这些数用hash分成若干份，对每一份进行hash计算个数，最后再对每一份的最多的数进行判断，找到全局最多的数。 3.在一堆数中找到没出现的数用bit数组来做，数组长度就是题目中给的数的范

2017-04-13 13:41:25 812

原创 flume+kafka+spark streaming(持续更新)

kafkakafka中文教程Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。 kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. Apache kafka是消息中间件的一种。一、术语介绍 Broker Kafka集群包含一个或多个服务器，这种服务器被称为broke

2017-02-19 23:09:37 5686 1

原创 spark--PageRank

package spark1import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { val nums = 2 val conf = new SparkConf().setAppName("PageRank").setMaster("

2017-02-03 16:23:42 953

转载 Cloudera和openstack

ClouderaHadoop的发行版除了社区的Apache Hadoop外，Cloudera，Hortonworks，MapR，EMC，IBM，Intel，华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持，这对一些大型企业尤其重要。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供 Hadoop 的商用解决方案，主要是包括支持，咨询服务，培训

2017-01-05 16:34:04 991

原创 oracle优化经验

1.行数为亿作单位当oracle表中行数上百万，上千万，上亿的时候，插入和查询的速度就特别慢。所以需要对读写都优化。2.插入优化插入使用批量插入import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.SQLException;publi

2016-12-25 16:23:27 491

原创 spark优化经验

1.为什么要优化程序运行时间太长，某些task分分钟就跑完了，某些却需要1个甚至几个小时。很显然，这个叫做数据倾斜。那么我们要做的就是让每一个task都运行差不多的数据，这样速度就快很多了。2.关于shuffleshuffle指的是类似reducebykey,groupbykey,或者类似jion这样的操作，指的是将数据从原来的分区转移到另一个分区。所以呢，shuffle操作是比较花费时间的

2016-12-24 11:57:48 968

原创小白自学搭建单机版的Hadoop生态圈（持续更新）

安装虚拟机VM免费版下载这个免费的VM，用虚拟机装Linux，所以你本机的内存至少要8G，不然就很慢啦。安装过程，复选框都可以去掉，除了选快捷方式的那一栏。注意不要装在C盘哦。 Ubuntu下载下载16.04 64位的。安装好VM之后打开，点击新建虚拟机安装过程中会出现让你下载VM tools，下载吧，不过这次可能会下载不成功，没关系，先取消，后面改了源之后

2016-12-11 17:04:41 2543

HBase读写操作Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值

2016-12-08 17:14:00 3939

原创 Python神经网络

Keras里的模块介绍下面的这个网址讲的很好，可以用来系统学习。 Keras中文文档Optimizers Optimizers包含了一些优化的方法，比如最基本的随机梯度下降SGD,另外还有Adagrad、Adadelta、RMSprop、AdamObjectives 这是目标函数模块，定义了用什么形式来误差优化，keras提供了mean_squared_error/mse :平均方差 mea

2016-12-04 13:46:07 2871

原创 eclipse安装maven

下载maven在Apache官网搜索maven，点击download进入maven的下载下载图中的压缩包解压后，放在除了C盘以外的磁盘下然后添加环境变量修改配置文件在maven的conf下面有settings.xml，打开首先修改仓库的目录，如下图所示，这样仓库就不在C盘了然后在里面添加下面的镜像，注意阿里的镜像摆第一个，这是下载各种jar包时所找的源头，亲测，阿里的

2016-12-03 17:35:55 537

原创 idea设计字体大小注释颜色以及语言级别

字体大小注释颜色语言级别

2016-11-28 11:01:49 39535 6

原创 Python决策树

决策树有ID3 C4.5 CART比较经典的算法，不过现在用的比较少，一般用随机森林多。这里简单学习一下ID3，它是基于信息熵的#-*- coding: utf-8 -*-#使用ID3决策树算法预测销量高低import pandas as pdimport numpy as npfrom sklearn.cross_validation import train_test_splitf

2016-11-26 15:42:02 1791

原创 HBase API操作（新版本）

我下载的是HBase1.2.3 在eclipse里面需要加入的包有： commons-codec-1.9.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-logging-1.2.jar guava-12.0.1.jar hadoop-auth-2.

2016-11-26 10:08:09 6502

原创 Python逻辑回归

介绍回归分析是确定预测属性（数值型）与其他变量间相互依赖的定量关系最常用的统计学方法。逻辑回归是概率型非线性回归，有2分类和多分类。2分类就是y的取值为0,1 即是或否。

2016-11-20 21:43:00 4274

原创域名得到泛域名

package domain;import java.util.HashSet;public class domain_fandomain { static HashSet<String> fandomain_suffix;//域名后缀 static HashSet<String> fandomain_suffix_area;//国家或地区后缀 //初始化，将这些后缀加入Set中

2016-11-14 15:32:10 1595

原创 spark入门——读取gz文件并过滤（包括开发环境安装）

安装jdkjdk下载网址根据需要选择操作系统以及位数，一般就安装在C盘。然后配置环境变量 CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 注意前面有个点 JAVA_HOME C:\Program Files\Java\jdk1.8.0_111 Path %JAVA_HOME%\bin;%JAVA_HOME%\jre\b

2016-10-27 10:47:51 7846

原创 Hadoop上的一些组件介绍

1.FlumeFlume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力 Flume提供了从console（控制台）、RPC（Thrift-RPC）、

2016-10-25 15:43:15 3198

原创 python的PCA

PCA是主成分分析，用来降维，用少量的变量去解释大部分变量，使得原来相关的变成不相关的，独立的变量。sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)n_components保留下来的特征个数n，缺省是所有都保留。赋值为int就是要保留几个。赋值为‘mle’，自动选取，使得满足要求的方差满分比。 copy，True

2016-10-08 14:58:53 1290

原创 python数据变换

1.规范化将数据进行标准化处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。 1.最小-最大规范化线性变换，将数值映射到【0,1】之间。 2.零-均值规范化均值为0，标准差为1，标准正太分布，目前用到最多的方法 3.小数定标规范化映射到【-1,1】之间#-*- coding: utf-8 -*-#数据规范化import pandas as p

2016-09-30 10:52:02 3461

原创 python数据清洗

1.缺失值的处理对于数据中缺失的值，可以有3种方法处理： 1.删除。比如餐厅的营业额，有几天去装修了，确实没营业，可以删除 2.不处理：有一些模型可以将缺失值作为一种特殊的值，可以直接建模。 3.补上：均值/中位数/众数：一般情况吧固定值：比如工资啊，补贴啊最近临插补：最近的值，相邻的，补上下面是拉格朗日插值法原理可以参考下面的博客 http://blog.youkuaiyun.com/

2016-09-26 17:07:59 4245

原创 python贡献度分析以及相关性分析小例子

贡献度又称帕累托，80%的利润来自20%的最畅销的产品，而其他80%的产品只产生了20%的利润。#-*- coding: utf-8 -*-#菜品盈利数据帕累托图from __future__ import print_functionimport pandas as pd#初始化参数dish_profit = 'E:/PythonMaterial/chapter3/chapter3/de

2016-09-21 14:48:23 18588 1

原创 python数据质量分析小例子

数据和代码下载地址： http://pan.baidu.com/s/1kVg3KuN#-*- coding: utf-8 -*-import pandas as pdcatering_sale = 'E:/PythonMaterial/chapter3/chapter3/demo/data/catering_sale.xls' #餐饮数据#因为是xls文件，所以用read_excel方法,返

2016-09-20 16:45:15 6416 1

原创在Windows中安装一些python的第三方库

这些库尽量建一个专门的文件夹集中存放如果Python是32位的，那么库也装32位的，我的电脑是64位的，但装了32位的Python，反正也可以用 1.安装Numpy https://sourceforge.net/projects/numpy/files/NumPy/](https://sourceforge.net/projects/numpy/files/NumPy/)[ 在这里网址里

2016-09-12 14:38:48 8993

原创让myeclipse的XML文件在编辑时可以产生提示

在使用myeclipse编辑XML文件时，按下alt+/却没事任何提示。比如在编Struts2时。可以采用下面的方法：选择windows ，然后选择preferences. 在查找里面输入catalog 选择add location：选择Struts的lib文件夹里面的struts2-core-2.0.14.jar文件，解压这个文件，然后找到struts-2.0.dtd文件

2016-05-01 22:05:16 479

原创 java连接mysql实例及数据库操作

下载免安装的MySQL http://www.mysql.com/downloads/mysql/ 2.创建和修改my.ini文件在根目录下，找到my-default.ini文件复制并更名为my.ini还放到根目录下。修改my.ini 添加如下： basedir = “F:\mysql\” datadir = “F:\mysql\data\” 3.设置MySQL为Window

2016-04-22 17:06:45 773

原创简单的解释一下查准率和召回率

查准率和召回率（查全率），这两个指标是搜索引擎中经典的度量方法。A：检索到的，相关的（搜到的也想要的） B：未检索到的，但是相关的（没搜到，然而实际上想要的） C：检索到的，但是不相关的（搜到的但没用的） D：未检索到的，也不相关的（没搜到也没用的）被检索到的越多越好，这是追求“查全率”，即A/(A+B)，越大越好。被检索到的，越相关的越多越好，不相关的越少越好，这是追求“查准率”

2015-11-29 20:17:16 2406

转载分布式双活数据中心部署模式

中国IDC圈7月26日报道：　传统主备模式是一个业务只在一个数据中心运行，企业结合灾备等级需求和业务需求，在备份中心部署了大量的备份服务器，但备份中心仅为该业务提供灾备服务，只有当灾难发生、生产数据中心瘫痪时，灾备中心的业务系统才启动这些服务器，造成备份中心服务器资源浪费，广域网链路也无法得到充分的利用。分布式双活数据中心（如图1所示）可以使分布在多个数据中心的同一类业务同时运行，也可以将一个业务分

2015-09-22 23:10:58 8858

原创 Mahout--最基本的推荐系统的JAVA代码

package mp05.com;import java.io.File;import java.io.IOException;import java.util.List;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.RecommenderBuild

2015-09-10 10:52:02 6215

原创 JVM虚拟机堆内存大小

内存大小堆内存分配JVM初始分配的内存由-Xms指定，默认是物理内存的1/64；JVM最大分配的内存由-Xmx指定，默认是物理内存的1/4。默认空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制，即当前堆内存使用超过60%就要增大；空余堆内存大于70% 时，JVM会减少堆直到-Xms的最小限制，即当前内存使用小于30%就要减小。如何查看Runtime run = Runtime.getR

2015-08-22 13:24:01 1100

原创设计模式入门--自己的理解

1.重载方法名一样，参数不一样。比如不同的构造方法 2.封装对象，其实就是一个类，把它自己的成员和方法在自己的类里面实现，自己搞自己的，不依赖别人，同时提供对外的接口 3.继承子类继承父类，如果一些类有很多共同的代码，可以抽象出来搞一个父类，然后子类来继承，一个类只能继承一个父类。 4.多态父类的一个方法为虚方法，内部没有具体实现，子类继承过来后，自己去实现，也就是说，方法名

2015-08-20 11:06:49 709

MNIST数据集

中国计算机学会推荐国际学术会议和期刊目录.pdf

Ad-hoc network on Android.pdf

物联网导论.PDF

JSP和MYSQL课设 客房信息管理系统

空空如也

JSP和MYSQL课设客房信息管理系统