- 博客(52)
- 资源 (5)
- 收藏
- 关注
原创 机器学习秘籍
为什么深度到现在才流行起来?1、海量的数据2、计算规模足够大学习算法的表现如何?在小数据集情况下,传统算法是否会表现得更好,取决于人们如何进行特征选择工程。例如,假设你只有 20 个训练样本,那么使用逻辑回归还是神经网络可能无关紧要,此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据,推荐你使用神经网络。开发集与测试集1、训练集用于运行你的学习算...
2019-02-20 16:00:49
354
原创 TensorFlow入门-MNIST
1、首先要将tensorflow、tensorboard、numpy等更新到最新版本2、需要先下载mnist数据集,可以在优快云上找,官网比较慢。数据放在MNIST_data文件夹里面。from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf# 用来自动下载数据的,mnist是个...
2018-11-08 23:37:53
327
1
原创 Python sklearn 中的SVM示例
Python sklearn 中的SVM示例# -*- coding: utf-8 -*-import pandas as pdfrom numpy.random import shufflefrom sklearn import svmimport joblibfrom sklearn import metricsinputfile = '../Data/moment.csv'...
2018-09-26 22:21:40
5933
6
原创 Spark 2.x 决策树 示例代码-IRIS数据集
数据集下载下载链接代码package Iris;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.Pipeline;import org.apache.spark.ml.PipelineModel;...
2018-04-20 21:05:40
946
原创 深度学习-自学手册
人工智能机器学习 神经网络 前馈神经网络:没有回路的 反馈神经网络:有回路的 DNN 深度神经网络 CNN 卷积神经网络 RNN 循环神经网络 LSTM 是RNN的一种,长短期记忆网络 自然语言处理神经网络神经元-分类器 Hebb 学习方法,随机 –类似SGD一篇神经网络入门 BP反向传播,表示很复杂的函数/空间分布 从最后一层往前调整参数,反复循环该操作y=a(wx+b)
2017-12-23 21:18:38
992
原创 Python word2vector(含安装环境)
一、安装Anaconda Anaconda下载 因为镜像在国外,最好不要晚上下,一大早下比较好,如果是迅雷会员就无所谓了。 我下的是Anaconda3-5.0.1-Windows-x86_64.exe,给一个百度网盘的链接 百度网盘链接 密码:6jm4 安装在D:\PythonSoftware\Anaconda3下面,自己建立文件夹,路径不能有空格,不能有中文。 安装时一定要勾选 “添
2017-11-26 20:16:30
12289
3
原创 项目管理idea+maven+git
安装idea参考我之前的博客: 安装idea 修改idea设置 快捷键修改安装maven下载地址 下载: 解压到E盘Maven文件夹下: 在Maven文件夹下新建一个LoaclWarehouse文件夹,用作仓库。修改E:\Maven\apache-maven-3.5.0\conf下settings.xml文件: 在如下图位置: 添加:<localRepository>E:
2017-08-18 23:41:30
3647
原创 sqoop安装及使用
安装下载地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量: export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQ
2017-04-23 00:27:45
6456
转载 scala与java的区别
1、scala与java都有7中数值类型:int、short、long、byte、float、double、boolean这7种,但是scala中这7种值类型是类,在java中属于基本类型,java中,数据类型分成基本类型和引用类型,scala中不区分。 2、scala中的变量或函数的类型总是写在变量或者函数名的后面 3、scala中的操作符与java中的操作符没有什么不同,但是在scala中,
2017-04-17 16:41:46
1260
原创 SparkSQL+Hive(持续更新)
1、SparkSQL SparkSQL学习手册package SparkSqlimport org.apache.spark.sql.{SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object sparksql_test { def main(args: Array[String]): Unit
2017-04-16 19:20:02
1380
原创 大数据题的解法总结
1.网页黑名单系统,垃圾邮件过滤,爬虫网址判重 空间有限制,允许一定的错误率 使用布隆过滤器来做 2.内存限制下,找到很多数中出现次数最多的数 用hash来做,key是数字,value是次数 进阶:将这些数用hash分成若干份,对每一份进行hash计算个数,最后再对每一份的最多的数进行判断,找到全局最多的数。 3.在一堆数中找到没出现的数 用bit数组来做,数组长度就是题目中给的数的范
2017-04-13 13:41:25
812
原创 flume+kafka+spark streaming(持续更新)
kafkakafka中文教程Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. Apache kafka是消息中间件的一种。 一 、术语介绍 Broker Kafka集群包含一个或多个服务器,这种服务器被称为broke
2017-02-19 23:09:37
5686
1
原创 spark--PageRank
package spark1import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { val nums = 2 val conf = new SparkConf().setAppName("PageRank").setMaster("
2017-02-03 16:23:42
953
转载 Cloudera和openstack
ClouderaHadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训
2017-01-05 16:34:04
991
原创 oracle优化经验
1.行数为亿作单位当oracle表中行数上百万,上千万,上亿的时候,插入和查询的速度就特别慢。所以需要对读写都优化。2.插入优化插入使用批量插入import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.SQLException;publi
2016-12-25 16:23:27
491
原创 spark优化经验
1.为什么要优化程序运行时间太长,某些task分分钟就跑完了,某些却需要1个甚至几个小时。很显然,这个叫做数据倾斜。 那么我们要做的就是让每一个task都运行差不多的数据,这样速度就快很多了。2.关于shuffleshuffle指的是类似reducebykey,groupbykey,或者类似jion这样的操作,指的是将数据从原来的分区转移到另一个分区。 所以呢,shuffle操作是比较花费时间的
2016-12-24 11:57:48
968
原创 小白自学搭建单机版的Hadoop生态圈(持续更新)
安装虚拟机VM免费版 下载这个免费的VM,用虚拟机装Linux,所以你本机的内存至少要8G,不然就很慢啦。 安装过程,复选框都可以去掉,除了选快捷方式的那一栏。注意不要装在C盘哦。 Ubuntu下载 下载16.04 64位的。 安装好VM之后打开,点击新建虚拟机 安装过程中会出现让你下载VM tools,下载吧,不过这次可能会下载不成功,没关系,先取消,后面改了源之后
2016-12-11 17:04:41
2543
原创 hbase的一些使用经验
HBase读写操作Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值
2016-12-08 17:14:00
3939
原创 Python神经网络
Keras里的模块介绍下面的这个网址讲的很好,可以用来系统学习。 Keras中文文档Optimizers Optimizers包含了一些优化的方法,比如最基本的随机梯度下降SGD,另外还有Adagrad、Adadelta、RMSprop、AdamObjectives 这是目标函数模块,定义了用什么形式来误差优化,keras提供了mean_squared_error/mse :平均方差 mea
2016-12-04 13:46:07
2871
原创 eclipse安装maven
下载maven在Apache官网搜索maven,点击download进入maven的下载 下载图中的压缩包 解压后,放在除了C盘以外的磁盘下 然后添加环境变量 修改配置文件在maven的conf下面有settings.xml,打开 首先修改仓库的目录,如下图所示,这样仓库就不在C盘了 然后在里面添加下面的镜像,注意阿里的镜像摆第一个,这是下载各种jar包时所找的源头,亲测,阿里的
2016-12-03 17:35:55
537
原创 Python决策树
决策树有ID3 C4.5 CART比较经典的算法,不过现在用的比较少,一般用随机森林多。 这里简单学习一下ID3,它是基于信息熵的#-*- coding: utf-8 -*-#使用ID3决策树算法预测销量高低import pandas as pdimport numpy as npfrom sklearn.cross_validation import train_test_splitf
2016-11-26 15:42:02
1791
原创 HBase API操作(新版本)
我下载的是HBase1.2.3 在eclipse里面需要加入的包有: commons-codec-1.9.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-logging-1.2.jar guava-12.0.1.jar hadoop-auth-2.
2016-11-26 10:08:09
6502
原创 Python逻辑回归
介绍回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。 逻辑回归是概率型非线性回归,有2分类和多分类。2分类就是y的取值为0,1 即是 或 否 。
2016-11-20 21:43:00
4274
原创 域名得到泛域名
package domain;import java.util.HashSet;public class domain_fandomain { static HashSet<String> fandomain_suffix;//域名后缀 static HashSet<String> fandomain_suffix_area;//国家或地区后缀 //初始化,将这些后缀加入Set中
2016-11-14 15:32:10
1595
原创 spark入门——读取gz文件并过滤(包括开发环境安装)
安装jdkjdk下载网址 根据需要选择操作系统以及位数,一般就安装在C盘。然后配置环境变量 CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 注意前面有个点 JAVA_HOME C:\Program Files\Java\jdk1.8.0_111 Path %JAVA_HOME%\bin;%JAVA_HOME%\jre\b
2016-10-27 10:47:51
7846
原创 Hadoop上的一些组件介绍
1.FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、
2016-10-25 15:43:15
3198
原创 python的PCA
PCA是主成分分析,用来降维,用少量的变量去解释大部分变量,使得原来相关的变成不相关的,独立的变量。sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)n_components保留下来的特征个数n,缺省是所有都保留。赋值为int就是要保留几个。赋值为‘mle’,自动选取,使得满足要求的方差满分比。 copy,True
2016-10-08 14:58:53
1290
原创 python数据变换
1.规范化将数据进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。 1.最小-最大规范化 线性变换,将数值映射到【0,1】之间。 2.零-均值规范化 均值为0,标准差为1,标准正太分布,目前用到最多的方法 3.小数定标规范化 映射到【-1,1】之间#-*- coding: utf-8 -*-#数据规范化import pandas as p
2016-09-30 10:52:02
3461
原创 python数据清洗
1.缺失值的处理对于数据中缺失的值,可以有3种方法处理: 1.删除。比如餐厅的营业额,有几天去装修了,确实没营业,可以删除 2.不处理:有一些模型可以将缺失值作为一种特殊的值,可以直接建模。 3.补上: 均值/中位数/众数:一般情况吧 固定值:比如工资啊,补贴啊 最近临插补:最近的值,相邻的,补上下面是拉格朗日插值法 原理可以参考下面的博客 http://blog.youkuaiyun.com/
2016-09-26 17:07:59
4245
原创 python贡献度分析以及相关性分析小例子
贡献度又称帕累托,80%的利润来自20%的最畅销的产品,而其他80%的产品只产生了20%的利润。#-*- coding: utf-8 -*-#菜品盈利数据 帕累托图from __future__ import print_functionimport pandas as pd#初始化参数dish_profit = 'E:/PythonMaterial/chapter3/chapter3/de
2016-09-21 14:48:23
18588
1
原创 python数据质量分析小例子
数据和代码下载地址: http://pan.baidu.com/s/1kVg3KuN#-*- coding: utf-8 -*-import pandas as pdcatering_sale = 'E:/PythonMaterial/chapter3/chapter3/demo/data/catering_sale.xls' #餐饮数据#因为是xls文件,所以用read_excel方法,返
2016-09-20 16:45:15
6416
1
原创 在Windows中安装一些python的第三方库
这些库尽量建一个专门的文件夹集中存放 如果Python是32位的,那么库也装32位的,我的电脑是64位的,但装了32位的Python,反正也可以用 1.安装Numpy https://sourceforge.net/projects/numpy/files/NumPy/](https://sourceforge.net/projects/numpy/files/NumPy/)[ 在这里网址里
2016-09-12 14:38:48
8993
原创 让myeclipse的XML文件在编辑时可以产生提示
在使用myeclipse编辑XML文件时,按下alt+/却没事任何提示。比如在编Struts2时。 可以采用下面的方法: 选择windows ,然后选择preferences. 在查找里面输入catalog 选择add location: 选择Struts的lib文件夹里面的struts2-core-2.0.14.jar文件,解压这个文件,然后找到struts-2.0.dtd文件
2016-05-01 22:05:16
479
原创 java连接mysql实例及数据库操作
下载免安装的MySQL http://www.mysql.com/downloads/mysql/ 2.创建和修改my.ini文件 在根目录下,找到my-default.ini文件 复制并更名为my.ini还放到根目录下。 修改my.ini 添加如下: basedir = “F:\mysql\” datadir = “F:\mysql\data\” 3.设置MySQL为Window
2016-04-22 17:06:45
773
原创 简单的解释一下查准率和召回率
查准率和召回率(查全率),这两个指标是搜索引擎中经典的度量方法。A:检索到的,相关的 (搜到的也想要的) B:未检索到的,但是相关的 (没搜到,然而实际上想要的) C:检索到的,但是不相关的 (搜到的但没用的) D:未检索到的,也不相关的 (没搜到也没用的)被检索到的越多越好,这是追求“查全率”,即A/(A+B),越大越好。 被检索到的,越相关的越多越好,不相关的越少越好,这是追求“查准率”
2015-11-29 20:17:16
2406
转载 分布式双活数据中心部署模式
中国IDC圈7月26日报道: 传统主备模式是一个业务只在一个数据中心运行,企业结合灾备等级需求和业务需求,在备份中心部署了大量的备份服务器,但备份中心仅为该业务提供灾备服务,只有当灾难发生、生产数据中心瘫痪时,灾备中心的业务系统才启动这些服务器,造成备份中心服务器资源浪费,广域网链路也无法得到充分的利用。分布式双活数据中心(如图1所示)可以使分布在多个数据中心的同一类业务同时运行,也可以将一个业务分
2015-09-22 23:10:58
8858
原创 Mahout--最基本的推荐系统的JAVA代码
package mp05.com;import java.io.File;import java.io.IOException;import java.util.List;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.RecommenderBuild
2015-09-10 10:52:02
6215
原创 JVM虚拟机堆内存大小
内存大小堆内存分配JVM初始分配的内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的内存由-Xmx指定,默认是物理内存的1/4。默认空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制,即当前堆内存使用超过60%就要增大;空余堆内存大于70% 时,JVM会减少堆直到-Xms的最小限制,即当前内存使用小于30%就要减小。如何查看Runtime run = Runtime.getR
2015-08-22 13:24:01
1100
原创 设计模式入门--自己的理解
1.重载 方法名一样,参数不一样。比如不同的构造方法 2.封装 对象,其实就是一个类,把它自己的成员和方法在自己的类里面实现,自己搞自己的,不依赖别人,同时提供对外的接口 3.继承 子类继承父类,如果一些类有很多共同的代码,可以抽象出来搞一个父类,然后子类来继承,一个类只能继承一个父类。 4.多态 父类的一个方法为虚方法,内部没有具体实现,子类继承过来后,自己去实现,也就是说,方法名
2015-08-20 11:06:49
709
Ad-hoc network on Android.pdf
2013-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人