
大数据
文章平均质量分 64
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
windows7下java代码从远程hadoop服务上下载文件
1. 在windows7下无法下载远程hdfs服务上的文件1. 问题原因hadoop官方不支持windows平台,没有windows版本的hadoop,想在windows上运行hadoop很麻烦官方下载的hadoop安装包中缺少两个文件hadoop.dll和winutils.exe,用于支持windows2. 解决方法下载hadoop安装包并解压缩到windows硬盘中,可...原创 2018-05-25 13:28:03 · 1506 阅读 · 0 评论 -
MapReduce练习之二次排序
0. 运行环境idea+hadoop 2.9.0 本地调试, 各个类分开写输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 91. MyJob主方法所在类package com;import org.apache.hadoop.conf.Configuration;impo...原创 2018-05-31 16:16:37 · 617 阅读 · 1 评论 -
Windows下idea中实现Hadoop本地测试功能
0. 目标Hadoop默认没有windows版本Hadoop集群部署在Linux虚拟机上,通过idea编写的MR代码和输入文件要打包jar发送给Linux为便于测试MR代码是否正确, 希望在idea上运行MR1. 解压hadoop到windows硬盘中 https://blog.youkuaiyun.com/wxfghy/article/details/80450469 win...原创 2018-05-31 11:25:34 · 3164 阅读 · 0 评论 -
MapReduce简介和wordcount
MapReduce简介WordCountMyMapMyReduceMyJobpackage com;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.ha...原创 2018-05-29 07:13:13 · 771 阅读 · 0 评论 -
redis简介及单机/集群环境安装
1 Centos7环境下redis的安装在linux环境下,安装gcc和gcc-c++ yum -y install gcc gcc-c++解压缩源文件包到/opt目录下进入redis目录,输入make命令编译当前文件夹进入src目录,输入make install命令,完成安装输入redis-server 命令,前台启动redis(即当前窗口作为守护进程,不可关闭)克隆会话新窗口...原创 2018-05-17 13:10:24 · 409 阅读 · 0 评论 -
《机器学习实战》笔记01~学习算法前的准备
1.机器学习算法的用途监督学习 算法 用途 K-临近算法 线性回归 朴素贝叶斯算法 局部加权线性回归 支持向量机 Ridge回归 决策树 Lasso最小回归系数估计- 无监督学习 算法 用途 K-均值 最大期望算法 DBSCAN Parzen窗设计2.选择算法的依...原创 2018-05-10 13:58:58 · 194 阅读 · 0 评论 -
《机器学习实战》笔记02~K-近邻(KNN)算法(分类)
1.K-近邻算法的优缺点采用测量特征值间的距离的方法进行分类优点在于,精度高,无数据输入假定,对异常值不敏感缺点在于,计算复杂度和空间复杂度高适用于数值型,标称型2.KNN工作原理存在训练样本集,样本集中每个数据都有标签及所属分类新数据输入时,选择样本数据集中前k个(通常k不大于20)距离最近(最相似)的数据统计k个数据中的分类数量,选择次数最多的分类分配给新数据...原创 2018-05-10 17:20:00 · 357 阅读 · 0 评论 -
《机器学习实战》笔记03~决策树算法
1.决策树的优缺点优点: 计算复杂度不高,结果易理解,对中间值缺失不敏感,可处理不相关的特征数据缺点: 过度匹配适用: 数值型,标称型原创 2018-05-21 16:20:54 · 292 阅读 · 0 评论 -
HBase简介
1. HBase简介HBase是什么建立在Hadoop HDFS之上的分布式面向列的数据库HBase特点高可靠,高性能,面向列,可伸缩的分布式存储系统,可横向扩展HBase与HDFS的区别 HDFS HBase 存储大容量文件的分布式文件系统 建立在HDFS上的数据库 不支持快速单独记录查询 支持在较大表中快速查询 ...原创 2018-06-19 16:42:19 · 317 阅读 · 0 评论 -
Scala基础知识
0. Scala简介多范式类似java, 可调用Java类库, 运行于JVM初衷是实现可伸缩的语言集成面向对象编程和函数式编程的各种特性IDE选择idea1. 入门支持的数据类型Scala中不存在基础数据类型,一律以类的形式出现 数据类型 含义 Byte 8位整数,-128~127 Short 16位整数,-32768~3276...原创 2018-06-27 14:45:22 · 733 阅读 · 0 评论 -
Spark SQL和Spark Streaming简介
1. Spark SQL用于处理结构化数据,提供SQL语句查询的API接口 SparkSQL数据类型DataFrames这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD该接口在Python, R, Java, Scala中都是可用的SparkSQL数据类型DataSetsSpark 1.6中添加的新接口不支持Python...原创 2018-07-09 13:57:48 · 2969 阅读 · 0 评论 -
CentOS7环境下Spark集群的配置
1. 解压缩到/home/hadoop/spark-2.2.0scala-2.11.72. 配置环境变量/etc/profile为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.shscala写入binspark写入bin和sbin3...原创 2018-07-02 17:29:56 · 1151 阅读 · 0 评论 -
Spark简介和RDD基本命令
1.Spark概念和特点Spark是什么Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是开源的,基于内存计算的大数据并行计算框架由UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 开发拥有Hadoop MapReduce的优点, 同时避免读写HDFSSpark和Hadoop MR的关系Spark 启用了内存分布数...原创 2018-07-04 13:58:03 · 958 阅读 · 0 评论 -
Spark在Windows下idea中本地调试及Jar方式集群运行
1. Windows本地调试依赖包版本(Maven下载),scope模式为complie<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.2.0</spark.version><s...原创 2018-07-05 11:20:08 · 2397 阅读 · 1 评论 -
Hadoop总结
0. Hadoop开源的分布式系统基础架构优点对大量数据进行分布式处理可靠, 假设硬件失效为常态, 针对失败节点进行重新分布处理高效, 并行处理提高处理速度可伸缩, 在横向扩展至上千个节点, 可处理PB级数据低成本, 项目开源,与同类产品比较成本低廉相关组件包括HDFSMapReduceYarnHiveHBaseZooKeeperSqoopFlu...原创 2018-07-20 11:23:44 · 3792 阅读 · 0 评论 -
在CentOS7下配置Hive
1. 前期准备安装jdk 1.8.0安装hadoop 2.9.0安装mysql 5.6.39下载mysql的jar包 mysql-connector-java-5.1.38.jar下载hive安装包 hive 2.3.32. 配置环境变量解压缩到/home/hadoop/hive-2.3.3修改/etc/profile添加hive的环境变量, 同时确保hadoop环境变...原创 2018-06-08 11:31:57 · 2116 阅读 · 2 评论 -
Hive与HBase结合实现HiveQL语句操作HBase表
0. 上传完整的jar文件到hive/lib中 删除hive/lib下所有文件解压上传以下jar到该目录 1. 修改hive-site.xml &amp;amp;amp;lt;name&amp;amp;amp;gt;hbase.zookeeper.quorum&amp;amp;amp;lt;/name&amp;amp;amp;gt; &amp;amp;amp;lt;value&am原创 2018-06-25 11:44:59 · 1242 阅读 · 0 评论 -
CentOS7环境下Hbase集群的配置
0. 前提jdk 1.8.0hadoop 2.9.0zookeeper 3.4.61. 下载解压缩hbase-1.2.6-bin.tar.gz2. 修改配置文件/home/hadoop/hbase-1.2.6/conf 生成tmp数据目录/home/hadoop/hbase-1.2.6/hbasedata修改hbase-site.xml,添加节点信息&lt...原创 2018-06-15 17:32:34 · 776 阅读 · 0 评论 -
大数据特点和基本处理流程
1.大数据的4V特性 中文 英文 大量化 volume 快速化 velocity 多样化 variety 价值化 value2.大数据的基本处理步骤数据获取 flume 数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据数据清洗 mapreduce 清除不需要,错误,无效的数据数据存储 hdf...原创 2018-05-22 13:35:58 · 11499 阅读 · 0 评论 -
CentOS7下配置Hadoop集群和Zookeeper集群
1.版本centos7 64位,VM虚拟机12.0,jdk 1.8.0hadoop 2.9.0zookeeper 3.4.6 2.Hadoop集群的配置0. 下载解压安装文件解压命令tar -xzvf 压缩文件名 文件夹路径1. 修改hadoop-env.sh添加jdk环境export JAVA_HOME=/usr/java/jdk1.8.0_144 文...原创 2018-05-23 13:10:58 · 1183 阅读 · 0 评论 -
Hadoop简介和常用命令
1. hadoop的节点存储文件首先在NameNode节点中以镜像文件方式保存DataNode节点的目录结构多个DataNode节点负责分布式存储,默认3个节点NameNode通知客户端已准备好存储节点,可以开始存储数据文件直接写入第一个DataNode节点(数据块形式,512k)由第一个节点拷贝至其他节点每完成一个数据块的全节点拷贝,就以日志形式反馈给前节点和文件以及NameNo...原创 2018-05-23 14:47:06 · 1435 阅读 · 0 评论 -
Zookeeper简介
1. ZooKeeper是一个分布式协调服务,用于管理大量主机。分布式应用程序并发的在网络中上运行,通过协调不同节点上进程以快速有效的方式完成特定任务。分布式应用程序特点: 高可用,可扩展,透明分布式程序缺点: 竞争条件,死锁,数据的不一致2. zookeeper功能 功能 简介 命名服务 按名称识别集群中的节点。它与DNS类似,但是用于节点。...原创 2018-05-23 14:47:47 · 1118 阅读 · 0 评论 -
MapReduce练习之Top k
1. 输入文件格式algorithm,liuyifei,75,85,62,48,54,96,15 computer,huangjiaju,85,75,86,85,85 english,liuyifei,76,95,86,74,68,74,48 english,huangdatou,48,58,67,86,15,33,85 algorithm,huanglei,76,95,86,74,6...原创 2018-06-04 16:19:55 · 817 阅读 · 0 评论 -
HDFS特性和常用功能
1. 官方文档:http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html2. 概念:Hadoop Distributed File System Hadoop的分布式文件系统3. 基本特点:高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和...原创 2018-05-24 10:21:39 · 5561 阅读 · 0 评论 -
MapReduce练习之共同好友
0. 问题通过mapreduce找出用户A,B,C…中每两个人所共同拥有的好友都有谁输入文件 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A...原创 2018-06-05 13:51:47 · 582 阅读 · 1 评论 -
MapReduce练习之倒排索引
0. 问题TF-IDF实现统计多个文档中一个单词出现的频数和出现在哪个文档中 在map中读取当前文档的每一行数据,得到当前文档路径mapkey(单词:文档路径),mapvalue(数值1)在map端设置Combiner类(整合数据,减少向reduce端传输数据的网络开销)将map的输出重新组合输出&lt;单词,文档路径:单词频数&gt;输入文件为三篇txt英文文档输出文件格式为 ...原创 2018-06-06 10:26:02 · 352 阅读 · 0 评论 -
Hiveql增删改查常用语句
0. 数据类型基本类型 数据类型 长度 格式 tinyint 1 byte 20 smalint 2 byte 20 int 4 byte 20 bigint 8 byte 20 boolean 布尔 true float 单精度浮点数 3.14 double 双精...原创 2018-06-13 16:35:35 · 8071 阅读 · 0 评论 -
HBase shell和Java基本命令
1. HBase shell 命令 功能 list 查看表,命名空间,命名空间下的表 scan 全表扫描 put 插入单行数据 get 读取数据 create 创建表,命名空间 drop 删除表,命名空间2. HBase Java初始化和关闭 Connection con; H...原创 2018-06-21 14:01:08 · 497 阅读 · 0 评论 -
Flume安装与简介
0. CentOS7下安装Flume 官方文档 http://flume.apache.org/FlumeUserGuide.html修改配置文件flume-env.sh/home/hadoop/flume-1.8.0/confcp flume-env.sh.template flume-env.sh修改Java_home路径export JAVA_HOME=...原创 2018-06-21 15:37:05 · 194 阅读 · 0 评论 -
正则表达式
1. Java中使用正则表达式String line = &amp;amp;quot;1-1,hello world&amp;amp;quot;;Matcher m = Pattern.compile(&amp;amp;quot;^(.*,)(.*\\s)(.*)&amp;amp;quot;).matcher(line);if (m.matches()){ String num = m.group(1); String原创 2018-06-22 16:52:09 · 200 阅读 · 0 评论 -
Flume导入文本文件到HBase
1. 用Java编写自定义的序列化类,通过jar形式放入flume/lib中自定义类MinputHbase, 实现接口HbaseEventSerializer, 重写其所有方法package com;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.conf.C...原创 2018-06-22 15:44:38 · 1688 阅读 · 1 评论 -
Hive简介和WordCount
1. Hive简介原创 2018-06-08 17:19:37 · 385 阅读 · 0 评论 -
Spark总结
1. Spark转为大规模数据处理设计的快速通用的计算引擎基于内存,开源,并行计算消除了mapreduce大量IO操作和仅支持批处理的缺陷通过RDD弹性分布式数据集,提供交互式查询功能基于scala面向函数语言编写,便于操作RDD可通过YARN管理分配资源,利用HDFS存储数据使用DAG有向无环图执行引擎,内存/磁盘计算速度均比MR快支持java,python,scala,R和...原创 2018-07-20 14:17:55 · 654 阅读 · 0 评论