
大数据
weixin_40657079
这个作者很懒,什么都没留下…
展开
-
大数据基础-linux基础
linux基本配置修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=server1 修改ip地址 修改ip地址 vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet...原创 2019-02-03 09:59:14 · 193 阅读 · 0 评论 -
数据挖掘算法-决策树
一、从LR到决策树LR模型是利用线性回归的预测值,通过sigmoid映射为概率,来对数据做预测,有非常友好的数据预处理特性,工业界应用很丰富。决策树的处理方式:二、分类树决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。1) 开始:构建根节点,将所有...转载 2019-03-26 18:59:02 · 2350 阅读 · 0 评论 -
数据挖掘建模-聚类分析
1.聚类分析概述聚类分析是一种定量方法,从数据分析的角度看,它是对多个样本进行定量分析的多元统计分析方法,可以分为两种:对样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析从数据挖掘的角度看,又可以大致分为四种:划分聚类层次聚类基于密度的聚类基于网格的聚类本篇文章将从数据挖掘的角度来揽述,但也会借鉴数学建模的部分思想。无论是从那个角度看,其基本原则都是:希望族(...转载 2019-03-23 12:39:44 · 1018 阅读 · 0 评论 -
大数据基础-Storm基础(一)
1、流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。 一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果2、离线计算与实时计...转载 2019-04-16 17:04:20 · 271 阅读 · 0 评论 -
大数据基础-Hadoop RPC框架
什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。...原创 2019-03-14 12:00:49 · 255 阅读 · 0 评论 -
大数据基础-HBASE
hbase简介 什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Goo...转载 2019-03-09 18:21:42 · 127 阅读 · 0 评论 -
大数据基础-HIVE辅助系统
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 ...转载 2019-03-09 17:57:11 · 1054 阅读 · 0 评论 -
大数据基础-HIVE
Hive基本概念Hive简介 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。...转载 2019-03-09 16:48:37 · 246 阅读 · 0 评论 -
大数据基础-Hadoop HDFS开发
******HDFS应用开发篇******HDFS的java操作hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件搭建开发环境1、引入依赖<dependency> <groupId>org.apache.hadoop</gro...转载 2019-03-09 16:07:02 · 158 阅读 · 0 评论 -
大数据基础-Hadoop原理
hdfs的工作机制(工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力)注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解概述HDFS集群分为两大角色:NameNode、DataNode NameNode负责管理整个文件...转载 2019-03-09 15:49:40 · 1276 阅读 · 0 评论 -
大数据基础-Hadoop基础
什么是HADOOPHADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈分...转载 2019-03-09 15:41:52 · 401 阅读 · 0 评论 -
大数据基础-zookeeper
zookeeper集群机制 半数机制:集群中半数以上机器存活,集群可用。 zookeeper适合装在奇数台机器上!!! 安装安装到3台虚拟机上安装好JDKsu – hadoop(切换到hadoop用户)tar -zxvf zookeeper-3.4.5.tar.gz(解压)mv zookeeper-3.4.5 zookeeper(重命名文件夹zookeeper-3...转载 2019-02-03 10:28:03 · 95 阅读 · 0 评论