
从零学习数据挖掘
文章平均质量分 90
记录从JavaWeb转到数据挖掘过程中走的路挖的坑
Trigl
永远别给自己后悔的机会。
展开
-
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上原创 2017-05-24 15:33:29 · 50419 阅读 · 10 评论 -
hadoop、zookeeper、hbase、spark集群环境搭建
本文详细讲解如何搭建hadoop、zookeeper、hbase和spark的集群环境,这里我是在本地虚拟机上搭建的集群,但是和实际环境的配置差不多。我会从零开始搭建并且尽量写得详细,所以还会讲到很多配置linux环境的东西,希望大家不要烦,务必按照步骤一步步做下去。 本文主要讲了以下内容:Linux系统的一些基础配置安装jdk配置SSH免登陆hadoop的安装和配置zookeeper集原创 2016-09-13 09:44:53 · 16215 阅读 · 4 评论 -
Hadoop双namenode配置搭建(HA)
配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。Hadoop HA的搭建是基于Zookeeper的,关于Zookeeper的搭建可以查看这里 hadoop、zookeeper、hbase、spark集群环境搭建 ,本文可以看做是这篇文章的补充。这里讲一下Hadoop配置安装。配置Hadoop文件需要修原创 2017-02-14 17:31:10 · 19750 阅读 · 8 评论 -
Hive快速入门
主要内容 Hive概述 Hive安装配置 数据类型和文件格式 HQL常用操作 1. Hive概述1.1 为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据带来曙光,但是需要写MapReduce或者Spark任务,入门门槛较高,需要掌握一门编程语言例如Java或者Scala。 我们长久以来习惯于传统的关系型数据库,并且结构化查询语言(SQL)相对来说也比原创 2017-03-11 15:50:26 · 6251 阅读 · 0 评论 -
数据仓库的架构与设计
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。原创 2017-04-01 17:52:19 · 101465 阅读 · 26 评论 -
Learning Spark——使用spark-shell运行Word Count
在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器面纱。spark-shell是Spark的命令行界面,我们可以在上面直接敲一些命令,就像windows的cmd一样,进入Spark安装目录,执行以下命令打开spark-shell:bin/spark-s原创 2017-04-27 11:20:29 · 8680 阅读 · 1 评论 -
Learning Spark——使用Intellij Idea开发基于Maven的Spark程序
本文主要讲解如何使用Idea开发Spark程序,使用Maven作为依赖管理,当然也可以使用SBT,但是由于一直写Java程序习惯用Maven了,所以这里使用Maven。1、下载安装Jdk、Scala、MaveJdk、Maven安装方法略过,搞Java的应该都会,这里讲一下Scala的安装,其实和Java差不多。首先下载:https://www.scala-lang.org/download/按步骤安原创 2017-04-20 18:08:37 · 10018 阅读 · 1 评论 -
Learning Spark——RDD常用操作
本文内容主要包括: 基本转换操作 键值对转换操作 行动操作 RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。为什么会分为两种操作,这两种操作又有什么区别呢?我们先考虑一下平常我们使用的一些函数,举个例子Long.toString(),这个转换是把Long类型的转换为String类型的。如果同样的事情在Spark中,是如何执行的呢?在Sp原创 2017-04-27 17:33:57 · 2939 阅读 · 0 评论 -
Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase
执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar原创 2017-05-20 16:12:46 · 5366 阅读 · 1 评论