
大数据
*风轻云淡*
不要问不要说,用键盘撸代码。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS客户端基本shell操作
# hdfs version 查看HDFS版本# hadoop fs -ls / 查看HDFS根目录下的文件和目录# hdfs dfs -ls -R /这条会列出/目录下的左右文件,由于有-R参数,会在文件夹和子文件夹下执行ls操作 , 会递归# hadoop fs -mkdir /test 在根目录创建一个目录test# hdfs dfs -cat /hd...原创 2019-03-20 07:23:03 · 300 阅读 · 0 评论 -
Sqoop的安装,简介与简单使用
1 Sqoop的安装首先,sqoop的下载地址:http://sqoop.apache.org/点击download点击这个链接即可下载将sqoop下载到本地以后 , 传到 Linux 平台 , 然后解压到自己的指定目录 , 修改配置文件 , 配置sqoop到 /etc/profile 变量里面 , 在lib下面添加连接数据库的jar包因为原来的ev...原创 2019-03-20 14:18:19 · 392 阅读 · 0 评论 -
大数据BAT经典面试题
1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如...原创 2019-03-20 14:30:50 · 296 阅读 · 0 评论 -
ETl讲解(很详细!!!)
ETL讲解(很详细!!!) ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到...原创 2019-03-21 09:38:18 · 788 阅读 · 0 评论 -
共享单车项目分析
一、提出问题在本项目中,参与者被要求将历史使用模式与天气数据相结合,以便预测华盛顿特区的自行车租赁计划中的自行车租赁需求。二、理解数据2.1 收集数据一般而言,数据由甲方提供。若甲方不提供数据,则需要根据相关问题从网络爬取,或者以问卷调查形式收集。本次共享单车数据分析项目数据源于Kaggle。获取数据后需要对数据整体进行分析,从而提炼问题,为后续建模奠定基础。首先查看Kaggle所提供的数据描述:...原创 2019-03-21 09:40:36 · 1713 阅读 · 0 评论 -
大数据项目流程
Spark项目运作流程详解项目运行架构 </div> <link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet"> </div>...原创 2019-03-21 09:45:44 · 2125 阅读 · 0 评论 -
基于Spark2.x新闻网大数据实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源...原创 2019-03-21 09:56:17 · 2600 阅读 · 2 评论 -
Hive的介绍 , 安装 , 配置以及启动
1 什么是Hive首先 , Hive是一个 sql 工具;它能接收用户输入的sql语句,然后把它翻译成mapreduce程序对HDFS上的数据进行查询、运算,并返回结果,或将结果存入HDFS;Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive是运行在Hadoop集群上的 , 所以在安装Hive之前 , 应启动Had...原创 2019-03-21 16:56:12 · 541 阅读 · 0 评论 -
windows下安装Redis
第一:去redis官网下载:https://github.com/MSOpenTech/redis/releasesredis支持32位和64位。这个需要跟你的电脑配置实际选择,这里下载的Redis-x64-xxx.zip压缩包到自己安装的路径下,最好给文件命名redis为好。压缩包下载完解压后,文件显示内容如下:打开cdm切换到redis安装目录下运行:切换: 先进入D:然后c...原创 2019-04-07 19:05:06 · 200 阅读 · 0 评论 -
打印日志文件并将其上传存到HDFS中
在本地打印日志 , 对日志文件进行分析 , 把需要上传的日志文件移动到待上传目录 , 将待上传的日志文件逐个上传到HDFS , 并移动到备份目录 , 定期清理过期备份日志 .1.首先生产日志文件:/** * 生产日志 * @author Administrator * */public class MoreLog { public static void ma...原创 2019-03-19 23:03:20 · 1133 阅读 · 0 评论 -
IntelliJ IDEA 使用Maven创建Spark WordCount
Maven选择Scala环境搭建主要是两种方式一种是传统的Maven还有一种是Sbt,不过使用Sbt一直都是慢爆了,找了很多解决方法还是很慢,所以Maven是个很好的替代品,从Java过来的应该都会创建项目1.使用Idea创建新的Maven项目,勾选Create from archetype 然后选择canel-archetype-scala,如下图所示2.这个archetype会生...原创 2019-03-18 21:01:26 · 1599 阅读 · 0 评论 -
大数据实战项目--中国移动运行分析
1、项目背景中国移动公司旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多.目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后由下往上一层一层的统计汇总,过程太过繁琐,且统计周期太长,且充值过程中会涉及到中国移动信息系统内部各个子系统之间的接口调用,接口故障监控也成为了重点监控的内容之一,为此建设一个能够...原创 2019-03-19 22:44:43 · 1235 阅读 · 1 评论 -
SQL 优化
1、目的数据库参数进行优化所获得的性能提升全部加起来只占数据库应用系统性能提升的40%左右,其余60%的系统性能提升全部来自对应用程序的优化。许多优化专家甚至认为对应用程序的优化可以得到80%的系统性能提升。因此可以肯定,通过优化应用程序来对数据库系统进行优化能获得更大的收益。对应用程序的优化通常可分为两个方面: 源代码的优化和SQL语句的优化。由于涉及到对程...原创 2019-03-19 22:46:55 · 198 阅读 · 0 评论 -
Spark 中 RDD 的详细介绍
RDD ---弹性分布式数据集RDD概述RDD论文中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.htmlRDD产生背景为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是RDD...原创 2019-03-19 22:49:57 · 226 阅读 · 0 评论 -
hadoop伪分布搭建
hadoop的大体架构主要分为HDFS以及MapRedure。HDFS的架构 主从结构 主节点,只有一个:namenode 从节点,有很多个:datanode namenode负责: 接收用户的请求 维护文件系统的目录结构 管理文件与block之间的关系,block于datanode之...原创 2019-03-12 14:09:03 · 510 阅读 · 0 评论 -
Hadoop-HDFS命令
HDFS常用指令原创 2019-03-16 21:08:32 · 186 阅读 · 0 评论 -
RDD的算子
综述转换类的算子Transformation,会生成新的RDD,lazy执行的。所有的transformation只有遇到action才能被执行行动类的算子action,会立即触发任务的执行,不会生成RDD把数据写入到相应的介质,展示结果数据(收集到driver)Transformationmap一一映射的,对某一个RDD执行map,每一条数据执行操...原创 2019-03-19 22:53:00 · 253 阅读 · 0 评论 -
spark相关面试题总结
(根据博客总结并不断增加自己的内容)1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Res...原创 2019-04-11 16:11:36 · 716 阅读 · 0 评论