大数据分析
sofeld
出肉的长颈鹿.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Redis 与 Memcached 区别:
Redis 与 Memcached 区别:两者都是非关系型数据库。主要有以下不同:数据类型:Memcached 仅支持字符串类型。redis 支持:String,List,set,zset,hash 可以灵活的解决问题。数据持久化:Memcached 不支持持久化。Redis 采用两种持久化策略:RDB 快照和 AOF 日志。分布式:Mencached 不支持分布式,只能在客户端...原创 2019-07-23 22:02:29 · 329 阅读 · 0 评论 -
hadoop的shuffle过程
Shuffle 的执行阶段流程1).Collect 阶段:将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是 key/value 序列化数据,Partition 分区信息等。2).Spill 阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了 combiner,还会将有相同分区号和 key ...原创 2019-08-25 22:39:16 · 430 阅读 · 0 评论 -
nginx 目录中的 off 文件增大原因
nginx 目录中的 off 文件增大原因在 Nginx 的根目录,有个 off 的文件!(有的是 on)!注意 error_log off 并不能关闭日志记录功能,它将日志文件写入一个文件名为 off 的文件中,如果你想关闭错误日志记录功能,应使用以下配置:error_log /dev/null crit;...原创 2019-08-24 23:31:20 · 2568 阅读 · 0 评论 -
【spark】spark streaming入门——官方文档的总结
spark streaming简介Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce...原创 2019-08-10 23:41:55 · 252 阅读 · 0 评论 -
【hive】hive入门详解
hive 介绍 Apache 的顶级项目,(是一个 java 程序) Facebook 公司 (2008 年) 开源给 Apache 基金会! hive 官网: http://hive.apache.org/ hive 到底是干什么的 将 SQL 转换成 MapReduce 程序,并将程序提交到 YARN 集群运行,不会自动生成结果文件, ...原创 2019-08-09 22:15:59 · 287 阅读 · 0 评论 -
【spark】java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable
java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable错误原因是因为 ImmutableBytesWritable 不能进行序列化(在 Java 中,如果类需要序列化需要实现 Serializable)而文件在经过网络传输时需要序列化(网络传输是二进制传输)解决:在官方...原创 2019-08-06 23:30:41 · 1487 阅读 · 0 评论 -
电商类网站的各种模块指标统计以及分析
以下这些都是针对于电商网站的指标来分析业务的:以下这些指标都是使用 SQL 语句分析得出的结果,首先先创建一张表,然后将数据导入表中,字段根据分析的业务的需要而定,这里我的选择是我已经存在的表进行查询的,下面将给出所有查询的 SQL 语句模块分析:select * from web_log.weblog_etl where dateStr="20180709" limit 5;1. 统...转载 2019-08-05 23:44:45 · 631 阅读 · 0 评论 -
【spark】spark sql 自定义schema
在 Spark 中可以直接读取数据文件但是读取到的数据的每一项数据是没有数据类型的而且不能使用数据像使用数据表中的字段名那样使用数据可以在读取数据的时候对读取到的数据进行设置转换设置转换后使用数据可以像使用数据库表中的字段那样通过字段名获取数据import java.util.Propertiesimport org.apache.spark.sql.types._impor...原创 2019-08-08 00:11:01 · 1724 阅读 · 0 评论 -
HBase基于java的mapreduce模板
public class SaleOrdersMapReducer extends Configured implements Tool { //原表:数据来源 private final static String ORDERS_TABLE_NAME="ns1:orders"; //处理后的数据,表需要提前创建 private final static String ...原创 2019-07-31 22:53:49 · 159 阅读 · 0 评论 -
关于大数据平台的软件的总列
查询引擎一、Phoenix简介:这是一个 Java 中间层,可以让开发者在 Apache HBase 上执行 SQL 查询。Phoenix 完全使用 Java 编写,代码位于 GitHub 上,并且提供了一个客户端可嵌入的 JDBC 驱动。Phoenix 查询引擎会将 SQL 查询转换为一个或多个 HBase scan,并编排执行以生成标准的 JDBC 结果集。直接使用 HBase A...转载 2019-07-27 00:01:24 · 431 阅读 · 0 评论 -
【Spark】standalone运行模式
简介:standalone 模式,是 spark 自己实现的,它是一个资源调度框架。这里我们要关注这个框架的三个节点:1)client2)master3)workerspark 应用程序有一个 Driver 驱动,Driver 可以运行在 Client 上也可以运行在 master 上。如果你使用 spark-shell 去提交 job 的话它会是运行在 master 上的,如果你使...原创 2019-08-04 22:49:52 · 447 阅读 · 0 评论 -
【redis】redis之nosql数据库
什么是NoSQL数据库not only sql,不仅仅值SQL,而是一种全新的数据库理论。可以理解为No relational,既非关系型性数据库关系型数据库和非关系型数据库不是对立,而是相辅相成的,nosql数据库有特殊的结构,将数据库存储到内存里面的,从性能的角度来讲,NoSQL数据库的性能优于关系型数据库。从安全性角度考虑,关系型数据库优于NoSQL数据库。所以在实际的项目开...原创 2019-07-25 22:22:26 · 210 阅读 · 0 评论 -
HBase | HBase 列族优化总结
随着大数据的越来越普及,HBase 也变得越来越流行。使用 HBase 并不困难,但是如何用好 HBase,这确是一个难点。为了合理地使用 HBase,尽可能发挥 HBase 的功能,我们需要根据不同的场景对 HBase 进行不同地优化以最大程度上提升系统的性能。本文重点介绍列族设计有关的优化。我们先来了解下 HBase 列族具有哪些属性配置。列族属性配置版本数量(VERSIONS)...转载 2019-07-30 23:23:45 · 1345 阅读 · 0 评论 -
【踩坑】sqoop:Error during export: Export job failed!
ERROR tool.ExportTool: Error during export:原因是hive建表时没有添加分隔符,加上row format delimited fields terminated by ‘\t’就好了。就酱。原创 2019-07-21 23:26:03 · 2326 阅读 · 1 评论 -
Spark性能调优:RDD的复用及持久化
避免创建重复的 RDD通常来说,开发一个 Spark 作业时,首先是基于某个数据源(比如 Hive 表或 HDFS 文件)创建一个初始的 RDD;接着对这个 RDD 执行某个算子操作,然后得到下一个 RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个 RDD 会通过不同的算子操作(比如 map、reduce 等)串起来,这个 “RDD 串”,就是 RDD lin...原创 2019-08-02 22:31:46 · 335 阅读 · 0 评论 -
大数据常见问题之数据倾斜
什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用 Hive 算数据的时候 reduce 阶段卡在 99.99%用 SparkStreaming 做...转载 2019-07-19 23:28:25 · 1496 阅读 · 0 评论 -
APP 数据指标体系分析
在移动互联网公司,任何一个 APP 都应该事先规划好数据体系,才允许上线运营,有了数据才可以更科学、更省力地运营。今天我们来说说如何做 APP 的数据分析。一、为什么要做 APP 数据分析1. 搭建数据运营分析框架一个 APP 的构建与运营工作通常由多个角色分工实现,由于大家的工作重点不同,仅关注一个方面的数据就如同管中窥豹,无法全面了解产品运营情况,不能提出行之有效的分析建议。因此,...转载 2019-07-16 23:29:31 · 1643 阅读 · 0 评论 -
scala 中的 OOP总结(面向对象编程)
-1.class 类和 Java 中类是一样的-2.Object 对象类比 和 Java 单例对象main 方法运行在此处-3.trait类比 Java 中接口 Interface隐式转换 implicitimplicit隐式的,隐藏的偷偷摸摸关键词:修饰 class,修饰...原创 2019-07-28 22:08:35 · 309 阅读 · 0 评论 -
【scala】什么是transient
@transient 是 java 的 transient 关键字的作用,是需要实现 Serilizable 接口,@transient是类型修饰符,只能用来修饰字段。在对象序列化过程中, / 被 transient 标记的变量不会被序列化在 Scala 中需要使用 @transient 修饰的方法时,需要进行注册,这里是解析 json 字符串的时候使用到的。下面是一个例子定义:/**...原创 2019-08-12 22:26:05 · 5588 阅读 · 0 评论
分享