
大数据基础知识
文章平均质量分 81
Only you, only you!
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark高并发写Redis方案
Spark高并发写Redis解决方案原创 2022-09-27 14:50:17 · 1369 阅读 · 0 评论 -
HyperLogLog算法流程小结
HyperLogLog介绍给定一批设备id集,通过一定流程提取这批id集的特征,用很少的一批数字表示(提前存下来),把这批数字带入特定公式,即可快速预估出这批id集的数量(存在较小误差)。可用在用户画像项目中的标签圈选人群数量预估上(支持多标签交集并集预估,速度1s以下。由于各个标签组合取值枚举海量,不可能提前求出所有情况的数量。RoaringBitmap计算速度在5s左右,用户体验差)。此算法流程简单,但理论证明复杂,如无必要,可只关注流程。HyperLogLog流程原理101010101..原创 2022-02-09 13:09:08 · 473 阅读 · 0 评论 -
Roaring Bitmap 原理及实践
Bitmap/Bitset问:1 亿个设备 id(imeimd5, 长度 32 字符串, 512 bit)需要多少存储空间?答:1 亿 * 64 Byte = 64 亿 Byte = 6.4 G但是,如果一个设备 id 使用 1 bit 存储,需要存储空间是 6.4G / 512 = 12.5 Mset = {1, 2, 15}package roaringbitmap;public class Test { public static void main(String[] args原创 2021-09-14 16:59:00 · 1925 阅读 · 0 评论 -
Flink 快速入门
Flink 简介Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any原创 2021-08-06 13:18:50 · 360 阅读 · 0 评论 -
《Hive编程指南》阅读笔记
首先搭建Hive编程环境,点我查看!第 2 章 基础操作2.7 命令行界面2.7.1 CLI 选项hive --help// 查看 cli 服务的使用帮助hive --service cli --help2.7.2 变量和属性// 显示以上所有命名空间中的变量和属性set;// 显示以上所有命名空间中的变量和属性,以及Hadoop中定义的所有属性set -v; // 新建自定义属性 set foo = bar;// 查看自定义属性,等价于 set hiveconf:fo原创 2021-05-06 12:09:35 · 335 阅读 · 0 评论 -
Kafka 快速入门
Kafka 概述Kafka 架构搭建 Kafka 伪分布式环境本文不使用 Kafka 自带的 Zookeeper,而是使用外部的 Zookeeper,所以得先安装好 Zookeeper。Zookeeper 伪分布式安装教程链接。官网下载 Scala 2.11 - kafka_2.11-0.11.0.0.tgz (asc, md5) 。开始搭建,类似搭建 Zookeeper 伪分布式环境。// 在 Kafka 的 config 中先拷贝三份 server 的配置文件cp serv原创 2021-03-27 23:31:51 · 179 阅读 · 0 评论 -
Hbase 快速入门
MySQL存储数据是以行为单位的,查询某条数据的某一列,就会把整行拿到,如果列比较多,就比较慢,不想要的列也会查出来!宽表垂直拆分,高表水平拆分(如日志文件按日期拆分)。增加列也可使用JSON方式动态增加。但MySQL的问题是存储大小受限(例如InnoDB最大64T)。MySQL是面向行的,适合查询,但不利于统计分析,比如要求某列的平均值,会把不需要的列都查出来,效率变低了。而HBase是面向列的存储,适合统计分析。HBase 数据模型The following represents the same原创 2021-03-25 23:42:16 · 239 阅读 · 0 评论 -
ZooKeeper 快速入门
Zookeeper 概述ZooKeeper is a distributed, open-source coordination service for distributed applications(文件系统+通知机制). 例如,Zookeeper 存储服务器访问地址信息,然后接受客户端(观察者)注册,客户端要通过这些服务器地址访问服务器,一旦这些数据发生变化(比如某服务器宕机),Zookeeper 就通知已经在 Zookeeper 上注册的那些观察者做出相应的反应(不再访问该服务器),其实这就是观察原创 2020-11-08 18:48:30 · 314 阅读 · 0 评论 -
Spark 快速入门(2)
安装下载 Spark,解压即可用!Windows 环境演示。测试在 Spark 的 bin 目录下执行下面命令,计算 100 次,求 Pi 的值。spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 ../examples/jars/spark-examples_2.11-2.4.6.jar 100WordCount 示例启动 spark-s原创 2020-08-21 00:02:12 · 380 阅读 · 0 评论 -
Scala 快速入门(2)
特别说明,本文主要参考 尚硅谷大数据之韩顺平Scala视频及对应资料,本文是笔者对应的学习笔记。1. Scala 概述Scala 有些类是对 Java 类的封装,所以 Scala 依赖 JDK,使用 Scala,需要先装 JDK。Scala 编译成 Java 字节码,运行在 JVM 之上。可去官网下载对应操作系统及对应版本的 JDK 和 Scala,安装/解压,并配置环境变量。一般在 Windows 开发,在 Linux 部署。一般使用 IDEA 开发(需要安装 Scala 插件)。第一个 Scal原创 2020-08-14 16:02:01 · 582 阅读 · 0 评论 -
Spark 快速入门(1)
大数据技术概述大数据时代大数据时代技术支撑(存储,计算,网络)存储,存储设备容量越来越大,价格越来越便宜计算,CPU处理能力不断提升(摩尔定律),多核网络,网络带宽提高,分布式处理数据产生方式的变革促使大数据时代的来临,从运营式(沃尔玛大型超市购物系统),到用户原创(微博、微信),再到感知式(物联网)。大数据概念Volume,大量Variety,多样(文件,音视频……)Velocity,快速(1秒定律,数据价值通常在诞生1秒内有效,比如在购物网站上实时点击流信息计算,构建用户画像原创 2020-08-06 20:34:31 · 1097 阅读 · 0 评论 -
Scala 快速入门(1)
Scalability is influenced by many factors, ranging from syntax details to component abstraction constructs. If we were forced to name just one aspect of Scala that helps scalability, though, we’d pick its combination of object-oriented and functional progr原创 2020-07-19 23:57:43 · 594 阅读 · 0 评论 -
Windows10 + VirtualBox 从零搭建 Hadoop/Hive 环境及 Hive 入门
1. 安装 VirtualBox官网下载最新版本 VirtualBox 并安装,此过程简单,可结合百度。笔者使用 VirtualBox-6.1.10-138449-Win.exe。2. 安装 Ubuntu官网下载最新版本 Ubuntu 并安装到 VirtualBox 中,此过程简单,可结合百度。笔者使用 ubuntu-20.04-desktop-amd64.iso。最好开辟的硬盘空间大点,最起码 20G 吧,不然后续如果不够用,再扩容就比较麻烦了!!笔者在当前用户目录下建立了一个 env 文件夹,专门原创 2020-07-06 13:17:05 · 2597 阅读 · 2 评论