
大数据
文章平均质量分 69
大数据相关技术栈:Spark、HBASE、Hive、Elasticsearch、Kafka 等
风老魔
这个作者很懒,什么都没留下…
展开
-
Spark中map和mapPartitions的区别及应用场景解析
map是对rdd中的每一个元素进行操作则是对rdd中的每个分区的迭代器进行操作,返回的也必须是迭代对象;执行效率高,但是一次传入一个partition的数据,有可能会导致OOM,因此可以在此之前进行。原创 2023-05-12 23:17:30 · 1124 阅读 · 0 评论 -
pyspark 读取 hbase
本文推荐两种读写 HBase 的方式:1、相关依赖:将 的 目录下的一些jar文件拷贝到Spark中,这些都是编程时需要引入的jar包,需要拷贝的jar文件包括:在 目录中新建一个目录 ,并将 拷贝进去:2、修改 文件:设置 的 文件,告诉Spark可以在哪个路径下找到HBase相关的jar文件,命令如下:1.2 读取 HBase1.3 向 HBase 写入数据2. happybase + Thrift 服务读写 HBase2.1 依赖安装由于需要安装第三方库 ,所以需要原创 2023-05-12 23:15:48 · 1246 阅读 · 2 评论 -
Hive更换Tez计算引擎
引擎进行计算,需要将下载好的依赖包上传至。除了关闭虚拟内存检查,还需要调大内存,修改。为了使各个节点都能够使用。分发到其他节点,并重启。4、关闭虚拟内存检查。原创 2023-02-13 21:58:12 · 285 阅读 · 0 评论 -
Hive 之查询
满外连接:将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。,导出到本地只会有两个文件有数据,另一个为空,只用到了两个。语句,但是只支持等值连接,不支持非等值连接,即表与表之间。必须有一列值相等作为连接条件,n 张表连接,至少要有。连接 n个表,至少需要n-1个连接条件。原创 2023-02-13 21:58:10 · 1019 阅读 · 0 评论 -
Hive 之 DML 数据操作
DML命令包括insert,update,delete和select。insert命令有助于将新记录或行存储到表中;update命令有助于修改表中的现有记录;delete命令允许从表中删除某个记录或一组记录;select命令允许从一个或多个表中检索特定记录原创 2023-02-12 19:34:38 · 306 阅读 · 0 评论 -
Hive 之 DDL操作
DDL 操作是用于操作对象和对象的属性,这种对象包括数据库本身,以及数据库对象,像:表、视图等原创 2023-02-12 19:31:35 · 736 阅读 · 0 评论 -
hive 数据类型
hive 数据类型包括基本数据类型、集合数据类型原创 2023-02-11 14:30:00 · 864 阅读 · 0 评论 -
Hive 连接及使用
有三种方式连接 hive:cli:直接输入 bin/hive 就可以进入 clihiveserver2、beelinewebui原创 2023-02-11 14:00:00 · 3183 阅读 · 0 评论 -
hive 安装部署
Linux 上搭建 hive 环境,配置元数据存储数据库原创 2023-02-10 21:18:29 · 391 阅读 · 0 评论 -
elasticsearch term & match 查询
term 查询:精确查询,match 查询:匹配/模糊查询原创 2023-02-10 21:16:05 · 1023 阅读 · 0 评论 -
elasticsearch 之 mapping 映射
mapping 即索引结构,可以看做是数据库中的表结构,包含字段名、字段类型、倒排序索引相关设置原创 2023-02-09 22:24:39 · 1152 阅读 · 1 评论 -
elasticsearch 批量写入(Python版).md
使用 Python 批量写入数据到 elasticsearch 中,几种方法对比原创 2023-02-09 22:23:13 · 893 阅读 · 0 评论 -
elasticsearch 安装
elasticsearch 搜索在 Windows、Linux 分别怎么安装原创 2023-02-08 21:45:57 · 184 阅读 · 0 评论 -
Scala 之面向对象编程
Scala 对象包括单列、伴生、应用程序对象等,面向对象编程还包括继承、特质、模式匹配原创 2023-02-08 21:42:48 · 380 阅读 · 0 评论 -
Scala 基础
Scala 运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序,Scala代码可以调用Java方法,访问Java字段,继承Java类和实现Java接口原创 2023-02-07 21:56:12 · 886 阅读 · 0 评论 -
sbt 编译打包 scala
sbt 编译打包 scala原创 2023-02-07 21:54:32 · 781 阅读 · 0 评论 -
Spark SQL
Spark SQL 是 spark 用来处理结构化数据的模块,它提供了2个编程抽象, 类似 Spark Core 中的 RDD原创 2023-02-05 21:32:21 · 1125 阅读 · 0 评论 -
Spark SQL UDF 函数(二)
Spark udf 函数原创 2023-02-05 21:30:34 · 228 阅读 · 0 评论 -
Spark 数据读取保存
的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统: 类型的文件读都可以用 ,保存使用 2. 读取 json 文件读 文件主要是需要解析其 格式,一般采用:,也可以使用 3. 读取 SequenceFile 文件 文件是 用来存储二进制形式的 对而设计的一种平面文件(Flat File)运行结果:4. 读取 ObjectFile 文件对象文件是将对象序列化后保存的文件,采用 的序列化机制,可以通过 函数接收一个路径,读取对象文件,返回对应的 ,也可以通过调用 实现对对原创 2023-02-04 22:31:47 · 2056 阅读 · 0 评论 -
配置 spark 历史服务器
在没有退出之前, 我们是可以看到正在执行的任务的日志情况,一旦任务执行结束,web-ui就不能看到历史任务,需要额外配置历史服务器。原创 2023-02-04 22:30:16 · 661 阅读 · 0 评论 -
Spark 读写 es 数据(scala 版)
Spark 读取 es(scala 版)原创 2023-02-03 22:20:45 · 2187 阅读 · 0 评论 -
Spark 之共享变量
可以通过继承val session = SparkSession . builder . appName("create_rdd") . master("local[2]") . getOrCreate() val sc = session . sparkContext // 先注册自定义的累加器 val acc = new MyAcc。原创 2023-02-02 22:08:13 · 718 阅读 · 0 评论 -
Spark Streaming
具体步骤:1.2 测试 kafka1、创建 :2、查看 :3、启动生产者:生产者启动成功后,会一直卡在那,等待输入消息,以上已输入三组信息,现在来启动一个消费者消费。4、启动消费者:1.3 启动 hdfs 和 yarn1、启动 :2、启动 :1.4 spark 消费 kafka 消息1.4.1 配置依赖包 连接 需要依赖两个 包:否则无法连接 ,具体可参照官网:。下载完毕后,将其拷贝到 目录下:1.4.2 编写 SparkStreaming 程序该程序是一个简单的 程序,原创 2023-02-02 22:05:39 · 622 阅读 · 0 评论 -
PySpark 之 SparkSQL 编程
RDDSparkDataFrameDataFrameSpark SQLrdd在Excutor上跑的大部分是Python代码,只有少部分是java字节码;而SparkSQL在Excutor上跑的全是Java字节码,因此其性能要比rdd更好,灵活性也更好!原创 2023-02-01 21:58:25 · 766 阅读 · 2 评论 -
map 和 mapPartitions 的区别
map是对rdd中的每一个元素进行操作则是对rdd中的每个分区的迭代器进行操作,返回的也必须是迭代对象;执行效率高,但是一次传入一个partition的数据,有可能会导致OOM,因此可以在此之前进行。原创 2023-02-01 21:55:44 · 154 阅读 · 0 评论 -
Spark RDD 操作
Spark Core RDD transform 和 action 操作原创 2023-01-31 22:23:10 · 2111 阅读 · 0 评论 -
Spark Core RDD
是一个弹性的分布式数据集,是spark的基本抽象,是不可变的,且由多个partition(可理解为分区)构成(可能分布在多条机器上,可以存在内存或磁盘中),可以进行并行操作。原创 2023-01-31 22:21:40 · 273 阅读 · 0 评论 -
Kafka 按时间轴消费
【代码】Kafka 按时间轴消费。原创 2023-01-30 22:26:13 · 1316 阅读 · 0 评论 -
Kafka API 学习
Kafka的Producer发送消息采用的是的方式。在消息发送的过程中,涉及到了两个线程main线程和Sender线程 ,以及 一个线程共享变量。main线程将消息发送给Sender线程不断从中拉取消息发送到batch.sizelinger.msbatch.sizesender。原创 2023-01-30 22:25:26 · 629 阅读 · 0 评论 -
HBASE 认识
HBASE是一种分布式、可拓展、支持海量数据存储的NoSQL数据库以下情况之一建议不要使用HBaseHBaseHBaseHadoopHiveHiveHadoopSQLHDFS。原创 2023-01-18 19:00:00 · 1513 阅读 · 0 评论 -
HBASE API 操作
1、idea创建一个maven项目2、添加相关依赖(HBASE客户端(最主要)、服务端),pom.xml原创 2023-01-18 17:00:00 · 1742 阅读 · 0 评论 -
HBASE shell 命令
HBASE shell 常用命令原创 2023-01-17 20:04:44 · 756 阅读 · 0 评论 -
VMware 搭建 hadoop 完全分布式集群
VMware 虚拟机搭建 hadoop 完全分布式集群,集成 Spark、HBASE、Hive 等原创 2023-01-17 20:03:19 · 1920 阅读 · 0 评论