
大数据专栏
文章平均质量分 70
大数据的各种框架学习
创作者mateo
大数据专业,大数据行业从事者。帮忙辅导作业。免费教学大数据,而且本人还带徒弟哦!!!!文章末尾有v,获取资料
展开
-
mapreduce简单案例----求共同关注的粉丝
目的:第一阶段的目的是统计每个用户的关注列表,并整合为键值对。第二阶段的目的是计算每两位用户之间的共同关注好友,并整合为键值对。数据类型变化:在第一阶段,键值对的变化是从用户和关注列表到好友和拥有该好友的用户列表字符串。在第二阶段,键值对的变化是从好友和拥有该好友的用户列表字符串到用户组合和共同关注好友列表。这样的设计和变化使得整个 MapReduce 过程在不同阶段能够有效地处理数据,从而实现了共同好友查找系统的功能。数据集:张三:谢霆锋,陈奕迅,邓昊天,风清扬,伊森,奥布莱恩。原创 2024-01-11 14:44:59 · 1206 阅读 · 0 评论 -
spark学习一-------------------Spark算子最详细介绍
简介map算子:map算子是将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd* map 不会产生shuffle,map之后的分区数等于map之前rdd的分区数。原创 2023-11-28 09:48:55 · 647 阅读 · 0 评论 -
sqoop的安装使用
sqoop安装教程原创 2023-02-22 22:42:37 · 278 阅读 · 0 评论 -
使用OGG实现Oracle到kafka数据同步(详细版本)
使用OGG实现Oracle到kafka数据同步原创 2023-01-04 14:38:31 · 2700 阅读 · 3 评论 -
Maven安装
如上图,点击Installations,在右侧点击add添加Maven_home替换掉eclipse自身的,同时点击User Settings添加maven的配置文件settings.xml。这个时候重启eclipse,然后点击windows-->Preferences-->Maven这个时候就说明安装成功。如果你采用2这种方式的话,一定要写“\\”,不然eclipse无法正确识别你填写的路径,推荐使用1。在系统环境变量中配置MAVEN_HOME,同时将%MAVEN_HOME%\bin加入的path中。原创 2022-09-08 15:05:42 · 289 阅读 · 1 评论 -
OGG基本框架、安装、运维、报错处理、监控命令
● Extract● Data pump● Trails● Collector● Replicat● Manager利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log,然后进行解析,只提取其中数据的变化信息,比如DML操作——增、删、改操作,将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。目标端有一个原创 2022-07-06 10:40:38 · 1814 阅读 · 2 评论 -
ogg的安装以及mysql到mysql的同步处理
这里根据官方文档进行安装。这里不做讲解。有两种方式安装ogg:选择自己对应的系统,因为我这里是linux系统,所以我选择下载第一个。这里直接给出下载地址点击即可下载环境介绍,为了节省资源OGG我选择和原库安装在了同一台服务器安装之前,介绍一下ogg的目录用途说明:介绍完成以后,我们首先来配置源库和目标库OGG19C可以使用基于日志的DDL复制,要求添binlog_row_metadata为full模式才可以实现目标库配置主备数据库创建同步用户并附权1.3 OGG配置在19C的OGG中ogg可原创 2022-07-04 08:37:40 · 1685 阅读 · 1 评论 -
Oracle GoldenGate(OGG)到入土
Oracle GoldenGate(ogg)的基本介绍、安装与使用原创 2022-06-26 11:00:28 · 483 阅读 · 0 评论 -
Flume的安装及使用
Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传至虚拟机,并解压2、重命名目录,并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传至虚拟机,并解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/softalias soft=‘cd /usr/local/soft/’原创 2022-04-10 10:47:21 · 391 阅读 · 1 评论 -
DataX的安装及使用
datax的安装以及使用原创 2022-04-09 09:37:10 · 297 阅读 · 0 评论 -
spark学习-----Spark 算子
学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集 , 是 Spark 中最基本的数据对象,它代表一个不可变,可区,里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.原创 2022-03-25 10:04:37 · 2268 阅读 · 0 评论 -
Kafka第二天笔记
Kafka中的分区副本机制、消费组Consumer Group Rebalance机制、消费者的分区分配策略、副本的ACK机制kafka的原理:leader和follower原创 2022-03-25 09:57:41 · 249 阅读 · 0 评论 -
Kafka第一天笔记
kafka的基本介绍原创 2022-03-25 09:53:43 · 210 阅读 · 0 评论 -
flink学习
flink的历史介绍,flink安装以及算子介绍原创 2022-03-21 19:54:06 · 2405 阅读 · 0 评论 -
spark学习----SparkContext理解、资源调度及源码分析
SparkContext详细理解原创 2022-03-16 15:07:45 · 723 阅读 · 0 评论 -
hbase学习----基本操作
断更只是为了更好的出现,这里带来最详细的hbase的笔记。这里我们详细的来看hbase的教学,今天这一章节主要对hbase做了基本的介绍和一些基本的使用。hbase的简介一、Hadoop和HbaseHBase是基于Hadoop集群之上来搭建的Hadoop有一些局限性的:做一些批量的数据处理,吞吐量比较高,但是它对随机查询、实时操作性能是不行的HBase是NoSQL数据库的一种,它跟传统的RDBMS有很大的差别不支持JOIN的,摒弃了关系型模型,而且在HBase中只有一种数据类型:b.原创 2022-03-01 01:05:25 · 932 阅读 · 0 评论 -
HBase学习-----------基础介绍
Hbase的基础介绍原创 2022-02-21 00:52:19 · 297 阅读 · 0 评论 -
hbase学习----------hbase的安装
hbase-1.4.6的安装原创 2022-02-20 19:16:02 · 201 阅读 · 0 评论 -
hbase分布式集群的搭建
1、启动hadoopstart-all.sh验证http://master:500702、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status搭建hbase1、上传解压配置环境变量 tar -xvf hbase-1.4.6-bin.tar.gz2、修改hbase-env.sh文件增加java配置export JAVA_HOME=/usr/local/soft/jdk1.8.0_171关闭默认zk配置expo原创 2022-01-07 21:31:14 · 243 阅读 · 0 评论 -
Hive的JDBC的连接方式
详细的讲解了idea如果远程访问hive2.3.7原创 2022-01-04 08:00:13 · 6555 阅读 · 1 评论 -
metastore的概念和三种模式介绍以及错误的解决
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient错误的解决以及原理以及metastore介绍原创 2021-12-27 08:33:58 · 2166 阅读 · 1 评论 -
hive学习-----基础语句
什么是内部表外部表、hive的基本介绍,分桶、分区。简单介绍了hive JDBC,关于hive JDBC的后面单独详细介绍原创 2021-12-26 08:08:40 · 1484 阅读 · 1 评论 -
hive-2.3.7的搭建
hive的保姆式安装和注意事项,很详细,最简单的方式,做出最好的结果原创 2021-12-24 12:18:48 · 517 阅读 · 0 评论 -
redis安装和基本介绍
redis的详细保姆式安装,还有一些基本信息的介绍原创 2021-12-21 08:08:13 · 626 阅读 · 0 评论 -
HBase第一天学习笔记
文章目录HBase的特点RowKey列簇时间戳CellRegion的分裂策略Compaction操作Minor Compaction:Major Compaction:HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。无模式:每一行都有一个可以排序的主键和任意多的列,列可以根据需要动态增 加,同一张表中不同的行可以有截然不同的列。数据多版本:原创 2021-12-19 21:41:33 · 981 阅读 · 0 评论 -
浅谈Hadoop的应用
浅谈Hadoop的实际应用原创 2021-12-19 11:51:48 · 1695 阅读 · 1 评论 -
Linux的常用指令
Linux的常见指令的学习原创 2021-12-18 14:05:46 · 151 阅读 · 0 评论 -
flink安装教程
简单提一下flink的安装教程原创 2021-12-18 13:42:24 · 3777 阅读 · 0 评论 -
Linux问题
这里补充一下外网权限,Linux的启动级别的修改,三台虚拟机的时间同步如何修改,还有安全模式如何查看打开关闭原创 2021-12-18 13:38:24 · 983 阅读 · 0 评论 -
day04Hadoop环境搭建之网络配置
day04Hadoop环境搭建之网络配置转载 2021-12-17 21:57:48 · 201 阅读 · 0 评论 -
Java正则表达式的学习使用
详细介绍正则表达睡的概念用途和使用,多个例子去理解和使用正则表达式原创 2021-12-17 19:20:04 · 760 阅读 · 0 评论 -
Hadoop实战之workcount
两种方法实现workcount原创 2021-12-15 19:52:55 · 1088 阅读 · 0 评论 -
Hadoop的学习,深入了解hdfs框架
深度了解hdfs架构,Hadoop的特点以及其工作机制原创 2021-12-14 07:15:10 · 1167 阅读 · 1 评论 -
hdfs的常见指令以及Java实现hdfs 的操作
hdfs的java实现,进行一些简单的操作,初学者学习还是很简单的,但是要求java的基础要好,不然可能看不懂原创 2021-12-12 10:53:43 · 545 阅读 · 0 评论 -
Hadoop的安装教程,很详细
jdk的安装和Hadoop的分布式安装,安装步骤简单,还有一些常见错误的讲解,安装过程有什么问题随时联系小编原创 2021-12-12 10:14:39 · 10194 阅读 · 5 评论 -
mysql的安装
傻瓜式安装mysql,全程无错,可以随意使用,如果安装第一步提示安装失败,就是官网资源出了问题,可以联系小编更改原创 2021-11-30 21:50:26 · 317 阅读 · 0 评论