- 博客(129)
- 资源 (6)
- 收藏
- 关注
原创 mapreduce简单案例----求共同关注的粉丝
目的:第一阶段的目的是统计每个用户的关注列表,并整合为键值对。第二阶段的目的是计算每两位用户之间的共同关注好友,并整合为键值对。数据类型变化:在第一阶段,键值对的变化是从用户和关注列表到好友和拥有该好友的用户列表字符串。在第二阶段,键值对的变化是从好友和拥有该好友的用户列表字符串到用户组合和共同关注好友列表。这样的设计和变化使得整个 MapReduce 过程在不同阶段能够有效地处理数据,从而实现了共同好友查找系统的功能。数据集:张三:谢霆锋,陈奕迅,邓昊天,风清扬,伊森,奥布莱恩。
2024-01-11 14:44:59
1182
1
原创 Spark MLlib ----- ALS算法
在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归,假设其符合的函数为如下:y = w+ wx。
2024-01-08 17:49:57
2273
原创 spark学习一-------------------Spark算子最详细介绍
简介map算子:map算子是将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd* map 不会产生shuffle,map之后的分区数等于map之前rdd的分区数。
2023-11-28 09:48:55
621
原创 线性回归模型(7大模型)
先从一个简单的问题开始:如何用一个线性函数来拟合一个二维数据集? 假设我们有一个二维数据集,其中每个样本都由一个x和一个y组成。我们可以用一个线性函数 y = ax + b 来拟合这个数据集,其中a和b是待定的系数。我们的目标是找到最佳的a和b,使得这个线性函数能够尽可能地拟合这个数据集。 这就是线性回归的基本思想:通过拟合一个线性函数来预测一个连续型的输出变量。这是一个非常简单的案例。
2023-04-26 11:12:38
20788
原创 Maven安装
如上图,点击Installations,在右侧点击add添加Maven_home替换掉eclipse自身的,同时点击User Settings添加maven的配置文件settings.xml。这个时候重启eclipse,然后点击windows-->Preferences-->Maven这个时候就说明安装成功。如果你采用2这种方式的话,一定要写“\\”,不然eclipse无法正确识别你填写的路径,推荐使用1。在系统环境变量中配置MAVEN_HOME,同时将%MAVEN_HOME%\bin加入的path中。
2022-09-08 15:05:42
281
1
原创 大数据运维工作(Linux,OGG,链路监控,Hadoop运维等)
大数据运维工作,主要介绍:Linux运维,Hadoop运维,ogg运维,链路监控运维等
2022-09-06 16:30:18
1781
原创 OGG基本框架、安装、运维、报错处理、监控命令
● Extract● Data pump● Trails● Collector● Replicat● Manager利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log,然后进行解析,只提取其中数据的变化信息,比如DML操作——增、删、改操作,将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。目标端有一个
2022-07-06 10:40:38
1775
2
原创 ogg的安装以及mysql到mysql的同步处理
这里根据官方文档进行安装。这里不做讲解。有两种方式安装ogg:选择自己对应的系统,因为我这里是linux系统,所以我选择下载第一个。这里直接给出下载地址点击即可下载环境介绍,为了节省资源OGG我选择和原库安装在了同一台服务器安装之前,介绍一下ogg的目录用途说明:介绍完成以后,我们首先来配置源库和目标库OGG19C可以使用基于日志的DDL复制,要求添binlog_row_metadata为full模式才可以实现目标库配置主备数据库创建同步用户并附权1.3 OGG配置在19C的OGG中ogg可
2022-07-04 08:37:40
1654
1
原创 Flume的安装及使用
Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传至虚拟机,并解压2、重命名目录,并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传至虚拟机,并解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/softalias soft=‘cd /usr/local/soft/’
2022-04-10 10:47:21
382
1
原创 spark学习-----Spark 算子
学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集 , 是 Spark 中最基本的数据对象,它代表一个不可变,可区,里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.
2022-03-25 10:04:37
2264
原创 Kafka第二天笔记
Kafka中的分区副本机制、消费组Consumer Group Rebalance机制、消费者的分区分配策略、副本的ACK机制kafka的原理:leader和follower
2022-03-25 09:57:41
244
原创 hbase学习----基本操作
断更只是为了更好的出现,这里带来最详细的hbase的笔记。这里我们详细的来看hbase的教学,今天这一章节主要对hbase做了基本的介绍和一些基本的使用。hbase的简介一、Hadoop和HbaseHBase是基于Hadoop集群之上来搭建的Hadoop有一些局限性的:做一些批量的数据处理,吞吐量比较高,但是它对随机查询、实时操作性能是不行的HBase是NoSQL数据库的一种,它跟传统的RDBMS有很大的差别不支持JOIN的,摒弃了关系型模型,而且在HBase中只有一种数据类型:b.
2022-03-01 01:05:25
919
原创 大数据开发Hadoop-----深入 yarn基础架构
这里开始来说Hadoop的资源管理系统—yarn,yarn作为Hadoop的核心的组建之一,我们应该清楚的了解他的工作机制和基础架构。yarnyarn的由来 jobtracker 兼顾资源管理和作业控制跟踪功能跟踪任务,启动失 败或迟缓的任务,记录任务的执行状态,维护计数器),压力 大,成为系统的瓶颈 可靠性差:采用了 master/slave 结构,master 容易单点故障 资源利用率低:基于槽位的资源分配模型,槽位是一种粗粒度的 资源划分单位,通常一个任务不会用完一个槽位的.
2022-02-15 00:57:27
208
区块链论文以及研究成果
2024-01-08
基于spark的咖啡数据分析
2024-01-08
新闻、健身实时数据 基于spark+kafka+flume+echarts可视化+hadoop
2024-01-08
旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统, 是一套开源的项目,系统具有完整的源代码和数据库,
2022-08-29
博客系统:web前端+管理后台+java源码
2022-08-29
ogg数据不同步的问题
2022-08-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人