- 博客(56)
- 收藏
- 关注
原创 使用 Docker 搭建 Hadoop 集群
后面如果重新安装系统或者重新安装了 Docker Desktop,只要保留这两个目 录下的文件,则原来的所有配置及数据都可以还原。在安装基本软件后,可以 Debian 的软件源切换到国内,以提高后续软件安装的速度,减少等待时间,提高效率。下面以阿里云为例,地理位置也可切换为其它的源,例如腾讯,华为,清华。为了减少重复工作,可以将集群存储与计算环境中的常用组件全部安装好, 并提交到 Docker Server 中,后续容器在些镜像上创建。4)将公钥拷贝到要免密登录的目标机器上,各自文件下(不知道密码使用。
2024-12-28 12:38:19
3366
2
原创 启用 WSL并使用 Moba 连接
(5) 打开 Microsoft Store,下载对应的 Linux 分发版本,我这里安装的是 Debian,其他例如 Ubuntu 也行(国内下的太慢可以使用 VPN);会话(Session)→ WSL → Debian → 启动目录选择前面迁移的地方(不填默认也能找到)(6)启动 Debian,(关闭 VPN)创建新的用户密码,自己随便取;(3)【可选】设置 WSL 默认版本为 wsl2。(9)使用 MobaXterm 连接 WSL。(8)【可选】将 wsl 迁移到 D 盘。(4)【可选】更新内核。
2024-12-28 12:28:43
970
原创 MapReduce 实践题:Web 访问日志分析与异常检测
你被要求设计和实现一个基于 MapReduce 的大规模 Web 访问日志分析与异常检测系统。该系统的目标是从每日数百万条访问日志中提取有用的信息,并检测出潜在的异常访问行为。
2024-06-23 19:02:46
1274
原创 【机器学习算法导论】监督式学习算法
第二章 监督式学习算法监督学习框架基本假设期望损失经验风险最小化Hoeffding 不等式定理证明泛化性欠拟合过拟合奥卡姆剃刀原则正则化方法模型评估的标准回归与分类回归算法评价指标绝对误差相对误差分类算法评价指标混淆矩阵 (`Confusion matrix`):准确率 (`Accuracy`):分类错误率 (`Classification error`):召回率 (`Recall`)精确率 (`Precision`)ROC 曲线AUC数据集拆分留出法
2024-03-19 09:17:43
1136
原创 CCF-CSP 202312-3 树上搜索(Java、C++、Python)
树结构的模拟题。总体思路是:1. 通过深度优先搜索,将目标类别(从根类别 1 开始)的权重更新为其全部后代类别的权重之和;2. 选择权值与其余全部可选的类别的权重之和的差最小的。如果有多个,则选取编号最小的那一个,输出该类别;3. 通过深度优先搜索,判断是否属于该类别;4. 如果属于,则仅保留该类别及其后代可选择的类别,将目标类别换成该类别5. 否则保留其余类别,即删除该类别及其所有后代类别;6. 重复上述步骤,逐步缩小搜索范围,直到只剩下一个类别,此时即可确定名词的类别。
2024-01-31 09:10:54
6896
7
原创 CCF-CSP 202312-2 因子化简(Java、C++、Python)
对于 n,仅有一个最大素因子 m 可能大于 sqrt(n),也就是说我们只需要除去 2 ~ sqrt(n) 的素因子就可以得到 m,所以对于全部数据 2 ~ 10^10,我们只需要求出 2 ~ 10^5 中所有质数即可,直接用试除法,稍微优化一下时间复杂度也就 10^7,可以通过,如果 n 到 10^14 就需要使用线性筛法了。
2024-01-30 23:56:55
2759
6
原创 CCF-CSP 202312-1 仓库规划(Java、C++、Python)
如果有多个仓库均满足该要求, 则选取其中编号最小的仓库作为仓库。均满足上级仓库的编码要求,因此选择编号较小的仓库 1 作为其上级。维向量的位置编码, 用来表示仓库间的物流运转关系。如果没有仓库满足条件, 则说明仓库。个仓库的位置编码, 试计算每个仓库的上级仓库编号。,且位置编码中的所有元素均为绝对值不大于。, 分别表示仓库个数和位置编码的维数。位置编码的对应元素。是一个物流中心, 没有上级仓库。位置编码的每一维均大于仓库。输出一个整数, 表示仓库。个仓库, 依次编号为。均可能有一个上级仓库。
2024-01-30 21:58:52
1891
原创 【Kaggle】泰坦尼克号生存预测 Titanic
(其中 Version 1-3 含有分析过程,文末仅贴有逻辑回归模型的完整 python 代码)训练集(train.csv)测试集(test.csv)训练集:包含机上部分乘客(确切地说是 891 名)的详细信息,重要的是,将揭示他们是否幸存,也称为“基本事实”。测试集:包含类似的信息,但没有披露每位乘客的“基本事实”。预测这些结果是你的工作。列名含义乘客编号Survived生存情况(0:死亡,1:存活)Pclass客舱等级Name姓名Sex性别Age年龄SibSp。
2024-01-22 05:58:01
2804
原创 【最优化方法】约束最优化问题
二次罚函数方法是一种用于处理约束最优化问题的优化算法,它通过在目标函数中引入二次罚项,将约束问题转化为无约束问题。因为惩罚项是二次的,所以光滑可微,这样可以使用无约束优化技术来求解得罚函数。的邻城内一阶连续可微,如果约束规范条件 (CQ),则违反约束的惩罚项剧烈地增大。处的所有线性化可行方向的集合记为。的计算量很大时,可以选择适当缩小。处的所有可行方向组成的集合记为。处的所有序列可行方向的集合记为。趋于零时,如果约束不可行,即。是问题的局部极小点,设。否则,选择新的罚参数。处的线性化可行方向,
2024-01-02 00:02:17
2541
原创 【最优化方法】无约束优化问题(最速下降法、牛顿法、最小二乘)
最速下降法(Steepest Descent Method)是一种基于负梯度方向进行迭代的最优化算法,用于寻找一个函数的最小值。算法的基本思想是从当前点出发,沿着当前点的负梯度方向,以一定的步长(学习率)移动到新的点,重复这个过程直至达到停止条件。在实践中,有一些改进的方法,如共轭梯度法、牛顿法等,可以在某些情况下加速收敛。是共轭转置的关系,同时等于一个标量,所以相等,因此可以合并成一项。最速下降法的优点是简单易理解,容易实现。利用采用精确一维线搜索的最速下降法求解,其中初始点。
2024-01-02 00:02:09
4164
原创 【最优化方法】无约束优化问题(函数梯度、下降方向、最优性)
的方向导数,并问在怎样的方向上此方向导数有:(1)最大值;请问这样的下降方向是否同所在点的位置有关?稳定点分为三种类型:极大值点、极小值点、鞍点。维无约束极小化问题,得到解无约束优化问题。的一个严格局部极小点的充分条件是。处的梯度,并在哪些点处梯度为零?并且,下降方向同所在点的位置无关。处的所有下降方向的全体记为。处连续可微,如存在非零向量。的点为稳定点(也称为驻点);处的一个下降方向,在点。时,方向导数达到最大值。时,方向导数达到最小值。我们把一元方程推广到。故满足条件的所有向量。
2024-01-01 19:45:49
3139
原创 【最优化方法】精确一维搜索方法
一维线性搜索是在优化算法中常用的一种方法,用于确定在给定搜索方向上的合适步长,使得目标函数在该方向上能够有明显的下降。Newton法(牛顿法)是一种使用二阶导数信息的优化方法,它在一维线性搜索中也可以应用。在牛顿法中,使用二阶导数信息可以更准确地确定搜索步长,因此相较于一些基于一阶导数信息的方法,牛顿法可能在一维搜索中更快地收敛。总的来说,一维线性搜索的 Newton 法是一种有效的优化方法,特别适用于目标函数具有二阶导数信息的情况。需要注意的是,上述步骤中的计算是在一维搜索方向上进行的,因此。
2024-01-01 18:55:40
2007
1
原创 【最优化方法】凸二次优化
其实 $G$ 是对称矩阵,同时也是海森矩阵(`Hessian matrix`):当 $G$ 是正半定时,二次函数 $f(x)$ 是凸函数;当 $G$ 是正定时,二次函数 $f(x)$ 是严格凸函数;当 $G$ 是负正半定时,二次函数 $f(x)$ 是凹函数;当 $G$ 是负定时,二次函数 $f(x)$ 是严格凹函数; 当 $G$ 是不定时,二次函数 $f(x)$ 既不是凸函数,也不是凹函数。
2024-01-01 00:24:22
1949
原创 【最优化方法】凸优化基本概念
凸优化问题具有许多重要的性质,使得其在理论和实践中都得到广泛应用。这些性质包括全局最优解的存在性、局部最优解即为全局最优解、凸优化问题的求解算法通常具有高效性和可靠性。在机器学习、信号处理、控制系统设计等领域,凸优化都起到了关键的作用。一个优化问题被称为凸优化问题,如果其目标函数是凸函数,约束集合是凸集。对凸集合进行一些基本运算,如交、并、差等,仍然得到凸集合。同凸函数相对应的是凹函数,一个函数。上的(严格)凹函数,那么。称为凸集,如果对于任意。的直线段上的所有点都在。上的(严格)凸函数。
2023-12-31 23:59:32
2042
原创 【最优化方法】矩阵的二次型
矩阵的二次型是一个与矩阵和向量相关的二次多项式。对于一个实数域上的二次型,给定一个n×nn×nn×n的对称矩阵AAA和一个列向量xxxxxx是一个n×1n×1n×1QxxTAxQ(x)=x^TAxQxxTAxQx∑i1n∑j1naijxiyjQxi1∑nj1∑naijxiyj其中aija_{ij}aij是矩阵AAA的元素,表示第iii。
2023-12-31 23:57:54
4372
原创 【头歌实训】kafka-入门篇
第1关:kafka - 初体验 第2关:生产者 (Producer )- 简单模式 第3关:消费者( Consumer)- 自动提交偏移量 第4关:消费者( CoTopic 的消息会复制(不是真的复制,是概念上的)到所有的 CG ,但每个 Partion 只会把消息发给该 CG 中的一个 Consumer。Partition :为了实现扩展性,一个非常大的 Topic 可以分布到多个Broker(即服务器)上,一个 Topic 可以分为多个 Partition ,每个 Partition 是一个有序的队列
2023-12-28 22:11:24
8223
4
原创 【头歌实训】PySpark Streaming 数据源
第1关:MySQL 数据源,第2关:Kafka 数据源,在PySpark中支持通过JDBC的方式连接到其他数据库获取数据生成DataFrame,同样可以使用Spark SQL去读写数据库。除了JDBC 外,还支持ParquetJSONHive等。Kafka 就是一个分布式的用于消息存储的发布订阅模式的消息队列。一般用于大数据的流式处理中。具有高水平扩展性、高容错性、访问速度快、分布式等特性,主要应用场景是日志收集系统和消息系统。但是随着 Kafka 的快速发展,也被应用于高性能数据管道、数据集成、流分析等。
2023-12-27 20:38:02
2135
1
原创 【头歌实训】PySpark Streaming 入门
第1关:SparkStreaming 基础与套接字流第2关:文件流第3关:RDDSpark Streaming 为 Spark 提供了可拓展、高吞吐、容错的流计算能力。Spark Streaming 可整合多种输入数据源,如 Kafka、Flume、HDFS,甚至是普通的 TCP 套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。Spark Streaming 的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后经 Spark 引擎以类似批处理的方式处理每个时间片数据。
2023-12-27 17:10:23
4081
2
原创 【头歌实训】Spark MLlib ( Python 版 )
Spark MLlib ( Python 版 )第1关:基本统计 第2关:回归 第3关:分类第4关:协同过滤 第5关:聚类 第6关:降维第7关:特征提取与转化第8关:频繁模式挖掘第9关:评估指标
2023-12-27 16:48:47
2284
原创 【头歌实训】Spark 完全分布式的安装和部署(新)
把 master 节点的 spark 安装包分发到 slave1 节点和 slave2 节点(通过 scp 命令)。1.Standalone:Spark 自带的简单群资源管理器,安装较为简单,不需要依赖 Hadoop;接下来来查看下 slave1 节点连接密码,首先点击 slave1 命令行窗口,再点击右上角。,因为我们是搭建完全分布式,所以在设置映射的时候需要设置 3 台虚拟机的映射关系。在 master 复制 master、slave1、slave2 的公钥。输入 jps 命令查看。
2023-12-27 08:34:27
5973
2
原创 【头歌实训】Spark 完全分布式的安装和部署
把 evassh 服务器的 /usr/local 目录下的 spark 安装包通过 SCP 命令上传到 master 虚拟服务器的 /usr/local 目录下。Hadoop 集群在启动脚本时,会去启动各个节点,此过程是通过 SSH 去连接的,为了避免启动过程输入密码,需要配置免密登录。把 master 节点的 spark 安装包分发到 slave1 节点和 slave2 节点(通过 scp 命令)。2、 在 master 复制 master、slave1、slave2 的公钥。输入 jps 命令查看。
2023-12-27 08:29:40
4340
1
原创 HBase 集群搭建
单点关闭,去日志里查找问题,日志里会提供关于问题的更多详细信息和上下文。集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。托管的, 那么每个集群节点只能使用一个实例,并且仅适用于测试。托管的, 那么每个集群节点只能使用一个实例,并且仅适用于测试。,了解如何创建表,添加数据,扫描插入,最后禁用和删除表。的类路径查找功能,类路径的查找可能会引发问题或冲突。的类路径查找功能,类路径的查找可能会引发问题或冲突。版本的,所以这里选择的是。配置的更多信息,包括使用。的兼容性问题,越新越好,
2023-12-24 23:11:42
2088
原创 ZooKeeper 集群搭建
Zookeeper是一个开源的分布式服务协调框架,由Apache软件基金会开发和维护。设计目标提供分布式环境中的数据一致性。为分布式应用程序提供协调服务。简化复杂分布式系统的构建和管理。功能特性数据模型:Zookeeper使用一个树形结构的数据模型(Znode),每个节点可以存储数据并具有版本号。一致性保证:Zookeeper保证在客户端看到的数据是一致的,提供顺序一致性、原子性和单一系统映像等特性。分布式锁。
2023-12-21 13:29:56
2307
1
原创 【神经网络】imshow展示图片报错
也就是说它的每个图像格式是(通道数,宽度,高度),我们需要将其调整为(宽度,高度,通道数)的格式。,输入具有RGB值的图像,输入三维数组参数的格式应该是(高度,宽度,通道数)将图像数据调整为(宽度,高度,通道数)的格式,以便于正确地显示和处理图像。我们可以看一下显示数据信息。对于图像数据,这通常是。下面这段代码如果出现报错。
2023-12-18 23:35:51
823
原创 【机器学习】卷积神经网络(CNN)的特征数计算
为了将这些特征图转换为一维向量以输入到全连接层,你需要将特征图的元素“展平”(flatten)。为了将这些特征图转换为一维向量以输入到全连接层,你需要将特征图的元素"展平"在卷积操作过程中,图像与卷积核进行滑动窗口式的乘加运算,这会导致图像尺寸的变化。全连接层的输入和输出维度通常是由网络架构和数据的特性决定的。池化层通常不会改变特征数,但会改变特征图的高度和宽度。继续应用卷积层和池化层,每次更新特征图的尺寸和特征数。网络的最后一层之前的特征图的通道数就是最后的特征数。,即最大池化层的池化窗口的大小为。
2023-12-18 23:35:42
1514
原创 Conda 搭建简单的机器学习 Python 环境
Conda是一个开源的包管理系统和环境管理系统,由开发。它最初是为了支持Python的科学计算而创建的,但现在也可以用于其他编程语言。CondaConda可以安装、升级、卸载软件包,并自动处理依赖关系。Conda可以创建、管理和切换虚拟环境,以便在不同的项目中使用不同的软件包版本。Conda支持多种操作系统,包括WindowsmacOS和Linux。Conda是开源的,任何人都可以贡献代码或提出改进意见。Conda使用YAML。
2023-12-09 18:47:14
780
原创 报错:Permission denied. user=dr.who is not the owner of inode=/tmp
关闭权限检查可能会导致严重的安全和隐私问题,因为它允许任何用户访问、读取、写入或删除文件系统中的数据。这样做意味着任何人都可以读取、修改或删除文件,包括可能的恶意用户或程序。,其解释为在静态网络过滤器上渲染内容时要作为过滤器的用户名。文件系统中,这种权限模式通常被认为是“完全开放”的,因为它允许任何人访问、修改或执行该目录及其内容。命令会将指定目录的权限设置为所有者、组和其他用户都有读(r)、写(w)和执行(x)权限。命令可以改变文件或目录的所有者和/或组。命令可以改变文件或目录的权限。
2023-12-07 22:50:09
1397
原创 【Windows下】Eclipse 尝试 Mapreduce 编程
要在Windows下使用Eclipse进行MapReduce编程,你需要配置Hadoop环境,并在Eclipse中设置相关的开发工具。以下是一个简化的步骤指南:安装和配置Hadoop:下载并解压Hadoop的发行版到一个没有空格或特殊字符的目录。配置系统环境变量:创建名为HADOOP_HOME的变量,其值为你的Hadoop解压路径;将%HADOOP_HOME%\bin添加到系统Path变量中。下载依赖库:获取适用于Windows的hadoop.dll和winutils.exe文件,通常可以从Gi
2023-12-04 21:52:30
1586
原创 【头歌实训】分布式文件系统 HDFS
方法能够为需要写入且当前不存在的目录创建父目录,即就算传入的路径是不存在的,该方法也会为你创建一个目录,而不会报错。接下来我们来了解一下一些常用的文件系统操作,例如:读取文件,新建目录,移动文件,删除数据,列出目录,等等。环境非常消耗资源,所以你如果一段时间不在线,后台会销毁你的镜像,之前的数据会丢失(你的代码不会丢失),这个时候需要你重新启动。,记录着本货架的商品,每当货架中的货物有变动,这个清单也会一起变,并且还会记录在主清单中。台机器,然后将他们连接起来,让他们的数据可以共享,这不就可以了吗?
2023-12-04 12:45:06
11072
原创 使用 Kettle 完成数据 ETL
在 Spoon 主界面的左侧项目栏的“核心对象”中,选择“Big Data”→“Hadoop File Output”, 拖拽该控件到右侧的设计区域,并与“剪切字符串”控件进行连接,连接时会出现两个选项,即“主输入步骤”和“错误处理步骤”,这里需要选择“主输入步骤”。双击鼠标打开“剪切字符串”控件属性设置对话框,将“输入流字段”设置为“Field1”, “输出流字段”不用改变,“起始位置”设置为 0,“结束位置”设置为10,单击“确定”按钮。如果转换过程成功执行,所有控件右上角都会显示“勾号”。
2023-12-03 23:06:10
752
原创 Kettle 安装配置
Kettle的7.1版本的太旧了,容易出现闪退,右击就死机等bug,9.x太新了也会有bug,下载8.2版本的安装包。Kettle把Hive当作一个数据库,支持连接Hive Server和Hive Server 2,数据库连接类型的名字分别为Hadoop Hive 和 Hadoop Hive 2。完成了Kettle的安装之后,我们还需要通过配置,使得Kettle可以与Hadoop 协同工作。在Kettle工作区左侧的“主对象树”标签中,选择“DB 连接” → 右键“新建”,对话框中输入如图所示的属性值。
2023-12-03 22:57:04
1650
原创 Hive 安装部署
(1)嵌入模式:使用内嵌的 Derby 数据库存储元数据,这是 Hive 最简单的部署方式在嵌入模式下运行 Hive 时,会在当前目录下生成元数据文件,只能有一个 Hive 客户端使用该目录下的元数据文件,这就意味着嵌入模式下的 Hive 不支持多会话连接,并且不同目录的元数据文件无法共享,因此不适合生产环境,只适合测试环境。这样,无论在任何目录下通过 Hive 客户端工具,访问的元数 据信息是一致的,并且可以实现多个用户同时访问,从而实现元数据的共享。本地模式支持元数据共享,并且支持本地多会话连接。
2023-12-03 22:43:24
769
原创 Flume 安装部署
Flume(Apache Flume)是一个开源的分布式日志收集、聚合和传输系统,属于 Apache 软件基金会的项目之一。其主要目标是简化大规模数据处理中日志数据的采集、移动和处理过程。Flume 的设计灵感来自于 Google 的 Chubby 论文和 Facebook 的 Scribe 系统。架构模型: Flume 采用了分布式、可扩展的架构。它的基本架构包括多个组件,其中关键组件包括代理(Agent)、通道(Channel)和收集器(Collector)等。
2023-12-02 23:54:40
472
原创 Hadoop 概述
Hadoop 是一个由 Apache 基金会开发的开源分布式计算框架,旨在处理和分析海量数据。它提供了对大数据进行存储、处理和分析的基础架构,并且可以在低成本的硬件集群上运行。通常情况下 Hadoop 是指一个更广泛的概念——Hadoop 生态圈。Hadoop Distributed File System (HDFS) 是 Hadoop 的核心组件之一,提供了一个高度容错性的分布式文件系统。
2023-12-02 15:03:36
260
原创 最小化安装 Neokylin7.0 用于搭建 Hadoop 集群
后面可以用101进行源码的编译,利用模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104。最小化安装Neokylin7.0,硬盘50G,手动配置ipv4,主机名:hadoop102,子网掩码:255.255.255.0,网关:192.168.88.2(以自己电脑的为准,倒数第二位会不一样),(配置好环境后再克隆其他集群信息)网络适配器选择NAT模式,Vmare在NAT模式默认网关末尾为2,硬盘选大一点,内容可以调到4G、8G,如下图所示。
2023-12-01 23:03:14
504
原创 搭建Hadoop集群过程中常见错误的解决方案
出现cannot creat directory或cannot creat file类型如果使用的是 user 用户,多数情况下是因为文件权限问题,hadoop3.3.1、big_data(存数据)、log_hadoop(存日志) 文件都要将权限给 user。
2023-11-30 22:39:07
677
原创 搭建部署Hadoop2.x和3.x的区别
NameNode (NN) 端口:在Hadoop 2.x中,NameNode的默认HTTP UI端口是50070,内部通常端口是8020/9000。在Hadoop 3.x中,这个端口被改为9870,内部通常端口是8020/9000/9820。DataNode (DN) 端口:Hadoop 2.x中,DataNode的默认HTTP UI端口是50075。在Hadoop 3.x中,该端口变更为9864。YARN ResourceManager (RM) 端口:Hadoop 2.x中的Resourc
2023-11-30 20:47:47
611
Kaggle泰坦尼克号生存预测 Titanic
2024-01-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人