- 博客(226)
- 资源 (2)
- 收藏
- 关注
原创 在使用 yum 安装 epel-release 包时,如果遇到类似于“Loading mirror...”的提示 “未知的错误”解决方法
其中centos-base.repo 文件是 CentOS 系统中用于配置 YUM(Yellowdog Updater, Modified)或 DNF(Dandified YUM)软件包管理器的仓库(repository)配置文件。它定义了 CentOS 系统的软件源(repository),使得用户可以通过这些源来安装、更新或管理软件包。输入epel-release 安装命令:sudo yum install -y epel-release。在使用yum命令安装repl-release时,报错。
2025-03-30 20:43:27
273
原创 对关系运算中连接运算的理解
关系数据库中的连接运算(Join Operation)是关系代数的核心操作之一,用于将两个或多个关系(表)中的数据按照某种条件进行逻辑关联,生成一个新的关系表。连接运算是关系数据库中实现多表协作的核心工具,其灵活性和多样性(如内连接与外连接)能够满足不同场景的需求。理解连接运算的原理和分类,有助于设计高效的查询语句、优化数据库性能,并确保数据关联的逻辑正确性。在需要多条件关联的场景中,连接运算结合选择(Selection)和投影(Projection)操作,可高效完成查询。
2025-03-14 09:06:12
339
原创 对专门的关系运算中-除运算的理解
除运算是一种二元运算,用于从关系表 RR 中查找满足与关系表 SS 中所有元组相关联的元组。形式上,除运算表示为:R÷S其中:R 是一个关系表,包含属性集 A 和 B(即 R(A,B))。S是一个关系表,包含属性集 B(即 S(B))。除运算的结果是一个新的关系表,包含属性集 A,且这些元组与 S 中的所有元组相关联。除运算是关系代数中一种强大的工具,用于解决“查找满足所有条件的元组”这类问题。虽然其实现步骤较为复杂,但通过关系代数或 SQL 查询,可以高效地完成相关操作。
2025-03-11 20:24:59
999
原创 使用异或完成两个整数的交换
在编程中,交换两个变量的值是一个常见的操作。通常,我们会使用一个临时变量来实现这一操作。然而,有一种巧妙的方法可以避免使用临时变量,即通过(XOR)来实现两数交换。
2025-03-11 19:37:45
328
原创 爬取豆瓣图书信息并将图书提取出来保存到MongoDB中
=作者:\\s)(.*)", author, re.M)<=出版社:\\s)(.*)", company)# 分析HTML代码 xpath 获取内容 使用正则表达式匹配所需字符串。# 获取要操作的集合 如果此集合不存在 会新建。# 从页面提取图书信息并保存到MongoDB数据库中。# 获取数据库对象如果db-books不存在新建。#选取节点 获取所有的图书的div。# 将数据插入到数据库表中。# 将数据存储在列表中。#抓取URL页面,并保存到文件中。# 分页的四个Url地址。
2024-12-16 09:58:28
1178
原创 pyCharm无法正常安装python库的解决办法
1.使用pip命令进行安装,在安装过程中修改镜像源路径,改为国内镜像源,我一般使用阿里云的 https://mirrors.aliyun.com/pypi/simple/4.从Python Interpreter后的下拉列表中选择“show All”。,然后进入到下面界面操作。因为网络原因,部分电脑可以在pyCharm下载安装python库失败。3.打开Pycharm,创建项目后,该项目下文件安装后的库,需要自己切换下。通过Pip命令安装的库都加载到该项目下了。
2024-12-16 09:54:34
545
原创 MongoDB8.0安装步骤
高版本的安装过程中,已将Mongo Compass安装成功了,可以直接使用。双击文件进行安装,MongoDB安装步骤比较简单,只是时间稍微长点。下图界面大概持续时间在5~10分钟之间,请耐心等待。一般建议选择用户自定义安装。
2024-12-16 09:40:08
518
原创 JDK11安装
前期的课程和本学期的课程中我们使用的都是JDK11,部分同学电脑重装系统后,未安装JDK。今天重新复习下,首先官网下载JDK11,文件已发到微信群。4.3 修改Path路径,将%JAVA_HOME%\bin 插入到path中,且要放在Path属性值的最前面。windows+R --》输入cmd,在dos命令行输入以下命令。4.1选择 此电脑--》右击--》属性,按以下步骤操作。必须配置,否则后续的web服务器无法正常启动。)且配置在系统变量中,不要在用户变量中配置。4.2 配置JAVA_HOME(
2024-11-27 11:21:56
1506
原创 03 安装pycharm
PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。5.在下图界面中,选择“否,我会在之后重新启动”,点击“完成”。4.点击“安装”等待安装成功后,点击“下一步”,时间稍微长一点。3.弹出的界面上,将所有的复选框都选择中,点击“下一步”。1.双击软件进行安装,点击“下一步”。
2024-07-30 11:02:01
455
原创 02 pip指令的使用
我们在运行pip install命令时默认从官网下载指定的python包,但由于该官网属于国外网站,但网络不稳定的情况下,下载速度非常慢或下载失败,我们可以通过命令修改pip下载软件包的源。清华大学 TUNA 镜像源:https://pypi.tuna.tsinghua.edu.cn/simple/中国科技大学镜像源:https://pypi.mirrors.ustc.edu.cn/simple/北京外国语大学镜像源:https://pypi.mirrors.bfu.edu.cn/simple/
2024-07-30 10:48:20
808
原创 01 Python环境安装
提供了支持不同操作系统的安装包,目前最新版本为Python3.12,但在学习阶段一般不推荐大家使用最新版本的软件,因为对于其他软件需要该环境时,还不支持最新版本的环境。(注意:安装前记得勾选添加路径,若忘记了,后续需要自己手动添加)。2.点击windows进入下载界面,滚动页面往下拉,我选择了Python3.9.6版本的。10.在命令行输入python --version.显示版本信息,说明安装成功。8.上图进程完成后,进入以下界面,说明安装成功。1.进入官网选择合适的版本,进行下载。
2024-07-30 09:49:16
584
原创 hive分析学生、课程、成绩相关的数据
1.将测试数据存放到?home/yt用户目录下。三张内部表在HDFS上生成了相对应的目录。3.将测试数据装载到对应的表中。2.进入Hive,创建表。
2024-06-06 11:36:55
289
原创 Hive 基本操作
3.进入hive,切换到db_test库(如没有,可以先创建 create database db_test)2.将学生信息上传到/bigdata/hive/hive_stu目录下。1.启动Hadoop集群。
2024-06-05 11:26:45
421
1
原创 27 Hive安装-内嵌模式
(2)由于hive3.1.2内的 guava-19.0.jar版本较低,需要删除,再将hadoop3.1.4中的 guava-27.0-jre.jar复制过来。5.修改配置文件/etc/profie.d/my_env.sh文件,添加环境变量。(1)弃用log4j-slf4j-impl-2.10.0.jar。2.上传到master节点的/opt/software目录下。6.初始化元数据库(默认数据库时derby)3.解压到/opt/module目录下。(2)保存并退出,刷新配置文件。7.解决日志包冲突问题,
2024-05-30 10:41:13
462
原创 26 centos7.8安装Mysql8.4
在集群中=我们选择将Mysql安装在slave01节点上。1.在官网下载mysql安装包MySQL :: Download MySQL Yum Repository下载后上传到slave01节点的/opt/software目录下。2.切换到root用户下3.查看和删除安装的MySQL软件包和依赖包rpm -pa | grep mysql若找到了相关的mysql文件,执行以下名删除文件。(此处没有找到)yum remove mysql-*****(需要删除
2024-05-30 09:34:47
755
原创 25 使用MapReduce编程了解垃圾分类情况
1.通过finalshell 上传到master节点,再使用hdfs命令上传到HDFS文件系统的/bigdata目录下(也可使用Java API 实现上传)统计数据中各类型垃圾的数量,分别存储可回收垃圾、有害垃圾、湿垃圾和干垃圾的统计结果。(存储到4个不同文件中,垃圾信息)测试数据中1表示可回收垃圾,2表示有害垃圾,4表示湿垃圾,8表示干垃圾。(1)自定义键的类型 垃圾名称,垃圾分类编号,垃圾分类名称。(1)统计各类型垃圾数量 需要自定义计数器。(2)分别存储垃圾信息,需要自定义分区。
2024-05-29 11:06:45
604
2
原创 24 使用MapReduce编程统计各科目成绩最高的学生
2.创建Maven项目,修改配置pom.xml文件,添加log4j.properties(步骤省略)7.编写Driver模块此类需要继承 Configured 实现 Tool接口。最后直接运行主类ScoreCount.1.准备测试数据并上传至HDFS中。3.自定义值的类型Student。(1)当前项目下生成jar文件。5.编写Reducer模块。(2)控制台输出了日志信息。4.编写Mapper模块。6.编写JarUtil。
2024-05-22 10:46:11
1908
6
原创 IDEA自动打包执行报错Exception in thread “main“ org.apache.hadoop.security.AccessControlException: Permission
使用idea自动打包mapreduce程序并直接运行,代码错误:Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=AOC, access=EXECUTE, inode="/tmp":yt:supergroup:drwxrwx---。这是与hadoop权限有关,我们集群启动是yt用户,安全模式用户也是yt,没有在集群中配置windows的用户。
2024-05-20 17:49:59
476
原创 23 在IDEA中自动打包MapReduce程序并执行
注意:代码执行过程中出现权限问题:一定要去环境变量中配置HADOOP_USER_NAME变量,详见。2.修改驱动类:继承 Configured 实现Tool。1.编写JarUtil工具类,完成xxx.jar打包操作。(2)在IDEA的控制台可以看到日志输出信息。(1)在项目的当前目录下会生成jar文件。上修改驱动类的代码,完成自动打包操作。3.运行LogCount类。
2024-05-20 17:45:17
608
1
原创 Hadoop Java API操作 及读取序列化文件(04-05-06)
/单元测试 每个操作放在一个测试方法中, 选中方法名---》右击 运行testList()//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//3.获取HDFS根目录下的子目录和文件。//读取序列化文件中的数据保存到本次磁盘。//1.创建配置对象。
2024-05-15 17:02:28
694
原创 22 优化日志文件统计程序-按月份统计每个用户每天的访问次数
1.自定义键的类型 MemberLogTime 包含两个属性(memberId,memberLogTime) 实现WritableComparable接口。//将用户ID和访问时间存到MemberLogTime对象中。3.在resources目录下创建日志文件log4j.properties。7.使用Maven打包为Jar文件,上传到master节点上执行。2.编写Mapper模块:(在Mapper中计数器,使用枚举)//一月计数器值+1。//设置reduce任务数2。//计数器(动态计数器)
2024-05-15 10:55:08
1209
原创 21 使用Hadoop Java API读取序列化文件
1.我直接在上一个项目中test/java目录下创建com.maidu.selectdata.test.APITest类,test目录下的内容在打包时不会出现在jar文件中,仅供测试所用。在上一个实验中我们筛选了竞赛网站日志数据中2021/1和2021/2的数据以序列化的形式写到了hdfs上。接下来我们使用Java API 读取序列化的数据保存到磁盘中。3.运行 选择方法名右击运行。4.进入D盘查看文件。
2024-05-08 10:42:48
503
原创 20 筛选日志并生成序列化文件
System.out.println("必须输入文件输入路径和输出路径");3.本次只需要进行序列化操作,所以不需要Reducer模块,编写Mapper模块。5、使用maven打包为jar,上传到master上。1.在idea中创建项目 selectData.2.添加依赖,插件包,指定打包方式,日志文件。//设置reduce任务为0。大家可以直接从前面项目复制。4、编写Driver模块。
2024-04-25 11:48:16
1060
2
原创 集群移植到本机上
2、修改版本-由于我给大家发的VM16,而教师机上安装的是VM17,那在我们那边打开会有问题,修改下版本信息即可。4、拷贝过去的虚拟机跟你电脑的上的虚拟网络不是同一网段,大家不要修改虚拟机中,直接修改VM上以及windows系统下的。很多同学集群没有搭建成功,为了后续的课程大家可以从教师机拷贝整个集群到自己的电脑上。master,slave01,slave02,hadoop100都需要修改。3、在VM上打开虚拟机,选择对应的虚拟机。6、配置windows系统下的虚拟机。5、修改VM 可以参考前面的文章。
2024-04-25 11:14:50
286
5
原创 19 使用MapReduce编程统计超市1月商品被购买的次数
/3 水果 水果作为键 值 1(数量1 不是 3 表示用户编号)在com.maidu.ordercount包中创建一个新类ShoppingOrderCount类,编写以下模块。首先将1月份的订单数据上传到HDFS上,订单数据格式 ID Goods两个数据字段构成。System.out.println("必须输入读取文件路径和输出文件路径");将订单数据保存在order.txt中,(上传前记得启动集群)。在ShoppingOrderCount类中编写主方法。修改pom.xml,添加依赖。
2024-04-24 11:34:13
3209
原创 18 统计网站每日的访问次数
每条数据的字段值之间使用逗号隔开的 ,最终时间是第五个自动,获取第五个字段值的中的年月日。2.通过Idea创建项目mr-raceData ,基础的配置。编写代码后,需要将其打成Jar包,需要修改pom.xml。通过浏览器访问hdfs,查看该文档前面的部分数据。拷贝到桌面,上传的master的当前用户目录下。1.将竞赛的数据上传HDFS,查看数据的格式。执行jar文件,实现访问每条访问次数的统计。将竞赛日志数据取部分上传到hdfs上。最后使用maven打包为Jar。制定打包的方式为jar。
2024-04-17 11:51:06
2307
原创 17 如何查看Hadoop中wordCount源码
我们使用的是hadoop-3.1.4版本,直接进入官网进行下载: 下载得到的文件如下图所示:
2024-04-11 11:50:36
345
4
原创 16 Java API操作HDFS
参数的优先级:1.客户端的代码中 > 2.ClassPath下自定义的文件> 3.服务器中自定义的(集群中)我们在windows平台下,使用Java代码作为客户端访问HDFS,对他进行相关的操作。hadoop集群中默认的副本是3,接下来代码中设置副本数为2,执行以下代码,看看最终副本数是多少?2.在pom.xml文件中添加依赖(注意:初次使用需要连接外网,需要下载对应的依赖文件)4.目前直接使用单元测试进行操作,我们源代码文件直接创建在test/java/目录下。6.实现文件上传,设置创建的副本数。
2024-04-08 21:27:04
985
原创 SQLServer2022安装
7.功能选择 使用功能选择数据库引擎服务,建议将目录改为非系统盘,如果大家不想自定义路径,建议直接将C 改为D即可。注意:在运行时最好获取管理员权限运行,第一次在安装时未获取管理员权限最终安装失败,卸载后重新安装,以管理员权限运行最终成功了。2.进入安装界面,选择第一个“全新SQLServer独立安装或向享有安装添加功能”等待安装完成,需要10分钟时间,大家耐心等待,安装完成后,再安装SSMS,后面不再截图。9.服务配置:启动类型都改为自动,后期熟练使用后,建议进入服务,修改启动类型为“手动”
2024-04-07 08:50:52
1039
原创 window安装maven和hadoop3.1.4
大家不用去官网下载,直接使用我发给大家的压缩文件,注意解压后的文件夹不要放在中文目录下,课堂上我们讲解过原因。前面的文章已讲解如何安装idea和进行基本设置,本文主要带着大家安装配置好maven和hadoop.这是我电脑上的路径,大家最好都放在D:\\software目录下。显示版本信息,说明配置成功。最后打开命令行窗口输入。
2024-04-06 12:45:55
777
3
原创 is running 261401088B beyond the ‘VIRTUAL‘ memory limit. Current usage: 171.0 MB of 1 GB physical
注意:在修改配置文件前,需要停止集群中的yarn (可执行命令 stop-yarn.sh 修改完成后再启动,start-yarn.sh),最后重新执行wordcount模块进行邮箱 统计。此处可修改/opt/modulr/hadoop-3.1.4/hadoop/etc/yarn-site.xml。在/opt/modulr/hadoop-3.1.4/hadoop/etc/yarn-site.xml插入以下代码。-- 是否对容器强制执行虚拟内存限制 -->
2024-04-06 12:26:56
383
原创 InterliJ IDEA基本设置
1.打开软件,先安装插件-汉化包(不推荐,最好使用英文版),本次我们使用汉化版本完成基本设置,后期希望大家适应英文版的开发环境。(写文章时已经给大家汉化完成了)安装好idea后,将软件打开,可以进行基础设置。2.设置窗体和菜单大小,主题。3.设置自动导包,移包。5.取消单行显示Tab。6.设置默认字体大小。7.设置类头文档注释。
2024-04-02 10:24:22
583
原创 windows无法使用hadoop报错:系统找不到路径
方案:由于JAVA_HOME路径有空格导致,可修改hadoop下\etc\hadoop\hadoop_env.cmd文档中set JAVA_HOME以修复该问题。环境变量的问题解决了,接下来解决批处理标签,进入D:\software\hadoop-3.1.4\bin目录下;将hadoop.cmd。将文件末尾处的HADOOP_IDENT_STRING值加上""转好后保存,其他三个文件做相同的操作。在配置中需要修改空格,参考如下。OK,说明错误已经解决。
2024-03-30 11:25:19
1571
原创 windows安装jdk8
我们会在windows中通过Java代码去操作hadoop集群,因此我们需要在windows系统中配置java相关的环境,今天带着大家安装以下jdk8.安装完成,可以进入C:\Program Files\Java,查看到jdk8相关目录说明安装成功。4. 此电脑--》右击 --》属性,接下来操作如下图所示。6.完成后,窗口点击确定完成关闭窗口的操作,这样内容才能被保存。如果显示版本信息,说明环境变量配置成功。3.环境变量配置-将jdk8的路径复制。5.双击path,插入%JAVA_HOME%\bin。
2024-03-28 19:49:39
728
原创 15 HDFS 常用的shell命令
总结来说,Hadoop命令是一个更广泛的概念,它包括了与Hadoop集群管理、服务操作相关的所有命令,而HDFS命令是Hadoop命令的一个子集,专门用于操作HDFS文件系统的命令。Hadoop命令通常指的是与Hadoop生态系统相关的命令行工具,它们可以用于管理Hadoop集群和与Hadoop相关的各种服务。HDFS命令的使用语法通常为`hdfs dfs`,后面跟着具体的操作子命令,如`put`用于上传文件,`cat`用于查看文件内容,`get`用于下载文件等。81 表示 27*3 个副本;
2024-03-27 20:08:06
831
原创 14 编写常用脚本
我们会发现每次启动和关闭集群,都需要逐个服务依次开启或关闭,操作起来很不方面,因此我们自己编写一些脚本完成集群的启动和关闭,查看每台服务器上集群的进程。echo " =================== 启动 hadoop 集群 ==================="echo " =================== 关闭 hadoop 集群 ==================="echo " --------------- 关闭 yarn ---------------"保存并退出,修改权限。
2024-03-27 19:01:32
460
windows下的hadoop-3.1.4
2024-11-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人