
人工智能
文章平均质量分 82
不太灵光的程序员
机试题专栏 题目来自牛客平台机考同学的机试分享,题目描述信息可能记录不完整,题解无法保证通过率,只提供结题思路,注意!注意!!不要直接使用博主代码进行机考!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【HBase分布式数据库】第七章 数据的导入导出 importtsv导入数据
第七章 数据的导入导出。原创 2024-11-10 19:32:15 · 1091 阅读 · 0 评论 -
【HBase分布式数据库】第六章 HBase的JavaAPI(3-6)
任务目的了解pom.xml文件中添加依赖的方式掌握命名空间的API任务清单任务1:pom.xml文件中添加依赖任务2:命名空间的API。原创 2024-11-10 19:32:08 · 1283 阅读 · 0 评论 -
【HBase分布式数据库】第六章 HBase的JavaAPI
任务目的提前了解hbase的JavaAPI,为后续实践做铺垫任务清单任务1:Java API详解任务步骤任务1:Java API详解hbase官网文档地址为:https://hbase.apache.org/devapidocs/index.html。学习hbase的Java API,可以先到官网查找帮助文档。在学习一个类的时候,要注意以下几点的掌握:成员变量、构造器和方法。HBaseConfiguration类6.1-1Admin接口6.1-2Table接口6.1-3。原创 2024-11-10 19:31:46 · 590 阅读 · 0 评论 -
【HBase分布式数据库】第四章 HBase shell操作
任务目的掌握shell的开始和结束的语法掌握shell的基本操作任务清单任务1:shell的开始和结束任务2:基本操作任务步骤任务1:shell的开始和结束环境准备环境的启动顺序:ZK > hadoop > hbase4.1-1进入shell4.1-2退出shell退出shell的环境4.1-34.1-4任务2:基本操作查看帮助信息如果想要查看hbase的帮助信息,在进入shell环境的时候,已经给了我们提示。help4.1-5查看单个指令帮助信息。原创 2024-11-10 19:31:38 · 1002 阅读 · 0 评论 -
【HBase分布式数据库】第三章 HBase快速入门
任务目的了解安装包下各个文件作用任务清单任务1:解压安装包任务2:文件介绍任务步骤任务1:解压安装包下载通过hbase官网https://hbase.apache.org/downloads.html,选择版本进行下载。3.1-1解压通过以下指令进行解压。3.1-2任务2:文件介绍主目录预览进入hbase主目录并进行查看。3.1-3bin目录该目下两个文件重要,一个文件可以启动hbase服务,一个可以关闭3.1-4conf目录。原创 2024-11-10 19:31:28 · 1308 阅读 · 0 评论 -
【HBase分布式数据库】第二章 HBase入门前提
HBase版本选择任务目的认识hbase官网学习如何选择版本巧妙利用官网任务清单任务1:hbase官网任务2:hbase版本选择任务3:巧妙利用官网任务步骤任务1:hbase官网2.1-12.1-101 Apache HBase参考指南常见问题:地址:http://hbase.apache.org/book.html#quickstart2.1-202 HBase的下载方式2.1-32.1-4任务2:hbase版本选择。原创 2024-11-10 19:31:07 · 1142 阅读 · 0 评论 -
【HBase分布式数据库】NoSQL与数据模型
任务目的了解什么是NoSQL,以及NoSQL类型的数据库有哪些了解HBase的数据模型任务清单任务1:NoSQL简介任务2:数据模型任务步骤任务1:NoSQL简介NoSQL(NoSQL = Not Only SQL),意为"不仅仅是SQL",即非关系型数据库。NoSQL 是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。原创 2024-11-10 19:30:59 · 848 阅读 · 0 评论 -
【HBase分布式数据库】HBase简介
因此,它可以容错地存储海量稀疏的数据。Yarn是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。通过Hadoop生态圈,可以看到HBase的身影,可见HBase在Hadoop的生态圈是扮演这一个重要的角色那就是 实时、分布式、高维数据 的数据存储。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。原创 2024-11-10 19:30:51 · 867 阅读 · 0 评论 -
【Flume】第一章 Flume环境搭建
官网:http://flume.apache.org/下载地址:http://archive.apache.org/dist/flume/版本号: apache-flume-1.9.0-bin.tar.gz。原创 2024-11-10 19:30:42 · 1059 阅读 · 0 评论 -
【Flume】第二章 Flume单代理流应用
案例需求:实时监控 Hive 日志文件,即只要应用程序向这个文件里面写数据,Source 组件就可以获取到该信息,然后写入到 Channle,最后上传到 HDFS。需求分析:该实训是,使用 Exec Source 接收外部数据源,HDFS 作为 Sink。Flume 使用 tail 命令从指定文件尾部读取,将每行作为一个 Event 发送到 Channel 中缓存,最后存入 HDFS。原创 2024-11-10 19:30:34 · 706 阅读 · 0 评论 -
【Flume实操】实时监听 NetCat 端口和本地文件数据到 HDFS 案例分析
案例需求:假设有一个生产场景,Flume1 在实时产生日志数据,日志类型为 flume.log。Flume2 在持续监控一个 netcat 端口的数据流。先需要将 Flume1、Flume2产生的数据采集汇总到 Flume3 上,并统一收集上传到 HDFS 上保存。需求分析:该实训是,Flume1 使用 Exec Source 监控 /root/software/apache-flume-1.9.0-bin/logs/flume.log 文件,Flume2 监听本机 4141 端口的数据流。原创 2024-11-10 19:30:27 · 1684 阅读 · 0 评论 -
【Flume实操】多路复用:实时监听 HTTP 端口数据到控制台案例分析
多路复用:实时监听 HTTP 端口数据到控制台案例分析案例需求:假设有一个生产场景,Flume1 在持续监控一个 HTTP 端口的数据流,要求根据 Event 中 Header 的某个 key 的值,将不同的 Event 发送到不同的 Channel 中,然后 Flume2 和 Flume3 将获取的数据通过 Sink 端分别写出到控制台。需求分析:在实际开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的 Channel。原创 2024-11-10 19:29:58 · 907 阅读 · 0 评论 -
【Flume实操】复制:实时监听 NetCat 端口数据到本地文件系统和 HDFS 案例分析
案例需求:假设有一个生产场景,Flume1 在持续监控一个 netcat 端口的数据流。Flume1 将端口传送的数据流传递给 Flume2,Flume2 负责存储到本地文件系统。同时 Flume1 将端口传送的数据流传递给 Flume3,Flume3 负责存储到 HDFS。需求分析:该实训是,Flume1 监听本机 4141 端口的数据流,Flume1 将数据发送给 Flume2 和 Flume3,Flume2 将数据收集并存储到本地文件系统,而 Flume3 则将数据收集并保存到 HDFS。原创 2024-11-10 19:28:37 · 1058 阅读 · 0 评论 -
【Flume实操】4 Flume 自定义 Interceptor 开发案例
右键“myinterceptor”项目 ->选择 “Export” ,在弹出的 “Export" 对话框中,选择 “Java”->“JAR file”->“Next”。自定义拦截器需要实现 org.apache.flume.interceptor.Interceptor 接口以及与之相关的 org.apache.flume.interceptor.Interceptor.Builder 接口,其中,Interceptor 接口是主要定义过滤/拦截方法的接口,Builder 是创建该对应拦截器的接口。原创 2024-11-10 19:28:26 · 1540 阅读 · 0 评论 -
【HBase原理及应用实训课程】第二章 HBase的Shell操作
创建命名空间语法创建HBase表语法(1)使用默认的版本号,默认版本号为1(2)自己设置版本号查看HBase表结构语法describe 'namespace_name:table_name' ## 或者 desc 'namespace_name:table_name'修改HBase表结构语法(1)修改列簇alter 'namespace_name:table_name', NAME => 'column_family1', VERSIONS => 'versions' # 修改一个列簇。原创 2024-11-10 19:26:01 · 866 阅读 · 0 评论 -
【人工智能训练师】综合案例 HBase与Hive的集成
任务目的简单回顾了解hive了解hive与hbase的区别任务清单任务1:hive简介任务2:hbase与hive的区别任务步骤任务1:hive简介什么是Hive呢?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。构建在Hadoop之上的数据仓库Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)通常用于进行离线数据分析(采用MapReduce)底层支持多种不同的执行引擎(例如hive on MapReduce)原创 2024-11-10 19:25:54 · 889 阅读 · 0 评论 -
【人工智能训练师】综合案例 HBase与MySQL的数据互导
Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。导入数据:关系型数据库(mysql)的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中。导出数据:从 Hadoop 系统里抽取并导出到关系型数据库里。sqoop版本划分方式:Apache 1.4.x 之后的版本属于sqoop1,1.99.x之上的版本属于sqoop2。原创 2024-11-10 19:25:28 · 945 阅读 · 0 评论 -
【人工智能训练师】8 Python分析
随着人们生活水平的提高,越来越多的人们选择假期旅游,然而节假日大量的人员流动造成了热门景点附近的地铁站人员密集,若遇突发情况,人员无法有效疏散。在此背景下,通过对地铁站人流量数据进行分析,推测出人员密集区域和高峰时段,从而提前做好准备,为合理疏导人群、规避交通堵塞提供预警服务。原创 2024-11-10 19:25:15 · 989 阅读 · 0 评论 -
【人工智能训练师】3 集群搭建
1.环境中已经安装/root/software/hadoop-2.7.7,格式化HDFS,开启集群,查看集群状态。Zookeeper配置文件:/root/software/zookeeper-3.4.14/conf/zoo.cfg (位置为32行,注意为外网IP)2.环境中已经安装数据库、hive、spark、hbase等组件,需要开启mysql服务,初始化数据库,即可开启Hive客户端等其服务。本步骤用于开启集群环境,用于后续数据分析(Hadoop Mapreduce/Hive)使用。原创 2024-11-10 19:24:59 · 388 阅读 · 0 评论 -
【HBase分布式数据库】第七章 数据的导入导出 (2-5)
掌握引入外部依赖包的方法掌握eclipse打包的方法掌握bulkload导入数据的逻辑代码。原创 2024-11-10 19:24:39 · 1419 阅读 · 0 评论 -
【人工智能训练师】7 大数据处理与应用
1.本次环境版本为Hadoop2.7.7,对应eclips插件存放于云主机master:/usr/package277/中。2.本机映射名为hadoop000,云主机Hadoop/Hive的hosts文件中IP需要修改为内网IP,需要修改为实际内网IP(服务器地址有内外网之分),本地eclipse所在主机需要使用外网IP设置映射;Linux/Mac系统下文件地址:/etc/hostsWindows系统下文件地址:C:\Windows\System32\drivers\etc\hosts。原创 2024-11-10 19:23:46 · 1251 阅读 · 0 评论 -
【HBase原理及应用实训课程】第五章 HBase与MapReduce的集成
一、importTSV 工具概述importTSV 是 HBase 提供的一个命令行工具,将存储在 HDFS 上的数据文件,通过指定的分隔符解析后,导入到 HBase 表中。这样的方式导入数据与正常写入流程不同的是,跳过了 WAL、Memcache 与 Flush 的过程,直接将 HFile 文件移动到 HBase 表空间目录下即可,不影响 HRegionServer 的性能。原创 2024-11-10 19:23:17 · 1448 阅读 · 0 评论 -
【人工智能训练师】4 MapReduce
编写MapReduce程序,对“ip.txt”与“log.txt”数据进行预处理、压缩等操作。若HDFS上目录或文件不存在,自行创建目录,并上传相应文件安装包路径:/root/software/package/数据源目录:/root/service/yunan数据结果目录:/root/service/yunan/result基于Hive数据仓库,针对特定问题场景完成数据统计分析。注意:本模块使用到Hadoop集群。原创 2024-11-10 19:23:04 · 443 阅读 · 0 评论 -
【人工智能训练师。】hive+爬虫
【代码】【hive+爬虫】原创 2024-11-10 19:22:20 · 170 阅读 · 0 评论 -
【人工智能训练师】6 人工智能
Covtype数据集是一个广泛用于机器学习研究和实验的数据集,它提供了美国罗基山脉森林地区的地理和环境特征数据。每个样本代表了一个30米×30米的土地区块,具有54个特征,包括海拔、坡度、地形朝向、水源距离、火源距离、阳影等级以及四个野外区域和40种不同的土壤类型。该数据集的主要目标是根据这些地理特征来预测每个区块的植被覆盖类型,覆盖类型包括了森林中的不同树种或者其他植被类型。因此,Covtype数据集成为了研究地理信息系统(GIS)、遥感技术和机器学习模型应用的重要基准数据集之一。原创 2024-11-10 19:21:44 · 683 阅读 · 0 评论 -
【人工智能训练师】5 hive数据分析
注意:如果环境进入安全模式,使用hdfs dfsadmin -safemode leave可离开安全模式。基于Hive数据仓库,针对特定问题场景完成数据统计分析。基于Hive数据仓库,针对特定问题场景完成数据统计分析。注意:本模块使用到Hadoop集群。(20 / 100分)原创 2024-11-10 19:21:18 · 516 阅读 · 0 评论