
大数据
文章平均质量分 89
流光丶
这个作者很懒,什么都没留下…
展开
-
hive02
hive的运行流程底层原理hive的三种搭建方式hive的数据库操作:创建数据库:create database <dbname>;删除数据库:drop database <dbname>;修改数据库:alter database <dbname> set dbproperties:alter database <dbname> set owner ROLE|USER <name>;列出数据库:show databases;查看数原创 2021-04-12 21:18:33 · 475 阅读 · 0 评论 -
hive01
hivehive介绍hadoop生态系统就是为处理大数据集而产生的一个合乎成本效益的解决方案。hadoop的MapReduce可以将计算任务分割成多个处理单元然后分散到家用的或服务器级别的硬件上,降低成本并提供水平伸缩性。问题是用户如何从一个现有的数据基础架构转移到hadoop上,而这个基础架构是基于传统关系型数据库和SQL的?hive提供了HiveQL方言来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为MapReduce作业。select * from tb_user;h原创 2021-04-12 21:17:31 · 908 阅读 · 0 评论 -
tf-idf&pagerank&itemCF
PageRank概念[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xh6ixThr-1617443784312)(media/03220b35276ce11d28bb913d0d014f92.jpeg)]PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的PageRank实现了将链接价值概念作为排名因素。GOOGLEPageRank并不是唯一的链接相关的原创 2021-04-03 17:57:46 · 473 阅读 · 0 评论 -
mapreduce
MapReduce原语hadoop MapReduce框架可以让你的应用在集群中可靠地容错地并行处理TB级别的数据1024TB=1PB 1024PB=1EB 1024EB=1ZBMapReduce原语[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jWz2TKVZ-1617443696182)(media/c60e85f9619bb7b2fb877f4d1bac2ca2.emf)]**“相同”**key的键值对为一组调用一次reduce方法,方法内迭代这一组数原创 2021-04-03 17:55:28 · 693 阅读 · 0 评论 -
01 hadoop
1T文件操作1T文本文件,按行排列电脑配置:128MB可用内存1、找出该文件中重复的两行2、全排序3、数单词该任务能不能完成?读取1T文件耗时:≈30分钟将小文件读取到内存比较,≈30分钟最终60分钟找到重复的行时间用在了IO上依次读取有序的小文件,将读取到内存的小文件排序之后写入到磁盘1T文件该文件就是有序的≈1小时 IO耗时每个小文件是有序的,文件之间无序读取1T文件耗时:≈30分钟将小文件读取到内存比较,≈30分钟最终60分钟找到重复的行时间用在了IO上归并-或原创 2021-04-03 17:53:43 · 621 阅读 · 0 评论 -
centos8安装Hive
centos8安装Hive下载Hivewget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz解压tar -zxvf apache-hive-2.3.7-bin.tar.gzmv apache-hive-2.3.7-bin /usr/local/hivecd /usr/local/hive配置环境变量export HIVE_HOME=/usr/local/hi原创 2020-12-12 16:08:50 · 1116 阅读 · 4 评论 -
Hadoop自带MapReduce测试
Hadoop自带wordcount测试创建一个文档words.txthdfs下新建文件夹inputhdfs dfs -mkdir /input复制文件hdfs dfs -put /usr/hadoop/hadoop-2.8.5/data/words.txt /input查看txt中内容hdfs dfs -cat /input/words.txt找到jar包cd $HADOOP_HOME/share/hadoop/mapreduce执行hadoop jar hadoop-mapr原创 2020-12-12 15:10:37 · 481 阅读 · 1 评论 -
【大数据--HBase】
1.HBase简介一种分布式数据库,用来存储非结构化和半结构化松散数据,具有以下优点:HBase用的是Hadoop分布式文件系统HDFS,通过MapReduce进行海量数据处理,和Zookeeper协调管理服务。HBase和传统关系数据区别:1.传统关系数据库具有丰富的数据类型,而HBase的数据模型非常简单,它把每个存储的值都都存储为未经解释的字符串,当程序员读取时再将其解释为具体的...原创 2020-05-07 21:33:51 · 367 阅读 · 0 评论