
大数据
文章平均质量分 75
christ1750
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Linux Shell的常用命令
利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,在结合uniq进行词频统计 先用cat命令,了解一下文件的大概格式与内容,发现每行为一个单词,现在需要统计这些单词出现的频率,以及显示出现次数最多的5个单词 先对文件进行排序,这样相同的单词在紧挨着的行,然后使用uniq -c命令,统计不同的单词及各个单词出现的次数。这样得到的结果就是次数后面紧挨着单词,然后使用sort -nr对次数原创 2016-05-31 15:53:41 · 630 阅读 · 0 评论 -
Hive原理及查询优化
Hive原本只支持数据的查询和加载,后面也支持了插入,更新和删除以及流式的api,hive拥有最全的语法 和最稳定的执行,与其他spark sql或者presto相比,更适用于稳定的作业执行,后者更倾向于交互式的场景。 Hadoop由HDFS和Yarn组成,HDFS用于执行存储,Yarn用于资源调度和计算,MR是跑在Yarn上的一种计算作业。 Hive的主要任务是把一个sql转化成一个分布式的原创 2016-05-20 11:04:47 · 930 阅读 · 0 评论