
hive
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
大数据Spark “蘑菇云”行动第88课:Hive脚本、常用命令、having查询及变种实战
大数据Spark “蘑菇云”行动第88课:Hive脚本、常用命令、having查询及变种实战show databases;use default;show tables;select * from employees;hive> !pwdhive> ! /bin/echo "Hive on spark!"hive> dfs -ls /原创 2016-11-29 21:27:40 · 1123 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第98课:Hive性能调优压缩和分布式缓存
大数据Spark “蘑菇云”行动第98课:Hive性能调优压缩和分布式缓存 Hive压缩一般采用Snappy、LZO和GZIP org.apache.hadoop.io.compression.SnappyCodec core-site.xml io.compression.codecs org.apache.原创 2016-12-16 21:12:10 · 767 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第96课:基于Hive对电商数据案例分析
大数据Spark “蘑菇云”行动第96课:基于Hive对电商数据案例分析tbStock.txt订单号, 交易位置 ,交易日期BYSL00000893,ZHAO,2007-8-23BYSL00000897,ZHAO,2007-8-24BYSL00000898,ZHAO,2007-8-25tbStockDetail.txt订单号,行号,订单产品,有效性,数量原创 2016-12-12 21:19:50 · 1212 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第99课:Hive性能调优之企业级Mapper和Reducer调优深度细节解密 参数配置
大数据Spark “蘑菇云”行动第99课:Hive性能调优之企业级Mapper和Reducer调优深度细节解密原创 2016-12-17 21:20:52 · 809 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第103课:Hive源码大师之路第一步:Hive源码思考和解析初体验
大数据Spark “蘑菇云”行动第103课:Hive源码大师之路第一步:Hive源码思考和解析初体验 老师上课使用的Hive源码下载地址:http://www-eu.apache.org/dist/hive/stable-2/ 选在Maven的方式导入 在线看源代码 https://www.codatlas.com/github.com/a原创 2016-12-22 21:00:30 · 859 阅读 · 0 评论 -
第92课作业,通过SerDes的方式对一下数据进行Hive的存储和查询操作
第92课作业,通过SerDes的方式对一下数据进行Hive的存储和查询操作: 0^^Hadoop^^America^^5000|8000|12000|level8^^male1^^Spark^^America^^8000|10000|15000|level9^^famale2^^Flink^^America^^7000|8000|13000|level10^^male3^^Ha原创 2016-12-11 21:27:13 · 1286 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第100课:Hive性能调优之企业级Join、MapJoin、GroupBy、Count、数据倾斜彻底解密和最佳实践
大数据Spark “蘑菇云”行动第100课:Hive性能调优之企业级Join、MapJoin、GroupBy、Count、数据倾斜彻底解密和最佳实践 hive.mapjoin.smalltable.filesize=25000000 hive.mapjoin.followby.gby.localtask.max.memory.usage; 默认值:0.55原创 2016-12-18 21:13:32 · 783 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第104课:Hive源码大师之路第二步:Hive真正的入口、词法分析和语法分析
大数据Spark “蘑菇云”行动第104课:Hive源码大师之路第二步:Hive真正的入口、词法分析和语法分析HiveLexer.g hiveParser.g自动代码生成了HiveParser.class 文件,这个反人类的代码自动生成了5万多行,改元代码的话新人不要去改HiveParser.class 文件,要去修改 hiveParser.g文件,类似android的机制。原创 2016-12-24 22:12:01 · 1143 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第105课:Hive源码大师之路第三步:Hive序列化与反序列原理内幕和源码解析
大数据Spark “蘑菇云”行动第105课:Hive源码大师之路第三步:Hive序列化与反序列原理内幕和源码解析 Hive的IO操作是操作HDFS的IO 今晚作业,阅读https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe原创 2016-12-25 21:03:23 · 952 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第106课:Hive源码大师之路第四步:Hive中GroupBy和各种类型Join源码剖析
大数据Spark “蘑菇云”行动第106课:Hive源码大师之路第四步:Hive中GroupBy和各种类型Join源码剖析 create.....skewed by(key) on。。。 set hive.optimize.skewjoin.compiletime hive.skewjoin.key/** * Process the row. *原创 2016-12-26 21:04:41 · 1021 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第101课:Hive性能调优之企业级数据倾斜解决方案及对Job数目的优化
大数据Spark “蘑菇云”行动第101课:Hive性能调优之企业级数据倾斜解决方案及对Job数目的优化 set hive.map.aggr=true; set hive.groupBy.skewindata=true; select * from logs a join users b on a.userid = b.userid原创 2016-12-19 20:46:26 · 584 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第107课:Hive源码大师之路第五步:Hive中一切Operator皆是函数的内幕及Hive中Optimizer优化
大数据Spark “蘑菇云”行动第107课:Hive源码大师之路第五步:Hive中一切Operator皆是函数的内幕及Hive中Optimizer优化 ProcessBuilder pb = new ProcessBuilder(wrappedCmdArgs);原创 2016-12-28 21:05:47 · 561 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优
大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优hive> show databases;use default;show tables;select * from employeesforhaving;hive> EXPLAIN select * from em原创 2016-12-09 21:01:48 · 1840 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第87课:Hive嵌套查询与Case、When、Then案例实战
大数据Spark “蘑菇云”行动第87课:Hive嵌套查询与Case、When、Then案例实战 Hive的趋势是做大数据书籍仓库的标准,通过框架的架构,底层的引擎可以是Tez、Spark、MapReduce等; 上一节课的数据库连接资源释放代码/** * 4、释放资源 */ public static void release(C原创 2016-11-27 21:22:19 · 6244 阅读 · 2 评论 -
大数据Spark “蘑菇云”行动第86课:Hive分区表剖析与代码实战
大数据Spark “蘑菇云”行动第86课:Hive分区表剖析与代码实战HIVE的分区类似如windows 的磁盘分区 C 、D 、E 提高了查询速度。找文件不必每次从C盘查询。D、E不同盘符的查找文件。hive只加载数据,hadoop 和spark 谁更快?只load文件,hadoop比spark更快,hadoop load文件时只map过程。原创 2016-11-26 21:32:13 · 949 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化select gender,sum(salary) from employeesforhaving group by gender;select gender,avg(salary) from employ原创 2016-11-30 21:09:09 · 2546 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第95课:Hive安全解析和实战等
大数据Spark “蘑菇云”行动第95课:Hive安全解析和实战等企业实战中,使用的2个第三方安全软件推荐如下:1,Knox Gatewayhttps://knox.apache.org2,实现Hive/Hadoop精细权限访问控制:https://accumulo.apache.org/hive 系统自带的基本安全配置:1,配置原创 2016-12-10 20:52:27 · 826 阅读 · 0 评论 -
92课程作业,hive自定义IMFRecordReader,切分^^尖尖头及| 分割符
92课程作业,hive自定义IMFRecordReader,切分^^尖尖头及| 分割符代码写好了,还没有运行, 到时候在hive中测试一把IMFInputFormatpackage com.dt.spark.hive; import java.io.IOException;import org.apache.hadoop.io.L原创 2016-12-08 21:47:42 · 875 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战
大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战电影数据集下载http://grouplens.org/datasets/movielens/http://grouplens.org/datasets/movielens/1m/http://files.grouplens.org/datasets/mo原创 2016-12-01 21:42:04 · 1146 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第97课:Hive性能调优的本质和源泉彻底解密
大数据Spark “蘑菇云”行动第97课:Hive性能调优的本质和源泉彻底解密原创 2016-12-14 21:01:43 · 589 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第91课:Hive中Index和Bucket案例实战及存储类型rcfile实战详解
大数据Spark “蘑菇云”行动第91课:Hive中Index和Bucket案例实战及存储类型实战详解索引:例如每行扫描,假如1000列,要扫1000列;但做了索引以后,key为关键字做索引,只扫描1列. 建立索引的时候,一般都有分区表!建立一个partition 视图上不能建立索引; 索引表存储格式可以与原有表存储格式不一样。hiv原创 2016-12-04 21:34:18 · 950 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第92课:HIVE中的array、map、struct及自定义数据类型案例实战
大数据Spark “蘑菇云”行动第92课:HIVE中的array、map、struct及自定义数据类型案例实战 //数组方式hive>use default;CREATE TABLE employee_array(userid ,INT,name String,address String, salarys array,gendre string) ROW FORMAT DE原创 2016-12-05 21:08:12 · 1654 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课原创 2016-11-24 21:34:43 · 661 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第93课:Hive中的内置函数、UDF、UDAF实战
大数据Spark “蘑菇云”行动第93课:Hive中的内置函数、UDF、UDAF实战原创 2016-12-07 20:59:15 · 880 阅读 · 0 评论 -
第85课:HWI操作实战及在eclipse中实战编码 HIVE!!HIVE实战
第85课:HWI操作实战及在eclipse中实战编码web页面地址 http://master:9999/hwi/ 在实际企业中一般会使用Hue来取代HWI的功能,Hue提供了远远比HWI更加丰富强大的功能原创 2016-11-25 21:29:09 · 683 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第102课:Hive性能调优之底层Hadoop引擎调优剖析和最佳实践
大数据Spark “蘑菇云”行动第102课:Hive性能调优之底层Hadoop引擎调优剖析和最佳实践 对MapReduce进行调优,主要分为Mapper端和Reducer端的调优原创 2016-12-20 21:14:53 · 834 阅读 · 0 评论