
Spark
文章平均质量分 62
咖啡加冰不加糖~
这个作者很懒,什么都没留下…
展开
-
Kyuubi1.4.0集成spark3.2.0
kyuubi集成spark3.2.0文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决.原创 2022-05-31 10:28:33 · 1752 阅读 · 0 评论 -
kyuubi1.2.0基于spark3.1.2单机模式部署
一、第一步编译spark3.1.2、hadoop 3.0.0 、cdh6.0.1hive版本默认2.3.7,使用hive2.1.1需要修改源码(在此不做赘述)二、Spark配置1、修改spark配置文件cd /data12/spark3/confcd /data12/spark3/conf# 把hive hdfs 相关配置文件的软连接构建起来ln -s /etc/hive/conf/hive-site.xml hive-site.xmlln -s /etc/hive/con原创 2022-05-31 09:59:33 · 1206 阅读 · 0 评论 -
Sparkthrift合并小文件
背景1、许多Spark SQL用户都要求一种方法来控制Spark SQL中的输出文件数;2、Scala/Java/Python代码中可以使用coalesce()和repartition()方法有效的控制Spark文件数量;3、但用户需要在SparkSQL服务的SQL语句中使用提示;4、建议在SparkSQL中添加以下Hive样式的COALESCE和REPARTITION提示。提示名称不区分大小写。Spark2.4前合并小文件1、方法(在连接SparkSQL后,增加相关参数或者添加到服原创 2021-05-11 16:48:55 · 545 阅读 · 0 评论 -
重新编译Spark2.4.0 Parcels包
1、下载修改的parcel包2、使用压缩工具打开parcel、替换需要的jar包,改案例中替换和新增的jar如下:httpclient-4.5.6.jarparquet-format-2.5.0.jar3、根据文件内容生成hashcertutil -hashfile C:\Users\15755\Desktop\parquet\SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el6.parcel SHA14、修改下面三个文件hash值a原创 2021-05-11 16:45:41 · 505 阅读 · 1 评论 -
使用Haproxy Exporter监控Sparkthrift存活率
1、在haproxy机器上部署haproxy_exporter,haproxy_exporter可到官网下载。启动脚本如下:[aiops@hadoop hadoop_exporter]$ more start_haproxy_exporter.sh ./haproxy_exporter --haproxy.scrape-uri="http://用户名:密码@localhost:1080/haproxy?stats;csv" &2、获取各个租户的sts存活率:round(hapr原创 2021-05-11 16:40:54 · 644 阅读 · 0 评论