
大数据
jingyu.wang
这个作者很懒,什么都没留下…
展开
-
grafana 8.4.6 报错无法打开
grafana 8.4.6 报错无法打开报错如下If you're seeing this Grafana has failed to load its application files1. This could be caused by your reverse proxy settings.返向代理会引起这个问题。2. If you host grafana under subpath make sure your grafana.ini root_url setting include原创 2022-04-18 14:39:50 · 9159 阅读 · 0 评论 -
linux split 按文件大小整行分割文本文件
linux split 按文件大小整行分割文件在网上搜了一段时间,没搜到有专门写,如何把文件按大小分割,但切出来的文件每行是完整的(可能是我运行不好吧)。后来查了split --help 发现了如下方法。经过测试好用。比如把50G文件分割成50个小文件,每个文件1G,如果按 -b 参数分割,有很多文件第一行和最后一行不是完整的,残缺不全。笔者部份工作是hadoop数据入关系数据库工作,有时为了效率需要把大文件切成小文件,多线程入库。直接上干货代码与测试结果。案例一:hdfs 上 /tmp/wjy原创 2021-04-16 11:23:45 · 1252 阅读 · 1 评论 -
Airflow 2正式出来了
Airflow 2正式出来了Airflow 2.0.0, 2020-12-17https://github.com/apache/airflow/releases/tag/2.0.01.新的写dag脚本方式。(使用python注释)@taskdef extract():return {“1001”: 301.27, “1002”: 433.21, “1003”: 502.22}2.Fully specified REST API (AIP-32)更全的 REST API 接口。提供外部调用。翻译 2020-12-23 13:48:44 · 913 阅读 · 0 评论 -
hive与spark合并小文件,将大文件打碎成小文件
场景一:将小文件合并成大文件。mro_hour_test表每个分区有几千个1m未压缩小文件,以下语句是将几千个文件在输入时(map阶段)合并成150M一个的文件,插入到mro_hour_test_cp表中,每个150M文件将会压缩成每个30M左右的gz文件。如果 mro_hour_test表每个分区有几千个1m大小的gz文件,在插入到mro_hour_test_cp表时,会被合并成每个150M的gz文件。set hive.hadoop.supports.splittable.combineinpu原创 2020-06-19 21:03:17 · 1910 阅读 · 0 评论