- 博客(6)
- 收藏
- 关注
原创 解决 The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxr-xr-x
问题描述:spark 将数据写入到hive表时报错:The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxr-xr-x如下图:原因分析:从The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxr-xr-x 可以看出,系统要求再hdfs上用户要具备写的权
2021-11-15 16:23:02
4677
1
原创 Hive表结构操作(增加列,删除列,修改列,移动列)
前言Hive 表结构操作内容1.给hive表中添加某个字段:格式:alter table 表名 add columns (字段名 字段类型 comment '字段描述');示例1:alter table table_name add columns (now_time string comment '当前时间');示例2:alter table table_name add columns (now_time varchar(300) comment '当前时间');2.个体hiv
2021-11-06 19:42:19
4857
原创 Hive数据分层(ODS,DW,ADS)
Hive中的数据分层前言这篇文章简单介绍一下hive的数据分层理论上分为三层:ODS数据运营层,DW数据仓库层,ADS数据服务层,数据运营层(ODS):原始数据: ODS:Operation Data Store 数据准备区,也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。 ODS层数据的来源方式: 1.业务库 : 经常会使用sqoop来抽取,例如每天定时抽取一次。实时方面,可以考虑用canal监听mysql的binlog
2021-10-25 20:03:44
7810
原创 解决fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached
解决fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reachedfrom fake_useragent import UserAgentua = UserAgent()print(ua.random)直接下载一个fake_useragent_0.1.11.json文件下载链接:http://fake-useragent.herokuapp.com/browsers/0.1.11将其保存成fake_user
2021-10-21 12:58:39
281
原创 python可视化小案例giao
前言通过一个小案例,学习几个matplotlib库的图像绘制数据准本:链接:https://pan.baidu.com/s/1KrGq3GS2gHC3i-oPofV8Ng提取码:giao数据如下所示:1.文件读取及数据查看;import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata=pd.read_excel('/data/trd.xlsx',engine="openpyxl")#查看列名和数据
2021-10-21 12:42:44
498
4
原创 python数据清洗小案例giao
**python 数据清洗小案例giao前言这篇通过一个小案例 简单介绍几个python 数据清洗分析的常用方法数据准备:链接:https://pan.baidu.com/s/1M5xUdB1_8vZBd4VAkszuAQ提取码:giao1.数据读取和透视表的创建:#对数据进行转置,转置后行为用户编号,列为日期,值为每用电量data=pd.read_csv('data_etr.csv',parse_dates=['DATA_DATE'],encoding='gbk')data.he
2021-10-21 11:03:57
1948
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人