- 博客(23)
- 收藏
- 关注
原创 sql 数字左边补0
padstr:如果str的长度小于len指定的值,那么长度差由padstr在左边填充;如果str的长度大于len指定的值,则截取str到len指定的长度。lpad:即left padding的简称,意思是左边填充,格式为lpad(str,len,padstr)。len:处理完后的str长度为len。lpad函数返回的是处理后的str。需求:字符串字段str左边填充0,变成5位数。str:要处理的对象。
2023-06-29 20:52:21
4158
原创 pandas数据组合
在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是每个观测值成一行每个变量成一列每种观测单元构成一张表格数据整理好之后,可能需要多张表格组合到一起才能进行某些问题的分析一张表保存公司名称,另一张表保存股票价格单个数据集也可能会分割成多个,比如时间序列数据,每个日期可能在一个单独的文件中。
2023-05-29 00:36:10
379
原创 【无标题】
本节课程介绍了如何使用Pandas的DataFrame加载数据,并介绍了如何对数据进行简单的分组聚合。与SQL中的数据表类似,DataFrame中的每一列的数据类型必须相同,不同列的数据类型可以不同。可视化在数据分析的每个步骤中都非常重要,在理解或清理数据时,可视化有助于识别数据中的趋势。② 如果我们按照大洲来计算,每年个大洲的平均预期寿命,平均人口,平均GDP情况又如何?使用iloc时可以传入-1来获取最后一行数据,使用loc的时候不行。做数据分析首先要加载数据,并查看其结构和内容,对数据有初步的了解。
2023-05-29 00:35:12
69
原创 Pandas 数据结构
属性说明loc使用索引值取子集,使用行索引获取DataFrame的一行,返回Seriesiloc使用索引位置(行号)取子集,使用行号获取DataFrame的一行,返回Seriesdtype或dtypesSeries内容的类型shape数据的维数,DataFrame和Series共有此方法sizeSeries中元素的数量indexSeries中的索引valuesSeries的值。
2023-05-29 00:34:58
682
原创 fnmatch模块
fnmatch 模块主要用于文件名称的匹配,其能力比简单的字符串匹配更强大,但比使用正则表达式相比稍弱。如果在数据处理操作中,只需要使用简单的通配符就能完成文件名的匹配,则使用 fnmatch 模块是不错的选择。对 names 列表进行过滤,返回 names 列表中匹配 pattern 的文件名组成的子集合。判断 filename 文件名,是否和指定 pattern 字符串匹配。和 fnmatch() 函数功能大致相同,只是该函数区分大小写。fnmatch 模块中,常用的函数及其功能如表 1 所示。
2023-05-11 17:01:11
203
原创 linux用户环境变量配置文件问题 profile 和 ~/.bashrc区别
最近大数据集群启动程序遇到一些环境变量失效问题:首先区分两个概念交互式shell:shell等待你的输入,并且执行你提交的命令。这种模式被称作交互式是因为shell与用户进行交互。这种模式也是大多数用户非常熟悉的:登录、执行一些命令、签退。当你签退后,shell也终止了非交互式shell:shell不与你进行交互,而是读取存放在文件中的命令,并且执行它们。当它读到文件的结尾,shell也就终止了。profile文件是在交互式shell时自动初始化:在用户登录时初始化。其中/etc/profi
2022-04-27 17:58:17
3641
原创 在IDEA编写MapReduce程序加载数据出现错误:(null) entry in command string: null chmod 0644
entry in command string: null chmod 0644
2022-03-14 22:23:23
3675
原创 Datagrip/Hue 使用load data命令加载数据到HDFS上, 报错:invalid path
datagrip hue 加载文件 路径问题 用户组权限 其他用户组
2022-01-11 22:03:51
2269
原创 datagrip 连接hive 数据库hdfs报错:‘client_protocol‘ is unset
datagrip连接hive数据库 ‘client_protocol‘ is unset
2022-01-08 22:29:10
3235
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人