- 博客(43)
- 收藏
- 关注
原创 头歌HBase综合测试第1关:字符串、列表与集合
我们发现 lrem() 方法与 LREM 命令在参数的顺序上不完全一致,lrem() 方法将 count 参数放至最后,在 Python 的 Redis 客户端中,大多数命令中的数值型参数都被放到了最后,如果弄不清某个方法的参数,你可以到 redis客户端主页 查看。Redis 中的许多命令都有着实际的应用场景,例如 SRANDMEMBER 命令从集合中随机选择一个元素并输出,在数据库层面就实现了随机数功能,避免用户将集合的全部成员取出后再随机选择,加快了效率,减少了开发人员的工作量。
2025-05-30 14:40:06
769
原创 头歌第1关:计算排行榜并实时输出
result.append("时间:").append(new Timestamp(timestamp - 1)).append("\n")result.append("时间:").append(new Timestamp(timestamp - 1)).append("\n")// 便于后面将同一窗口的不同商品的数据进行浏览次数统计,来获得最热门的商品。// 便于后面将同一窗口的不同商品的数据进行浏览次数统计,来获得最热门的商品。//预聚合,第一个参数:求和,第二个参数:每个商品在每个窗口的点击量。
2025-05-30 11:59:40
892
原创 hdfs namenode -formatnamenode is running as process 13383. Stop it first and ensure /tmp/hadoop-roo
bash。
2025-03-15 17:53:26
404
原创 zkServer.sh start权限不够,并且 startsudo chown -R hadoop:hadoop /export/data/zookeeper/zkdata/ 输入密码有问题
再执行zkServer.sh start。
2025-03-08 10:52:14
208
原创 beeline -u jdbc:hive2://hadoop1:10000 -n root -p Password@123拒绝连接
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000: java.net.ConnectException: 拒绝连接 (Connection refused) (state=08S01,code=0)
2025-02-26 09:33:43
447
原创 虚拟机 hadoop 忘记了root用户密码
上一次登录:一 2月 24 10:05:50 CST 2025从 hadoop2pts/0 上。使用ssh hadoop1远程登陆hadoop1。使用passwd修改hadoop1的root密码。passwd:所有的身份验证令牌已经成功更新。无效的密码: 密码少于 8 个字符。更改用户 root 的密码。之后再登录hadoop1。
2025-02-24 10:10:20
552
原创 Hive 操作指南:添加属性、处理Header、获取当前数据库及基本数据操作
注意:Hive不直接处理数据文件的header。通常在加载数据到Hive表之前,您需要预处理数据文件以移除header行。主要用于配置Hive CLI在每次执行命令前打印当前数据库,它本身不返回结果集。为了获取当前数据库名称,更常用的方法是。启动Hive命令行的方法取决于您的Hive安装和配置。如果不使用Kerberos认证,且Hive服务器配置为允许匿名访问,则可以省略。在Hive命令行中,使用以下命令创建名为。参数,并可能使用默认数据库(通常是。的表,并定义其列和数据类型。在Hive中,您可以通过。
2025-02-19 09:41:56
389
原创 axis=1什么时候对列,什么时候对行
这是因为这些计算是沿着行的方向“跨列”进行的,将每行中的元素作为一个集合来计算平均值、求和等。不过,在其他非聚合计算场景,比如数据拼接、对列元素应用复杂的自定义函数并返回多值结果(且以列作为操作单元)等情况下, axis = 1 也可以用于和列相关的操作,重点在于操作的逻辑单元是列方向的元素组合。二维数组有行和列两个维度,当计算平均值时, axis = 1 意味着“跨行”操作。在涉及计算平均值、求和等大多数常见的聚合计算时,在NumPy和pandas中, axis = 1 通常是对行进行操作。
2024-12-09 15:57:37
2561
原创 df.drop_duplicates的keep用法
当使用 df.drop_duplicates(subset='name', keep='first') 时,意思就是按照 name 列来判断哪些行是重复的,然后对于重复的行,只保留第一次出现的那一行,把后面重复的都删掉。当使用 df.drop_duplicates(subset='name', keep=False) ,只要 name 列里重复的行,全都删掉,不管是第一次出现的还是最后一次出现的,一个都不留。假如 name 列里有重复值的话,最终数据框里就不会有那些重复的行了,只会留下完全不重复的行。
2024-12-09 13:48:13
531
原创 combine_first merge concat区别
重点在于基于特定的键进行数据合并,合并后的数据形状根据连接方式和键的匹配情况而定,通常会包含两个DataFrame中与键相关的部分数据,更关注数据之间的关联关系。- 用途:主要用于填充缺失值,以一个对象(DataFrame或Series)为主,当该对象中的值为缺失值(如 NaN )时,从另一个对象中相同位置获取值来填充。- 侧重于数据修补,基于元素位置进行操作,两个对象的形状(行列数)最好相同,否则会按照索引对齐进行填充,可能导致形状与主对象相同,但部分数据为空。plaintext 复制。
2024-12-09 13:29:34
1488
原创 mean()用法
例如,有一个DataFrame数据结构 df ,使用 df.mean(axis = 1) 就可以计算每行的平均值。其中 axis = 1 这个参数表示沿着水平方向(行)进行计算。在Python的Pandas库中, .mean() 函数默认是计算列的平均值,但通过设置 axis 参数可以对行求平均值。
2024-12-09 12:16:48
377
原创 apply()和agg()方法区别
apply()和agg()方法都是Pandas库中非常强大的工具,用于对数据集进行各种操作,但它们在使用方式和适用场景上存在一些显著的区别。
2024-12-08 23:10:15
1126
原创 to_datetime
是 Pandas 库中的一个非常实用的函数,它能够将参数转换成 datetime 类型。这个函数在数据处理和分析中经常被用到,特别是当你需要处理时间序列数据时。可以处理多种格式的时间数据,包括字符串、数字(时间戳)以及 Python 的原生 datetime 对象等。# 使用 to_datetime 转换日期时间列,并处理错误。# 创建一个包含日期时间字符串的 DataFrame。# 将字符串列表转换为 datetime 对象。
2024-12-08 15:13:36
313
原创 使用pandas描述数据相关程度 cov() 和corr()
cov()函数计算的是协方差矩阵,它衡量的是变量之间的共同变化的程度。corr()函数计算的是相关系数矩阵,它衡量的是变量之间的线性关系的强度和方向,并且不受变量单位的影响。
2024-12-08 14:58:52
583
原创 reshape(-1,1)和reshape(-1,2)是什么
时,你基本上是在说:“我想把这个数组变成一个有两列的二维数组,行数无所谓,只要保持元素总数不变并且每行有两个元素就行(如果元素总数不能被2整除,则会引发一个错误)。时,你告诉NumPy你想要将该数组重塑成一个二维数组(矩阵),其中第二维(列)的大小固定为2,而第一维(行)的大小是自动计算的,以保持数组中元素的总数不变。时,你告诉NumPy你想要将数组重塑成一个二维数组(矩阵),其中第二维(列)的大小为1,而第一维(行)的大小是自动计算的,以便保持数组中元素的总数不变。同样是一种用于改变数组形状的操作。
2024-12-08 14:47:49
1100
原创 numpy和series区别
在NumPy数组中,我们处理的是纯数值型数据,并且主要关注数组的数学运算。在Pandas Series中,我们处理的是带有索引的数据,索引可以是任何类型(如字符串、日期等),并且我们更关注数据的分析和处理功能。
2024-12-08 14:15:00
702
原创 loc和iloc区别
loc更适合当你知道数据的标签(如行名、列名)时,可以进行精确或基于条件的访问。.iloc更适合当你按数据的具体位置(如第几行、第几列)进行访问时。在选择使用.loc还是.iloc时,应根据具体的数据结构和访问需求来决定。
2024-12-08 14:07:44
869
原创 df.loc[:, [‘age‘]]和df.loc[:, ‘age‘] 区别
尽管它看起来可能和一个Series很像(特别是如果DataFrame中只有这一列被选择的话),但它实际上仍然是一个DataFrame,因为它保留了列标签和可能的行索引。在实际应用中,这两种选择方式在功能上可能是相似的,但在数据结构和类型上有所不同。Series是Pandas中用于存储一维数据的数据结构,它只有索引(对应于DataFrame中的行标签)和值,没有列标签(因为这里只选择了一个列)。进行数据选择时,你可以通过指定行标签和列标签来精确选择DataFrame中的数据。中提供列标签作为字符串。
2024-12-08 14:06:25
535
原创 使用Pandas库中iloc方法的具体例子,这些例子将帮助你理解如何区分行和列的选择
同样,这里返回的是一个Series对象,但它表示DataFrame中的一列。注意,这里返回的是一个Series对象,它表示DataFrame中的一行。这个DataFrame。这是一个单个的元素值。
2024-12-08 13:45:54
300
原创 当你使用iloc来选择数据时,如何通过提供的索引来指定是选择行还是列,或者同时选择行和列
【代码】当你使用iloc来选择数据时,如何通过提供的索引来指定是选择行还是列,或者同时选择行和列。
2024-12-08 13:44:55
211
原创 iloc如何使用
python复制代码data = {# 选择单个元素print(element) # 输出: 25# 选择前两行# 选择第一列和第二列# 选择第一行和第三行的前两列。
2024-12-08 13:42:48
523
原创 删除Series的一个元素和删除DataFrame的行或列
DataFrame 删除DataFrame的行必须有axis=1。d1.drop(0,axis=0) #0 不能是'0'一、DataFrame删除列。二、DataFrame删除行。
2024-12-08 01:14:08
243
原创 关于sort_values() by在什么时候有
In[97]: frame.sort_values(by='b') #DataFrame必须传一个by参数表示要排序的列。
2024-12-08 00:56:41
194
原创 DataFrame和Series区别
DataFrame和Series是Pandas库中两种核心且常用的数据结构,它们在数据处理和分析中扮演着不同的角色。
2024-12-08 00:35:53
1093
原创 df_score=pd.read_excel(filePath) 和df_score=pd.read_excel(filePath,header=[0,2])
参数,这意味着您的Excel文件的第一行和第二行将合并起来形成DataFrame的列索引,其中每个单元格的值将由这两行中对应位置的值组合而成。参数,这意味着您的Excel文件的第一行和第三行将合并起来形成DataFrame的列索引,其中每个单元格的值将由这两行中对应位置的值组合而成。Unnamed: 0 一本分数线 Unnamed: 2 二本分数线 Unnamed: 4。0 年份 文科 理科 文科 理科。指定的Excel文件。指定的Excel文件。
2024-12-08 00:25:22
397
原创 创建数组Series 字典
创建一个名为series_a的series数组,当中值为[1,2,5,7],对应的索引为['nu', 'li', 'xue', 'xi'];创建一个名为dict_a的字典,字典中包含如下内容{'ting':1, 'shuo':2, 'du':32, 'xie':44};# 注意:通常不会在代码中直接打印dict_a,因为已经将其用于创建了series_b,但这里为了展示而打印。将dict_a字典转化成名为series_b的series数组。# 使用字典创建另一个Series对象。# 直接创建字典对象。
2024-12-07 14:06:10
261
原创 root@educoder:/opt# sudo apt-get install libmysqlclient-dev-bash: sudo: command not found
在您的提示中,似乎sudo命令没有找到。sudo是一个用于执行具有超级用户(root)权限的命令的工具。如果sudo:如果您的账户没有管理员权限,那么可能没有sudo命令。sudo:在某些精简版的Linux系统中,可能没有预装sudo。:可能是环境变量配置问题导致sudo命令找不到。
2024-12-03 08:55:48
296
原创 xshell使用 hadoop jar HadoopDemo-1.0-SNAPSHOT.jar ……出现java.lang.NumberFormatException: For input strin
""之间必须有空格变成" "问题出在我本来的代码是。
2024-12-02 19:42:54
182
1
原创 hadoop jar HadoopDemo-1.0-SNAPSHOT.jar org.TopN.TopNDriver 出现拒绝连接问题
Exception in thread "main" java.net.ConnectException: Call From hadoop1/192.168.74.130 to hadoop1:9000 failed on connection exception: java.net.ConnectException: 拒绝连接;
2024-12-02 14:41:10
336
原创 [root@hadoop1 ~]# hadoop jar HadoopDemo-1.0-SNAPSHOT.jar org.TopN.TopNDriver 没有结果
可能是因为你少了 boolean res = job.waitForCompletion(true);TopNDriver代码,
2024-12-02 14:37:50
394
原创 Cannot delete /TopN/output. Name node is in safe mode. The reported blocks 42 needs additional 3039
[root@hadoop1 ~]# hdfs dfsadmin -safemode leaveSafe mode is OFF
2024-12-02 13:32:23
172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅