不上岸不改名±-优快云博客

原创头歌HBase综合测试第1关：字符串、列表与集合

我们发现 lrem() 方法与 LREM 命令在参数的顺序上不完全一致，lrem() 方法将 count 参数放至最后，在 Python 的 Redis 客户端中，大多数命令中的数值型参数都被放到了最后，如果弄不清某个方法的参数，你可以到 redis客户端主页查看。Redis 中的许多命令都有着实际的应用场景，例如 SRANDMEMBER 命令从集合中随机选择一个元素并输出，在数据库层面就实现了随机数功能，避免用户将集合的全部成员取出后再随机选择，加快了效率，减少了开发人员的工作量。

2025-05-30 14:40:06 769

原创头歌第1关：计算排行榜并实时输出

result.append("时间：").append(new Timestamp(timestamp - 1)).append("\n")result.append("时间：").append(new Timestamp(timestamp - 1)).append("\n")// 便于后面将同一窗口的不同商品的数据进行浏览次数统计，来获得最热门的商品。// 便于后面将同一窗口的不同商品的数据进行浏览次数统计，来获得最热门的商品。//预聚合，第一个参数：求和，第二个参数：每个商品在每个窗口的点击量。

2025-05-30 11:59:40 892

原创头歌第1关：设置时间窗口并进行计算

【代码】头歌第1关：设置时间窗口并进行计算。

2025-05-30 11:45:52 129

原创 hdfs namenode -formatnamenode is running as process 13383. Stop it first and ensure /tmp/hadoop-roo

bash。

2025-03-15 17:53:26 404

原创 zkServer.sh start权限不够，并且 startsudo chown -R hadoop:hadoop /export/data/zookeeper/zkdata/ 输入密码有问题

再执行zkServer.sh start。

2025-03-08 10:52:14 208

原创 beeline -u jdbc:hive2://hadoop1:10000 -n root -p Password@123拒绝连接

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000: java.net.ConnectException: 拒绝连接 (Connection refused) (state=08S01,code=0)

2025-02-26 09:33:43 447

原创虚拟机：如何知道core-site.xml在哪里

如何知道core-site.xml在哪里

2025-02-24 15:04:04 226

原创虚拟机 hadoop 忘记了root用户密码

上一次登录：一 2月 24 10:05:50 CST 2025从 hadoop2pts/0 上。使用ssh hadoop1远程登陆hadoop1。使用passwd修改hadoop1的root密码。passwd：所有的身份验证令牌已经成功更新。无效的密码：密码少于 8 个字符。更改用户 root 的密码。之后再登录hadoop1。

2025-02-24 10:10:20 552

原创 SELECT DISTINCT 去重

这是最简单的去重方法，它允许从表中选择不重复的记录。

2025-02-19 09:42:51 511

原创 Hive 操作指南：添加属性、处理Header、获取当前数据库及基本数据操作

注意：Hive不直接处理数据文件的header。通常在加载数据到Hive表之前，您需要预处理数据文件以移除header行。主要用于配置Hive CLI在每次执行命令前打印当前数据库，它本身不返回结果集。为了获取当前数据库名称，更常用的方法是。启动Hive命令行的方法取决于您的Hive安装和配置。如果不使用Kerberos认证，且Hive服务器配置为允许匿名访问，则可以省略。在Hive命令行中，使用以下命令创建名为。参数，并可能使用默认数据库（通常是。的表，并定义其列和数据类型。在Hive中，您可以通过。

2025-02-19 09:41:56 389

原创修改环境变量后，不管是敲什么命令都出现未找到命令

【代码】修改环境变量后，不管是敲什么命令都出现未找到命令。

2024-12-20 08:50:40 250

原创 axis=1什么时候对列，什么时候对行

这是因为这些计算是沿着行的方向“跨列”进行的，将每行中的元素作为一个集合来计算平均值、求和等。不过，在其他非聚合计算场景，比如数据拼接、对列元素应用复杂的自定义函数并返回多值结果（且以列作为操作单元）等情况下， axis = 1 也可以用于和列相关的操作，重点在于操作的逻辑单元是列方向的元素组合。二维数组有行和列两个维度，当计算平均值时， axis = 1 意味着“跨行”操作。在涉及计算平均值、求和等大多数常见的聚合计算时，在NumPy和pandas中， axis = 1 通常是对行进行操作。

2024-12-09 15:57:37 2561

原创 df.drop_duplicates的keep用法

当使用 df.drop_duplicates(subset='name', keep='first') 时，意思就是按照 name 列来判断哪些行是重复的，然后对于重复的行，只保留第一次出现的那一行，把后面重复的都删掉。当使用 df.drop_duplicates(subset='name', keep=False) ，只要 name 列里重复的行，全都删掉，不管是第一次出现的还是最后一次出现的，一个都不留。假如 name 列里有重复值的话，最终数据框里就不会有那些重复的行了，只会留下完全不重复的行。

2024-12-09 13:48:13 531

原创 combine_first merge concat区别

重点在于基于特定的键进行数据合并，合并后的数据形状根据连接方式和键的匹配情况而定，通常会包含两个DataFrame中与键相关的部分数据，更关注数据之间的关联关系。- 用途：主要用于填充缺失值，以一个对象（DataFrame或Series）为主，当该对象中的值为缺失值（如 NaN ）时，从另一个对象中相同位置获取值来填充。- 侧重于数据修补，基于元素位置进行操作，两个对象的形状（行列数）最好相同，否则会按照索引对齐进行填充，可能导致形状与主对象相同，但部分数据为空。plaintext 复制。

2024-12-09 13:29:34 1488

原创 mean()用法

例如，有一个DataFrame数据结构 df ，使用 df.mean(axis = 1) 就可以计算每行的平均值。其中 axis = 1 这个参数表示沿着水平方向（行）进行计算。在Python的Pandas库中， .mean() 函数默认是计算列的平均值，但通过设置 axis 参数可以对行求平均值。

2024-12-09 12:16:48 377

原创 apply()和agg()方法区别

apply()和agg()方法都是Pandas库中非常强大的工具，用于对数据集进行各种操作，但它们在使用方式和适用场景上存在一些显著的区别。

2024-12-08 23:10:15 1126

原创 range和arange区别

range和arange在 Python 中都用于生成一系列的数字，但它们之间存在显著的区别。

2024-12-08 21:47:32 2100

原创 to_datetime

是 Pandas 库中的一个非常实用的函数，它能够将参数转换成 datetime 类型。这个函数在数据处理和分析中经常被用到，特别是当你需要处理时间序列数据时。可以处理多种格式的时间数据，包括字符串、数字（时间戳）以及 Python 的原生 datetime 对象等。# 使用 to_datetime 转换日期时间列，并处理错误。# 创建一个包含日期时间字符串的 DataFrame。# 将字符串列表转换为 datetime 对象。

2024-12-08 15:13:36 313

原创使用pandas描述数据相关程度 cov() 和corr()

cov()函数计算的是协方差矩阵，它衡量的是变量之间的共同变化的程度。corr()函数计算的是相关系数矩阵，它衡量的是变量之间的线性关系的强度和方向，并且不受变量单位的影响。

2024-12-08 14:58:52 583

原创 reshape(-1,1)和reshape(-1,2)是什么

时，你基本上是在说：“我想把这个数组变成一个有两列的二维数组，行数无所谓，只要保持元素总数不变并且每行有两个元素就行（如果元素总数不能被2整除，则会引发一个错误）。时，你告诉NumPy你想要将该数组重塑成一个二维数组（矩阵），其中第二维（列）的大小固定为2，而第一维（行）的大小是自动计算的，以保持数组中元素的总数不变。时，你告诉NumPy你想要将数组重塑成一个二维数组（矩阵），其中第二维（列）的大小为1，而第一维（行）的大小是自动计算的，以便保持数组中元素的总数不变。同样是一种用于改变数组形状的操作。

2024-12-08 14:47:49 1100

原创 numpy和series区别

在NumPy数组中，我们处理的是纯数值型数据，并且主要关注数组的数学运算。在Pandas Series中，我们处理的是带有索引的数据，索引可以是任何类型（如字符串、日期等），并且我们更关注数据的分析和处理功能。

2024-12-08 14:15:00 702

原创 DataFrame和NumPy数组区别

DataFrame和NumPy数组是Python中两种常用的数据结构，它们在数据处理和分析中各有优势。

2024-12-08 14:10:00 859

原创 loc和iloc区别

loc更适合当你知道数据的标签（如行名、列名）时，可以进行精确或基于条件的访问。.iloc更适合当你按数据的具体位置（如第几行、第几列）进行访问时。在选择使用.loc还是.iloc时，应根据具体的数据结构和访问需求来决定。

2024-12-08 14:07:44 869

原创 df.loc[:, [‘age‘]]和df.loc[:, ‘age‘] 区别

尽管它看起来可能和一个Series很像（特别是如果DataFrame中只有这一列被选择的话），但它实际上仍然是一个DataFrame，因为它保留了列标签和可能的行索引。在实际应用中，这两种选择方式在功能上可能是相似的，但在数据结构和类型上有所不同。Series是Pandas中用于存储一维数据的数据结构，它只有索引（对应于DataFrame中的行标签）和值，没有列标签（因为这里只选择了一个列）。进行数据选择时，你可以通过指定行标签和列标签来精确选择DataFrame中的数据。中提供列标签作为字符串。

2024-12-08 14:06:25 535

原创使用Pandas库中iloc方法的具体例子，这些例子将帮助你理解如何区分行和列的选择

同样，这里返回的是一个Series对象，但它表示DataFrame中的一列。注意，这里返回的是一个Series对象，它表示DataFrame中的一行。这个DataFrame。这是一个单个的元素值。

2024-12-08 13:45:54 300

原创当你使用iloc来选择数据时，如何通过提供的索引来指定是选择行还是列，或者同时选择行和列

【代码】当你使用iloc来选择数据时，如何通过提供的索引来指定是选择行还是列，或者同时选择行和列。

2024-12-08 13:44:55 211

原创 iloc如何使用

python复制代码data = {# 选择单个元素print(element) # 输出: 25# 选择前两行# 选择第一列和第二列# 选择第一行和第三行的前两列。

2024-12-08 13:42:48 523

原创删除Series的一个元素和删除DataFrame的行或列

DataFrame 删除DataFrame的行必须有axis=1。d1.drop(0,axis=0) #0 不能是'0'一、DataFrame删除列。二、DataFrame删除行。

2024-12-08 01:14:08 243

原创关于sort_values() by在什么时候有

In[97]: frame.sort_values(by='b') #DataFrame必须传一个by参数表示要排序的列。

2024-12-08 00:56:41 194

原创 DataFrame和Series区别

DataFrame和Series是Pandas库中两种核心且常用的数据结构，它们在数据处理和分析中扮演着不同的角色。

2024-12-08 00:35:53 1093

原创 df_score=pd.read_excel(filePath) 和df_score=pd.read_excel(filePath,header=[0,2])

参数，这意味着您的Excel文件的第一行和第二行将合并起来形成DataFrame的列索引，其中每个单元格的值将由这两行中对应位置的值组合而成。参数，这意味着您的Excel文件的第一行和第三行将合并起来形成DataFrame的列索引，其中每个单元格的值将由这两行中对应位置的值组合而成。Unnamed: 0 一本分数线 Unnamed: 2 二本分数线 Unnamed: 4。0 年份文科理科文科理科。指定的Excel文件。指定的Excel文件。

2024-12-08 00:25:22 397

原创创建数组Series 字典

创建一个名为series_a的series数组，当中值为[1,2,5,7],对应的索引为['nu', 'li', 'xue', 'xi']；创建一个名为dict_a的字典，字典中包含如下内容{'ting':1, 'shuo':2, 'du':32, 'xie':44}；# 注意：通常不会在代码中直接打印dict_a，因为已经将其用于创建了series_b，但这里为了展示而打印。将dict_a字典转化成名为series_b的series数组。# 使用字典创建另一个Series对象。# 直接创建字典对象。

2024-12-07 14:06:10 261

空空如也

空空如也