自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 头歌HBase综合测试第1关:字符串、列表与集合

我们发现 lrem() 方法与 LREM 命令在参数的顺序上不完全一致,lrem() 方法将 count 参数放至最后,在 Python 的 Redis 客户端中,大多数命令中的数值型参数都被放到了最后,如果弄不清某个方法的参数,你可以到 redis客户端主页 查看。Redis 中的许多命令都有着实际的应用场景,例如 SRANDMEMBER 命令从集合中随机选择一个元素并输出,在数据库层面就实现了随机数功能,避免用户将集合的全部成员取出后再随机选择,加快了效率,减少了开发人员的工作量。

2025-05-30 14:40:06 769

原创 头歌第1关:计算排行榜并实时输出

result.append("时间:").append(new Timestamp(timestamp - 1)).append("\n")result.append("时间:").append(new Timestamp(timestamp - 1)).append("\n")// 便于后面将同一窗口的不同商品的数据进行浏览次数统计,来获得最热门的商品。// 便于后面将同一窗口的不同商品的数据进行浏览次数统计,来获得最热门的商品。//预聚合,第一个参数:求和,第二个参数:每个商品在每个窗口的点击量。

2025-05-30 11:59:40 892

原创 头歌第1关:设置时间窗口并进行计算

【代码】头歌第1关:设置时间窗口并进行计算。

2025-05-30 11:45:52 129

原创 hdfs namenode -formatnamenode is running as process 13383. Stop it first and ensure /tmp/hadoop-roo

bash。

2025-03-15 17:53:26 404

原创 zkServer.sh start权限不够,并且 startsudo chown -R hadoop:hadoop /export/data/zookeeper/zkdata/ 输入密码有问题

再执行zkServer.sh start。

2025-03-08 10:52:14 208

原创 beeline -u jdbc:hive2://hadoop1:10000 -n root -p Password@123拒绝连接

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000: java.net.ConnectException: 拒绝连接 (Connection refused) (state=08S01,code=0)

2025-02-26 09:33:43 447

原创 虚拟机:如何知道core-site.xml在哪里

如何知道core-site.xml在哪里

2025-02-24 15:04:04 226

原创 虚拟机 hadoop 忘记了root用户密码

上一次登录:一 2月 24 10:05:50 CST 2025从 hadoop2pts/0 上。使用ssh hadoop1远程登陆hadoop1。使用passwd修改hadoop1的root密码。passwd:所有的身份验证令牌已经成功更新。无效的密码: 密码少于 8 个字符。更改用户 root 的密码。之后再登录hadoop1。

2025-02-24 10:10:20 552

原创 SELECT DISTINCT 去重

这是最简单的去重方法,它允许从表中选择不重复的记录。

2025-02-19 09:42:51 511

原创 Hive 操作指南:添加属性、处理Header、获取当前数据库及基本数据操作

注意:Hive不直接处理数据文件的header。通常在加载数据到Hive表之前,您需要预处理数据文件以移除header行。主要用于配置Hive CLI在每次执行命令前打印当前数据库,它本身不返回结果集。为了获取当前数据库名称,更常用的方法是。启动Hive命令行的方法取决于您的Hive安装和配置。如果不使用Kerberos认证,且Hive服务器配置为允许匿名访问,则可以省略。在Hive命令行中,使用以下命令创建名为。参数,并可能使用默认数据库(通常是。的表,并定义其列和数据类型。在Hive中,您可以通过。

2025-02-19 09:41:56 389

原创 修改环境变量后,不管是敲什么命令都出现未找到命令

【代码】修改环境变量后,不管是敲什么命令都出现未找到命令。

2024-12-20 08:50:40 250

原创 axis=1什么时候对列,什么时候对行

这是因为这些计算是沿着行的方向“跨列”进行的,将每行中的元素作为一个集合来计算平均值、求和等。不过,在其他非聚合计算场景,比如数据拼接、对列元素应用复杂的自定义函数并返回多值结果(且以列作为操作单元)等情况下, axis = 1 也可以用于和列相关的操作,重点在于操作的逻辑单元是列方向的元素组合。二维数组有行和列两个维度,当计算平均值时, axis = 1 意味着“跨行”操作。在涉及计算平均值、求和等大多数常见的聚合计算时,在NumPy和pandas中, axis = 1 通常是对行进行操作。

2024-12-09 15:57:37 2561

原创 df.drop_duplicates的keep用法

当使用 df.drop_duplicates(subset='name', keep='first') 时,意思就是按照 name 列来判断哪些行是重复的,然后对于重复的行,只保留第一次出现的那一行,把后面重复的都删掉。当使用 df.drop_duplicates(subset='name', keep=False) ,只要 name 列里重复的行,全都删掉,不管是第一次出现的还是最后一次出现的,一个都不留。假如 name 列里有重复值的话,最终数据框里就不会有那些重复的行了,只会留下完全不重复的行。

2024-12-09 13:48:13 531

原创 combine_first merge concat区别

重点在于基于特定的键进行数据合并,合并后的数据形状根据连接方式和键的匹配情况而定,通常会包含两个DataFrame中与键相关的部分数据,更关注数据之间的关联关系。- 用途:主要用于填充缺失值,以一个对象(DataFrame或Series)为主,当该对象中的值为缺失值(如 NaN )时,从另一个对象中相同位置获取值来填充。- 侧重于数据修补,基于元素位置进行操作,两个对象的形状(行列数)最好相同,否则会按照索引对齐进行填充,可能导致形状与主对象相同,但部分数据为空。plaintext 复制。

2024-12-09 13:29:34 1488

原创 mean()用法

例如,有一个DataFrame数据结构 df ,使用 df.mean(axis = 1) 就可以计算每行的平均值。其中 axis = 1 这个参数表示沿着水平方向(行)进行计算。在Python的Pandas库中, .mean() 函数默认是计算列的平均值,但通过设置 axis 参数可以对行求平均值。

2024-12-09 12:16:48 377

原创 apply()和agg()方法区别

apply()和agg()方法都是Pandas库中非常强大的工具,用于对数据集进行各种操作,但它们在使用方式和适用场景上存在一些显著的区别。

2024-12-08 23:10:15 1126

原创 range和arange区别

range和arange在 Python 中都用于生成一系列的数字,但它们之间存在显著的区别。

2024-12-08 21:47:32 2100

原创 to_datetime

是 Pandas 库中的一个非常实用的函数,它能够将参数转换成 datetime 类型。这个函数在数据处理和分析中经常被用到,特别是当你需要处理时间序列数据时。可以处理多种格式的时间数据,包括字符串、数字(时间戳)以及 Python 的原生 datetime 对象等。# 使用 to_datetime 转换日期时间列,并处理错误。# 创建一个包含日期时间字符串的 DataFrame。# 将字符串列表转换为 datetime 对象。

2024-12-08 15:13:36 313

原创 使用pandas描述数据相关程度 cov() 和corr()

cov()函数计算的是协方差矩阵,它衡量的是变量之间的共同变化的程度。corr()函数计算的是相关系数矩阵,它衡量的是变量之间的线性关系的强度和方向,并且不受变量单位的影响。

2024-12-08 14:58:52 583

原创 reshape(-1,1)和reshape(-1,2)是什么

时,你基本上是在说:“我想把这个数组变成一个有两列的二维数组,行数无所谓,只要保持元素总数不变并且每行有两个元素就行(如果元素总数不能被2整除,则会引发一个错误)。时,你告诉NumPy你想要将该数组重塑成一个二维数组(矩阵),其中第二维(列)的大小固定为2,而第一维(行)的大小是自动计算的,以保持数组中元素的总数不变。时,你告诉NumPy你想要将数组重塑成一个二维数组(矩阵),其中第二维(列)的大小为1,而第一维(行)的大小是自动计算的,以便保持数组中元素的总数不变。同样是一种用于改变数组形状的操作。

2024-12-08 14:47:49 1100

原创 numpy和series区别

在NumPy数组中,我们处理的是纯数值型数据,并且主要关注数组的数学运算。在Pandas Series中,我们处理的是带有索引的数据,索引可以是任何类型(如字符串、日期等),并且我们更关注数据的分析和处理功能。

2024-12-08 14:15:00 702

原创 DataFrame和NumPy数组区别

DataFrame和NumPy数组是Python中两种常用的数据结构,它们在数据处理和分析中各有优势。

2024-12-08 14:10:00 859

原创 loc和iloc区别

loc更适合当你知道数据的标签(如行名、列名)时,可以进行精确或基于条件的访问。.iloc更适合当你按数据的具体位置(如第几行、第几列)进行访问时。在选择使用.loc还是.iloc时,应根据具体的数据结构和访问需求来决定。

2024-12-08 14:07:44 869

原创 df.loc[:, [‘age‘]]和df.loc[:, ‘age‘] 区别

尽管它看起来可能和一个Series很像(特别是如果DataFrame中只有这一列被选择的话),但它实际上仍然是一个DataFrame,因为它保留了列标签和可能的行索引。在实际应用中,这两种选择方式在功能上可能是相似的,但在数据结构和类型上有所不同。Series是Pandas中用于存储一维数据的数据结构,它只有索引(对应于DataFrame中的行标签)和值,没有列标签(因为这里只选择了一个列)。进行数据选择时,你可以通过指定行标签和列标签来精确选择DataFrame中的数据。中提供列标签作为字符串。

2024-12-08 14:06:25 535

原创 使用Pandas库中iloc方法的具体例子,这些例子将帮助你理解如何区分行和列的选择

同样,这里返回的是一个Series对象,但它表示DataFrame中的一列。注意,这里返回的是一个Series对象,它表示DataFrame中的一行。这个DataFrame。这是一个单个的元素值。

2024-12-08 13:45:54 300

原创 当你使用iloc来选择数据时,如何通过提供的索引来指定是选择行还是列,或者同时选择行和列

【代码】当你使用iloc来选择数据时,如何通过提供的索引来指定是选择行还是列,或者同时选择行和列。

2024-12-08 13:44:55 211

原创 iloc如何使用

python复制代码data = {# 选择单个元素print(element) # 输出: 25# 选择前两行# 选择第一列和第二列# 选择第一行和第三行的前两列。

2024-12-08 13:42:48 523

原创 删除Series的一个元素和删除DataFrame的行或列

DataFrame 删除DataFrame的行必须有axis=1。d1.drop(0,axis=0) #0 不能是'0'一、DataFrame删除列。二、DataFrame删除行。

2024-12-08 01:14:08 243

原创 关于sort_values() by在什么时候有

In[97]: frame.sort_values(by='b') #DataFrame必须传一个by参数表示要排序的列。

2024-12-08 00:56:41 194

原创 DataFrame和Series区别

DataFrame和Series是Pandas库中两种核心且常用的数据结构,它们在数据处理和分析中扮演着不同的角色。

2024-12-08 00:35:53 1093

原创 df_score=pd.read_excel(filePath) 和df_score=pd.read_excel(filePath,header=[0,2])

参数,这意味着您的Excel文件的第一行和第二行将合并起来形成DataFrame的列索引,其中每个单元格的值将由这两行中对应位置的值组合而成。参数,这意味着您的Excel文件的第一行和第三行将合并起来形成DataFrame的列索引,其中每个单元格的值将由这两行中对应位置的值组合而成。Unnamed: 0 一本分数线 Unnamed: 2 二本分数线 Unnamed: 4。0 年份 文科 理科 文科 理科。指定的Excel文件。指定的Excel文件。

2024-12-08 00:25:22 397

原创 创建数组Series 字典

创建一个名为series_a的series数组,当中值为[1,2,5,7],对应的索引为['nu', 'li', 'xue', 'xi'];创建一个名为dict_a的字典,字典中包含如下内容{'ting':1, 'shuo':2, 'du':32, 'xie':44};# 注意:通常不会在代码中直接打印dict_a,因为已经将其用于创建了series_b,但这里为了展示而打印。将dict_a字典转化成名为series_b的series数组。# 使用字典创建另一个Series对象。# 直接创建字典对象。

2024-12-07 14:06:10 261

原创 pycharm文件如何改名

点击Rename。

2024-12-04 09:40:41 523

原创 如何进入D盘

2024-12-04 09:28:05 118

原创 root@educoder:/opt# sudo apt-get install libmysqlclient-dev-bash: sudo: command not found

在您的提示中,似乎sudo命令没有找到。sudo是一个用于执行具有超级用户(root)权限的命令的工具。如果sudo:如果您的账户没有管理员权限,那么可能没有sudo命令。sudo:在某些精简版的Linux系统中,可能没有预装sudo。:可能是环境变量配置问题导致sudo命令找不到。

2024-12-03 08:55:48 296

原创 xshell使用 hadoop jar HadoopDemo-1.0-SNAPSHOT.jar ……出现java.lang.NumberFormatException: For input strin

""之间必须有空格变成" "问题出在我本来的代码是。

2024-12-02 19:42:54 182 1

原创 如何关闭防火墙

sudo systemctl stop firewalld

2024-12-02 19:35:37 113

原创 hadoop jar HadoopDemo-1.0-SNAPSHOT.jar org.TopN.TopNDriver 出现拒绝连接问题

Exception in thread "main" java.net.ConnectException: Call From hadoop1/192.168.74.130 to hadoop1:9000 failed on connection exception: java.net.ConnectException: 拒绝连接;

2024-12-02 14:41:10 336

原创 [root@hadoop1 ~]# hadoop jar HadoopDemo-1.0-SNAPSHOT.jar org.TopN.TopNDriver 没有结果

可能是因为你少了 boolean res = job.waitForCompletion(true);TopNDriver代码,

2024-12-02 14:37:50 394

原创 Cannot delete /TopN/output. Name node is in safe mode. The reported blocks 42 needs additional 3039

[root@hadoop1 ~]# hdfs dfsadmin -safemode leaveSafe mode is OFF

2024-12-02 13:32:23 172

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除