- 博客(4)
- 收藏
- 关注
原创 Hadoop入门
管理HDFS的命名空间配置副本策略惯例数据块 Blocks的映射欣喜处理客户端读写请求master下达命令,DataNode执行操作存储实际的数据块执行数据块的读/写操作(3)Clinet:客户端文件切分。文件上传HDFS时,Client将文件切分成一个个Block后上传与NameNode 交互,获取文件的位置信息与 DataNode 交互,读取或写入数据Client 提供一些命令来管理HDFS,如NameNode语法化。
2024-05-09 00:54:12
582
原创 Python数据分析与可视化的基础知识(带例子)
这包括处理缺失值、重复值和异常值。常用的方法包括填充缺失值、删除重复值和通过统计方法或可视化方法识别和处理异常值。有时需要将数据从一种格式转换为另一种格式,或者将数据类型转换为适合分析的类型。例如,将字符串类型转换为数字类型,或者将日期转换为特定的时间格式。这涉及到计算均值、中位数、总和等统计指标,以及按照某个列或多个列进行分组并进行相应的计算。数据可视化是一种有效的方式,可以通过图表、图形和图像等形式将数据直观地呈现出来。常用的数据分析和可视化库有:pandas、numpy和matplotlib。
2023-12-20 15:13:03
14374
8
原创 Python抓取动态网页数据基础知识(附:爬取NBA球员例子)
相比于静态网页,动态网页的内容是通过 JavaScript 在客户端动态生成的,因此传统的静态网页抓取方法可能无法获取到动态生成的数据。了解网页中的数据请求方式(如 AJAX 请求),可以使用编程语言中的相应库来模拟这些请求,并获取返回的数据。因为传统的静态网页抓取方法可能无法获取到动态生成的数据,所以基础URL就不顶事了,经过分析的动态内容URL才是我们要的结果。这时,我们将不需要的数据折叠起来,就可以发现我们所需要的数据在payload和players里,这也是我们构建循环所需要的键。
2023-12-03 01:54:53
2319
原创 java基础知识梳理与基本语法(有例子)
在上面的例子中,我们定义了一个名为Person的类,它有两个私有属性name和age,以及一个公有的构造方法和一个公有的sayHello方法。构造方法用于创建Person对象时初始化name和age属性,而sayHello方法用于输出个人信息。在Main类的main方法中,我们创建了两个Person对象person1和person2,并通过调用sayHello方法来输出它们的个人信息。
2023-11-27 23:32:08
2603
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人