- 博客(18)
- 收藏
- 关注
原创 【无标题】
线程是程序执行的最小单位,实际上进程只负责分配资源,而利用这些资源执行程序的是线程,也就说进程是线程的容器,一个进程中最少有一个线程来负责执行程序。15276主进程是另外俩哥子进程的父进程,因为这两个子进程是在主进程中创建并启动的。:当程序中进程的数量越来越多时,如果没有办法区分主进程和子进程还有不同的子进程,那么就无法进行有效的进程管理,为了方便管理实际上每个进程都有自己的编号。进程是分配资源的最小单位,一旦创建一个进程就会分配一定的资源,就像跟两个人聊QQ就需要打开两个QQ软件一样是比较浪费资源的。
2024-11-07 20:08:19
762
1
原创 python-pip的使用
pip是一个现代的,通用的Python包管理工具。提供了对Python包的查找、下载、安装、卸载功能,便于我们对Python的资源包进行管理。
2024-10-29 16:39:47
573
原创 【无标题】
占位符是用于在字符串中表示将来要插入的值的标记。在 Python 中,常见的占位符形式包括百分号格式化、str.format() 方法和 f-字符串。在日志记录中,特定的占位符用于格式化日志消息,以便在输出中包含有用的信息,如时间戳、日志级别和消息内容。socket 模块是 Python 中进行网络编程的基础,提供了创建、连接、发送和接收数据的功能。通过理解和使用 socket 模块,你可以实现各种网络应用,如客户端-服务器模型、数据传输等。
2024-10-12 18:11:32
965
原创 教育项目实战
大数据的发行版本, 主要有三个发行版本: Apache 官方社区版本, cloudera 推出CDH商业版本, Hortworks推出的HDP商业免费版本, 目前HDP版本已经被cloudera 收购了Apache版本Hadoop生态圈组件的优点和弊端:完全开源,更新速度很快大数据组件在部署过程中可以深刻了解其底层原理可以了解各个组件的依赖关系缺点部署过程极其复杂,超过20个节点的时候,手动部署已经超级累各个组件部署完成后,各个为政,没有统一化管理界面。
2024-10-08 17:56:12
953
原创 hiveSQL语法
分桶就是将这个128M的文件拆分成多个文件来存储,例如拆分成四个桶文件,那么计算的时候就会有4个reduce参与数据的计算和整合,那么数据的计算速度就会变快。直接创建表格,指定了对应的目录,也读取不到数据,因为表格是个分区表,只有表格的结构,没有分区的结构。假如有一个表格,只有一个文件,文件是128M,计算的时候将这个文件当成一个整体,使用一个map和一个reduce进行数据统计的;hive数据库所有的sql操作都是高延迟的,如果操作的数据量小于128M,那么我们可以去启动本地设置的开关,加快数据的操作。
2024-10-08 17:54:30
2068
1
原创 oracle数据库之分区表、索引、表空间
关系型的数据库,在存储和写入数据的时候,都是通过随机IO的方式进行数据写入的,这种方式比较适合数据的写入而不是查询,如果查询的场景很多需要查询速度比较快,就会给大的表格进行分区的设置。分区表:如果表格的数据量很大,例如有几千万行数据,放在普通表格中查询速度会比较慢,就可以考虑用分区表的方式来存储这么大的数据量(官网的建议是表格的数据超过了2个G的大小的时候)。哈希就是将任何的数据内容转换成数字,用数字除以分区的数量,将相同余数的数据放在同一个分区中。
2024-08-19 20:15:13
1940
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅