- 博客(51)
- 收藏
- 关注
原创 数据分析_Python
提供数据集的基本信息,包括数据量、时间跨度、地理范围和主要字段.# 创建示例数据data = {'姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十'],'年龄': [25, 30, 35, 40, 45, 50, 55, 60],'性别': ['男', '男', '女', '女', '男', '女', '男', '女'],'收入': [5000, 6000, 7500, 8000, 9000, 10000, None, 12000],
2025-05-17 09:12:43
600
原创 Python_数据科学与机器学习
与坐标轴的定义、样式和范围设置相关,Axis(轴,表示坐标轴)、Tick(刻度,坐标轴上的刻度标记)、Spines(边框,图表的边框线,用于定义坐标轴的范围)、Grid(网格线,辅助线,用于更容易地读取数据).用于标注数据点或添加说明,Legend(图例,标识图表中的不同数据系列)、Title(标题,图表的描述性文本)、Text(文本,图表中的任意文字内容)、Annotations(注释,标注特定数据点或区域).Pandas 用于处理表格数据和时间序列数据,提供了高性能、易于使用的数据结构和数据分析工具.
2025-05-10 20:24:51
284
原创 数据预处理
计算标准差衡量数据相对于均值的离散程度,标准差倍数用于界定异常值范围,数值越大数据越分散.适用于数据近似服从正态分布的情况,能快速定位与均值差异较大的异常数据,如在生产过程中对产品质量指标进行监测,若某一产品的质量指标超出了均值的三倍标准差范围,可能该产品存在质量问题.将数据集中的每一条记录与其他所有记录进行比较,判断所有字段的值是否完全相同.若所有字段的值都相等,则认为这两条记录是重复的.特点是准确性高,但计算量大,适用于数据量较小的情况.当数据存在极端值时,中位数更能代表数据的一般水平.
2025-05-04 15:45:29
1065
原创 数据可视化_问题/优化
本文分析了数据分析中的三类核心问题及解决方案。数据问题方面,针对数据整合困难和计算逻辑复杂,提出建立统一数据标准和加强业务沟通的方法。展示问题涉及视觉效果差和交互性缺失,建议优化报表设计并增加交互功能。性能问题从数据源、SQL、报表工具和业务逻辑四个维度展开,具体包括提升硬件配置、优化网络环境、合理使用缓存、精简数据集等措施。通过系统化的解决方案,可有效提升数据处理效率、报表可视化效果和系统整体性能。
2025-05-02 22:09:51
488
转载 Python_语言特性_高级功能
注解是为变量、参数及返回值添加的额外信息,这些信息独立于业务逻辑,能在编译期、类加载期或运行时读取利用,用于类型验证、文档生成等,增强代码可读性与可维护性.
2025-05-02 11:53:28
92
转载 Java_语言特性_高级功能
使用 @interface 关键字定义自定义注解,可包含成员变量,使用时需为成员变量赋值(除非有默认值).// 定义// 使用// 方法实现。
2025-05-01 22:36:44
93
转载 Java_Web开发
(1) 引入数据库驱动依赖:在Maven 项目的pom.xml文件中,添加对应数据库的 JDBC 驱动依赖(2) 获取数据库连接:调用DriverManager.getConnection(url,username,password)方法(3) 执行数据库操作Ⅰ 插入/更新/删除数据①构建 SQL 语句,使用?作为占位符;②创建PreparedStatement对象,设置占位符的值;③调用executeUpdate()方法执行操作.Ⅱ 查询数据①构建 SQL 语句;
2025-05-01 19:24:30
56
转载 Python_语言特性_基础功能
if b == 0:raise MyCustomError("除数不能为零")try:print(f"捕获到自定义异常: {e.message}")
2025-04-30 20:56:42
62
转载 Java_语言特性_基础功能
/ 1 自定义受检异常,继承 Exception 类// 1自定义非受检异常,继承 RuntimeException 类throw new MyCheckedException("年龄不能为负数");throw new MyUncheckedException("年龄不太可能超过120岁");System.out.println("年龄有效:" + age);try {System.out.println("捕获到自定义受检异常:" + e.getMessage());
2025-04-30 20:51:57
76
转载 Java_面向对象编程
/ 定义继承// 父类// 子类// 方法重写:子类可以重写父类的方法,以提供自己的实现@Override// 使用继承// 调用子类重写的方法dog.eat();// 输出: Buddy is eating dog food.// 调用子类独有的方法dog.bark();// 输出: Buddy is barking.// 抽象类// 抽象方法// 具体方法// 子类实现抽象类@Override@Override// 创建子类对象// 调用方法。
2025-04-29 17:40:39
66
转载 Python_面向对象编程
父类1# 父类2class Pet:# 子类def speak(self): # 重写父类的 speak 方法def move(self): # 重写父类的 move 方法super().move() # 调用第一个父类(Animal)的 move 方法# 创建子类对象dog.speak() # 输出: Dog barks. (重写后的方法)dog.move() # 输出: Animal moves. Dog runs. (重写后的方法,调用了 Animal 的 move 方法)
2025-04-29 15:53:54
72
转载 Python_基础语法
函数可以包含一系列执行特定任务的语句,并可以返回一个值.# 定义函数def 函数名(参数列表):函数体return 返回值 # 可省略# 调用函数print(sum_result) # 输出 8。
2025-04-29 15:40:59
72
转载 Oracle_PL/SQL
PL/SQL是 Oracle 对 SQL 的过程化扩展,它将 SQL 的强大数据操作能力与过程化编程结构相结合.用PLSQL Developer 开发.
2025-04-26 09:46:31
305
转载 数据治理_数据资产
①资产梳理与盘点:全面清查企业内的数据资源,涵盖各业务系统、数据库、文件等,明确数据的类型、存储位置、使用频率等,形成数据资产清单.②指标体系建设:围绕业务需求,将业务目标细化为可量化的指标集合,为业务决策提供数据支撑.同时兼顾指标规范化工作,消除指标歧义,确保指标在企业内理解与运用的一致性.③数据资产运营:通过数据共享、开放等方式,挖掘数据资产价值,实现数据资产的增值.
2025-04-25 07:55:01
62
转载 基础 知识
【数据分析--带你认识数据分析,了解数据分析的】_计算机数据分析-优快云博客数据分析的介绍,Python开源库,配置Jupyter!!!定义:数据分析是指使用适当的统计方法和技术对收集来的数据进行系统的检查、清理、转换和建模,以揭示其中的趋势、模式和结论的过程。数据分析的主要目标是从数据中提取有用的信息,以支持决策制定和问题解决_计算机数据分析。
2025-04-10 15:28:21
83
原创 数据库_SQL_语法
本文介绍了SQL结构化查询语言的基本操作,包括数据库和表的创建、删除、查询,以及字段和数据的增删改查操作。主要内容涵盖:1)数据库管理(创建/删除/查询);2)数据表操作(创建/复制/删除/修改);3)字段管理(添加/删除/修改);4)数据操作(插入/删除/更新/查询);5)多表关联查询(内连接/外连接/子查询/联合查询)。同时对比了Hive与标准SQL的语法差异,如Hive不支持字段修改和部分删除操作。文章还涉及主键、外键等约束条件的使用。
2025-03-06 10:15:07
1178
转载 Hadoop
Hadoop是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理.Hadoop被抽象成一个分布式操作系统,文件系统是HDFS,操作系统内核是YARN,应用开发框架/规范是MapReduce.①HDFS(分布式文件系统):解决海量数据存储.②YARN(作业调度和集群资源管理的框架):解决资源任务调度.③MapReduce(分布式运算编程框架):解决海量数据计算.
2025-03-05 16:26:39
58
原创 数据库_SQL优化/问题
本文系统总结了数据库性能优化的关键方法:1)表结构优化:精简字段、合理选择数据类型、科学设置索引;2)SQL优化:包括数据读取优化(精准过滤、列裁剪)、数据处理优化(简化分组排序)、表关联优化(预处理数据、优化关联顺序);3)系统配置优化;4)数据处理优化:重点解决数据倾斜问题;5)架构优化:采用分库分表、读写分离、缓存等技术。文章提供了从微观SQL语句到宏观系统架构的多维度优化方案,并针对不同类型数据倾斜给出了具体解决方案,为数据库性能调优提供了全面指导。
2025-02-26 15:01:52
545
原创 数据运维_任务调度
任务调度:依据业务需求和数据处理逻辑,设定任务执行周期、依赖关系等,确保各类数据处理作业按计划有序运行.作业监控:实时追踪作业状态,及时发现作业失败、运行超时等异常情况,设置重试机制.实时监控资源使用情况、网络状态,设自动处理规则应对常见问题并告警.
2025-02-20 17:10:04
228
转载 Spark_SparkSQL_参数
本文总结了Spark SQL的关键配置参数,包括执行参数(如允许CrossJoin和Decimal精度控制)、性能优化参数(如自动广播连接阈值和自适应查询设置)以及资源管理参数(如Executor内存配置和动态资源分配)。这些参数涵盖查询执行、性能调优和资源分配等方面,通过合理配置可优化Spark作业性能和资源利用率,例如设置自适应分区大小(128MB)和并行度(200)等,帮助提升大规模数据处理效率。
2025-02-20 15:45:12
312
转载 Doris_数据模型
摘要:本文系统介绍了数据库表结构设计与优化方法。主要包括:1)数据模型,如列式存储、分区和分桶;2)三种表类型(重复模型、聚合模型和主键模型)及其适用场景;3)分区管理与操作,包括列表分区、范围分区和动态分区;4)分桶策略设计;5)索引优化技术(如位图索引)。通过SQL示例展示了各项技术的具体实现方式,为数据库性能优化提供了实用指导。
2024-09-22 20:40:56
238
原创 数据库_SQL练习
(1) 列拆分为多行把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.(2) 行扁平化把同一组的多行数据合并成为一行.(3) 列转行如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.(4) 行转列把数据字段的字段名转换为一列,把数据行变为数据列.
2024-09-10 16:03:46
496
原创 Hive_数据模型
(2) 数据表: 分为内部表(数据由Hive管理,存储在默认位置,删表会删除数据) 和 外部表(被external修饰的,数据存储位置需要指定,删表不会删除数据).(3) 分区:明确指定值(静态分区) 或者 指定表的N个字段(动态分区) 作为分区列,对表数据进行划分,每个分区对应一个目录.分区列名不能是表中的列.②表可以同时分区和分桶,当表分区时,每个分区下都会有多个桶,表现为表目录下小文件的个数.(4) 分桶:将数据按某个字段的哈希值进行分割,每个桶对应一个文件.(1) 修改分区名称。
2024-09-10 11:45:16
251
转载 Hive_架构/使用
Hive是一个基于Hadoop的数据仓库工具,支持将结构化数据映射为数据库表并提供类SQL查询功能。其架构主要包括用户接口(CLI/Client/WUI)、元数据存储(关系型数据库)和Driver(查询处理引擎)。Hive使用HDFS存储底层数据,MapReduce作为执行引擎。安装部署需先配置Hadoop环境,通过启动元数据服务和hiveserver2访问。Hive命令行支持多种参数选项,提供数据导入导出功能(如load data命令),并能执行HQL脚本。常用命令分为数据定义、操作、系统管理、权限安全等
2024-09-10 11:29:20
152
转载 MySQL_索引
索引是额外的数据结构,对数据库表中一列或多列的值进行排序.使用索引能加快查询速度、提高排序效率、优化连接操作,也可用于实现数据的唯一性约束;但索引会占用磁盘空间、需要维护,并且会降低表更新的效率.
2023-03-25 22:35:05
151
转载 数据同步_Canal
(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。
2022-09-25 22:41:23
591
原创 数据同步_DataX
解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(3) 执行自检脚本: python3 /data/datax/bin/datax.py /data/datax/job/job.json。②Writer:读取Framework数据,将数据写入到目的端.
2022-09-23 09:33:38
716
原创 Spark_SparkSQL
(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(1) 创建 DataFrame。
2022-09-08 12:01:16
1035
转载 Java_基础语法
/ 定义方法// 修饰符:public、private、protected 等,用于控制方法的访问权限修饰符 [static] 返回值类型 方法名(参数列表) {方法体// 方法调用// 静态方法:用 static修饰,使用 类名.方法名(参数值) 来调用// 非静态方法:使用时需要先创建类的实例,然后使用 对象名.方法名(参数值) 来调用// 创建 MyClass 类的实例// 使用实例对象调用非静态方法");// 构造方法// 输出 8。
2022-09-07 11:45:57
81
1
原创 Spark_SparkCore
Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.每个节点的executor只拥有一份广播变量的数据,该executor上的所有的Task共用这一个只读变量.(2) 配置 log4j.properties,设置日志输出等级。将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。
2022-08-27 15:39:38
636
转载 Hive_SQL_基础
(1) 分类UDF :操作单行数据,产生单行数据;UDAF :操作多行数据,产生单行数据;UDTF :操作单行数据,产生多行数据.(2) 开发UDF①继承UDF/UDAF/UDTF类,重写evaluate方法;②将类打包为jar并上传到Linux;③注册该jar文件:在Hive shell中执行命令add jar /home/hadoop/LowerUDF.jar。
2022-04-29 17:58:22
143
转载 Hive_参数
Hive参数配置可分为三大类:执行参数(如并行执行、动态分区)、性能优化参数(如倾斜Join处理、成本优化器)和资源管理参数(如内存分配、数据压缩)。参数设置有三种方式:配置文件(全局有效)、命令行参数(当前Session有效)和SQL参数(当前Session有效),优先级依次递增。关键参数包括控制并行度的hive.exec.parallel、处理数据倾斜的hive.optimize.skewjoin,以及资源相关的mapreduce.map.memory.mb等。合理配置这些参数可显著提升Hive查询性能
2022-04-28 16:21:51
90
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅