自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 Python_Web开发_Flask

Flask 是一个轻量级的 Python Web 应用框架.

2025-05-22 14:21:58 617

原创 数据分析_Python

提供数据集的基本信息,包括数据量、时间跨度、地理范围和主要字段.# 创建示例数据data = {'姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十'],'年龄': [25, 30, 35, 40, 45, 50, 55, 60],'性别': ['男', '男', '女', '女', '男', '女', '男', '女'],'收入': [5000, 6000, 7500, 8000, 9000, 10000, None, 12000],

2025-05-17 09:12:43 498

原创 数据 分析

提供数据集的基本信息,包括数据量、时间跨度、地理范围和主要字段.

2025-05-14 17:06:29 613

原创 数据获取_Python

①表格形式的数据:CSV/Excel②JSON。

2025-05-14 15:53:53 187

原创 Python_数据科学与机器学习

Numpy用于处理数值计算,尤其是针对ndarray多维数组的操作,并为 Pandas 等其他库提供高效的底层数组支持.使用 pip install numpy命令来安装 numpy.

2025-05-10 20:24:51 202

原创 数据预处理

计算标准差衡量数据相对于均值的离散程度,标准差倍数用于界定异常值范围,数值越大数据越分散.适用于数据近似服从正态分布的情况,能快速定位与均值差异较大的异常数据,如在生产过程中对产品质量指标进行监测,若某一产品的质量指标超出了均值的三倍标准差范围,可能该产品存在质量问题.将数据集中的每一条记录与其他所有记录进行比较,判断所有字段的值是否完全相同.若所有字段的值都相等,则认为这两条记录是重复的.特点是准确性高,但计算量大,适用于数据量较小的情况.当数据存在极端值时,中位数更能代表数据的一般水平.

2025-05-04 15:45:29 993

原创 数据分析_问题/优化

(1) 数据易错问题描述①数据整合困难:数据来源多样、格式差异大,整合时处理不当易丢错数据.②计算逻辑复杂:开发人员对复杂计算逻辑的理解产生偏差,会导致计算结果不准.解决方案①建立数据标准,统一修正字段命名、数据类型、日期格式等②加强业务沟通,编写详细计算逻辑文档,测试验证计算准确性.(3) 报表空白期问题描述在报表数据更新过程中,存在明显空白期解决方案①优化更新流程:采用异步更新、增量更新等技术,使报表在数据更新时仍可正常查看旧数据.②增加缓存机制(4) 未展示数据更新情况。

2025-05-02 22:09:51 408

转载 Python_语言特性_高级功能

注解是为变量、参数及返回值添加的额外信息,这些信息独立于业务逻辑,能在编译期、类加载期或运行时读取利用,用于类型验证、文档生成等,增强代码可读性与可维护性.

2025-05-02 11:53:28 22

转载 Java_语言特性_高级功能

使用 @interface 关键字定义自定义注解,可包含成员变量,使用时需为成员变量赋值(除非有默认值).// 定义// 使用// 方法实现。

2025-05-01 22:36:44 40

转载 Java_Web开发

(1) 引入数据库驱动依赖:在Maven 项目的pom.xml文件中,添加对应数据库的 JDBC 驱动依赖(2) 获取数据库连接:调用DriverManager.getConnection(url,username,password)方法(3) 执行数据库操作Ⅰ 插入/更新/删除数据①构建 SQL 语句,使用?作为占位符;②创建PreparedStatement对象,设置占位符的值;③调用executeUpdate()方法执行操作.Ⅱ 查询数据①构建 SQL 语句;

2025-05-01 19:24:30 17

转载 数据 存储

类型分类概念应用场景关系型数据库以表格形式存储数据,支持SQL语言,通过事务处理和约束实现数据一致性,如MySQL、Oracle等适用于需要处理大量结构化数据,对数据一致性、事务处理要求高的场景,如银行系统、电商订单系统非关系型数据库键值存储以键值对形式存储,键是唯一标识,值可以是各种类型数据,如Redis用于对读写速度要求极高、数据结构简单的场景,如缓存系统、实时数据处理非关系型数据库文档存储以文档形式存储数据,文档通常采用JSON或类似格式,如MongoDB。

2025-05-01 15:29:32 21

转载 Python_语言特性_基础功能

if b == 0:raise MyCustomError("除数不能为零")try:print(f"捕获到自定义异常: {e.message}")

2025-04-30 20:56:42 27

转载 Java_语言特性_基础功能

/ 1 自定义受检异常,继承 Exception 类// 1自定义非受检异常,继承 RuntimeException 类throw new MyCheckedException("年龄不能为负数");throw new MyUncheckedException("年龄不太可能超过120岁");System.out.println("年龄有效:" + age);try {System.out.println("捕获到自定义受检异常:" + e.getMessage());

2025-04-30 20:51:57 31

转载 Java_面向对象编程

/ 定义继承// 父类// 子类// 方法重写:子类可以重写父类的方法,以提供自己的实现@Override// 使用继承// 调用子类重写的方法dog.eat();// 输出: Buddy is eating dog food.// 调用子类独有的方法dog.bark();// 输出: Buddy is barking.// 抽象类// 抽象方法// 具体方法// 子类实现抽象类@Override@Override// 创建子类对象// 调用方法。

2025-04-29 17:40:39 36

转载 Python_面向对象编程

父类1# 父类2class Pet:# 子类def speak(self): # 重写父类的 speak 方法def move(self): # 重写父类的 move 方法super().move() # 调用第一个父类(Animal)的 move 方法# 创建子类对象dog.speak() # 输出: Dog barks. (重写后的方法)dog.move() # 输出: Animal moves. Dog runs. (重写后的方法,调用了 Animal 的 move 方法)

2025-04-29 15:53:54 33

转载 Python_基础语法

函数可以包含一系列执行特定任务的语句,并可以返回一个值.# 定义函数def 函数名(参数列表):函数体return 返回值 # 可省略# 调用函数print(sum_result) # 输出 8。

2025-04-29 15:40:59 43

原创 数据预处理_Python

①描述性分析。

2025-04-28 11:12:37 300

转载 Oracle_PL/SQL

PL/SQL是 Oracle 对 SQL 的过程化扩展,它将 SQL 的强大数据操作能力与过程化编程结构相结合.用PLSQL Developer 开发.

2025-04-26 09:46:31 72

转载 数据治理_数据资产

①资产梳理与盘点:全面清查企业内的数据资源,涵盖各业务系统、数据库、文件等,明确数据的类型、存储位置、使用频率等,形成数据资产清单.②指标体系建设:围绕业务需求,将业务目标细化为可量化的指标集合,为业务决策提供数据支撑.同时兼顾指标规范化工作,消除指标歧义,确保指标在企业内理解与运用的一致性.③数据资产运营:通过数据共享、开放等方式,挖掘数据资产价值,实现数据资产的增值.

2025-04-25 07:55:01 27

转载 基础 知识

【数据分析--带你认识数据分析,了解数据分析的】_计算机数据分析-优快云博客数据分析的介绍,Python开源库,配置Jupyter!!!定义:数据分析是指使用适当的统计方法和技术对收集来的数据进行系统的检查、清理、转换和建模,以揭示其中的趋势、模式和结论的过程。数据分析的主要目标是从数据中提取有用的信息,以支持决策制定和问题解决_计算机数据分析。

2025-04-10 15:28:21 42

转载 数据可视化

将数据以图表、图形、地图、仪表盘等视觉形式呈现,帮助用户理解数据规律、趋势、关系及异常.

2025-03-10 16:47:23 40

原创 SQL_语法

SQL:结构化查询语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统.

2025-03-06 10:15:07 1116

转载 Hadoop

Hadoop是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理.Hadoop被抽象成一个分布式操作系统,文件系统是HDFS,操作系统内核是YARN,应用开发框架/规范是MapReduce.①HDFS(分布式文件系统):解决海量数据存储.②YARN(作业调度和集群资源管理的框架):解决资源任务调度.③MapReduce(分布式运算编程框架):解决海量数据计算.

2025-03-05 16:26:39 30

原创 SQL_优化/问题

①分区:筛选并优先筛选分区,区分度大的字段先过滤②列裁剪:读取操作(select、where、join、group by、sort by等),不读取不需要的列,减少IO消耗.③尽量不在筛选字段上使用函数和表达式.

2025-02-26 15:01:52 392

原创 数据运维_任务调度

任务调度:依据业务需求和数据处理逻辑,设定任务执行周期、依赖关系等,确保各类数据处理作业按计划有序运行.作业监控:实时追踪作业状态,及时发现作业失败、运行超时等异常情况,设置重试机制.实时监控资源使用情况、网络状态,设自动处理规则应对常见问题并告警.

2025-02-20 17:10:04 159

转载 Spark_SparkSQL_参数

spark.sql.crossJoin.enabled=true:控制是否允许 cross join.spark.sql.decimalOperations.allowPrecisionLoss=false:控制在进行小数运算时是否允许精度损失.

2025-02-20 15:45:12 144

转载 Doris_数据模型

①列式存储,有助于提高查询性能.②数据类型:基本数据类型(如 INT、DECIMAL、STRING、DATE)和复杂数据类型(如 ARRAY、MAP).③主键模型:支持重复模型、聚合模型和主键模型,以满足不同的业务需求.④数据分区:支持多种分区方式.⑤索引:提供了多种索引机制,如位图索引和倒排索引,以加速查询.

2024-09-22 20:40:56 43

原创 SQL_练习

(1) 列拆分为多行把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.(2) 行扁平化把同一组的多行数据合并成为一行.(3) 列转行如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.(4) 行转列把数据字段的字段名转换为一列,把数据行变为数据列.

2024-09-10 16:03:46 481

原创 Hive_数据模型

(2) 数据表: 分为内部表(数据由Hive管理,存储在默认位置,删表会删除数据) 和 外部表(被external修饰的,数据存储位置需要指定,删表不会删除数据).(3) 分区:明确指定值(静态分区) 或者 指定表的N个字段(动态分区) 作为分区列,对表数据进行划分,每个分区对应一个目录.分区列名不能是表中的列.②表可以同时分区和分桶,当表分区时,每个分区下都会有多个桶,表现为表目录下小文件的个数.(4) 分桶:将数据按某个字段的哈希值进行分割,每个桶对应一个文件.(1) 修改分区名称。

2024-09-10 11:45:16 222

转载 Hive_架构/使用

Hive DDL与DML精要-优快云博客(1) 功能数据定义类命令:用于定义和管理 Hive 数据库对象(如数据库、表、分区等).数据操作类命令:用于操作 Hive 表中的数据,包括查询、插入、加载和导出.(2) 同步数据①导入数据Load命令可以将HDFS(或本地文件)导入到Hive表.使用load data形式往hive表中装载数据时,则不会检查.如果字段多了则会丢弃,少了则会null值填充.同样如果字段类型不一致,也是使用null值填充.不能用于动态分区.

2024-09-10 11:29:20 108

转载 ETL工具_Kettle_转换

大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包)

2024-07-04 11:57:13 124

原创 数据同步_Sqoop

例如这段是导入 last_modified > '2023-01-02 11:00:00' 的数据。

2023-03-26 23:47:06 98

转载 MySQL_索引

索引是额外的数据结构,对数据库表中一列或多列的值进行排序.使用索引能加快查询速度、提高排序效率、优化连接操作,也可用于实现数据的唯一性约束;但索引会占用磁盘空间、需要维护,并且会降低表更新的效率.

2023-03-25 22:35:05 95

转载 数据同步_Canal

(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。

2022-09-25 22:41:23 540

原创 数据同步_DataX

解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(3) 执行自检脚本: python3 /data/datax/bin/datax.py /data/datax/job/job.json。②Writer:读取Framework数据,将数据写入到目的端.

2022-09-23 09:33:38 655

原创 Spark_SparkSQL

(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(1) 创建 DataFrame。

2022-09-08 12:01:16 999

转载 Java_基础语法

/ 定义方法// 修饰符:public、private、protected 等,用于控制方法的访问权限修饰符 [static] 返回值类型 方法名(参数列表) {方法体// 方法调用// 静态方法:用 static修饰,使用 类名.方法名(参数值) 来调用// 非静态方法:使用时需要先创建类的实例,然后使用 对象名.方法名(参数值) 来调用// 创建 MyClass 类的实例// 使用实例对象调用非静态方法");// 构造方法// 输出 8。

2022-09-07 11:45:57 43 1

原创 Spark_SparkCore

Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.每个节点的executor只拥有一份广播变量的数据,该executor上的所有的Task共用这一个只读变量.(2) 配置 log4j.properties,设置日志输出等级。将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。

2022-08-27 15:39:38 598

转载 MySQL_事务

事务是一组SQL语句,要么全部执行成功,要么全部执行失败,通常一个事务对应一个完整的业务.

2021-12-31 15:33:51 299

原创 SQL_数据类型/运算符/函数

整数:bigint浮点数:decimal字符串:char(n)、varchar(n)时间:date,datetime。

2021-12-06 17:10:17 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除