自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 nan填充升级

若上存在,下为nan,或者下存在,上为nan,则选取非nan的值;若上下均不为nan,则取上下平均值进行填充;df中,若nan上下均为nan,则不填充;

2025-04-23 16:41:27 254

原创 神经网络相关内容

'''输入:dataxdatay输出:trainx, valx, testx, trainy, valy, testy, 分别按比例得到训练集、验证集、测试集'''# 构建数据集'''输入: 输入维度, 层数、每层维度、正则化系数、dorpout层层数以及系数输出:模型,注意不要使用函数'''# 构建神经网络模型model.add(tf.keras.layers.Dense(nenum, activation='relu'))#创建第一层。

2025-04-23 16:33:40 458

原创 Sqoop数据迁移工具

Sqoop数据迁移工具简单介绍

2024-01-30 17:02:11 990

原创 ES(ElasticSearch)技术栈简介

ES(ElasticSearch)技术栈简介,读写原理

2024-01-30 16:47:49 2112

原创 Structured_Streaming和Kafka整合

结构化流与Kafka的整合

2024-01-15 15:12:00 1566

原创 结构化流(Structured Streaming)

结构化流是构建在Spark SQL处理引擎之上的一个流式的处理引擎,主要是针对无界数据的处理操作。对于结构化流同样也支持多种语言操作的API:比如 Python Java Scala SQL …Spark的核心是RDD。RDD出现主要的目的就是提供更加高效的离线的迭代计算操作,RDD是针对的有界的数据集,但是为了能够兼容实时计算的处理场景,提供微批处理模型,本质上还是批处理,只不过批与批之间的处理间隔时间变短了,让我们感觉是在进行流式的计算操作,目前默认的微批可以达到100毫秒一次。

2024-01-15 11:37:18 1934

原创 Kafka的核心原理

Kafka核心原理介绍

2024-01-13 21:42:05 1644

原创 Kafka基本介绍

Kafka基本介绍-生产者与消费者,Kafka基本架构

2024-01-13 20:52:40 724

原创 Spark on Hive及 Spark SQL的运行机制

Spark on Hive及 Spark SQL的运行机制

2024-01-11 22:12:10 933

原创 Spark SQL进阶

spark sql 深度介绍,spark_dataFrame与pandas_dataFrame互转,基于pandas的完成自定义UDF函数,UDAF函数

2024-01-11 21:55:54 1570

原创 Spark SQL基础

Spark SQL基础介绍

2024-01-09 22:03:36 1449

原创 Spark Core--加强

Spark Core深入学习,对Spark内核的细化

2024-01-09 19:44:56 1229

原创 Spark Core------算子介绍

RDD:英文全称Resilient Distributed Dataset,叫做,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

2024-01-08 15:26:22 1375

原创 Spark基础原理

Spark On Yarn的简介,spark-submit参数配置,Spark底层交互流程

2024-01-08 11:12:00 814

原创 Spark基础内容

Spark的基本介绍

2024-01-07 22:26:59 1346

原创 python------Pymysql模块

python------pymysql的简介

2023-12-30 22:34:03 914

原创 Python中的网络编程

【代码】Python中的网络编程。

2023-12-30 22:24:52 511

原创 Python---多进程---多线程

python中多线程与多进程的解释

2023-12-30 22:16:00 1175

原创 闭包和装饰器(语法糖)

简要概括python中闭包以及装饰器(简称语法糖)

2023-12-27 22:05:57 406

原创 面向对象总结

面向对象总结概括

2023-12-26 10:45:05 416

原创 面向对象------知识点

python------面向对象

2023-12-26 10:43:48 408

原创 海豚调度器(DolphinScheduler)

海豚调度器原理介绍

2023-12-04 21:17:33 1291 1

原创 数仓项目建设------思路及架构

基于大数据之数仓项目建设方案做出整体的总结

2023-12-04 21:11:48 1396

原创 Presto------分布式SQL查询引擎

基于Presto分布式SQL查询框架的基本介绍

2023-12-03 22:05:56 1498

原创 hive调优扩充

hive调优扩充

2023-11-29 11:12:48 1052

原创 hive调优

多角度阐述hive调优

2023-11-16 14:38:07 103

原创 hive函数,及使用函数出现的堆内存错误,行列转换

hive函数大致介绍,及解决堆内存不足的问题,行列转换的应用场景

2023-11-16 10:07:59 165

原创 Hive查询

主要针对hive查询做出详细介绍,以及ETC表达式

2023-11-14 20:11:17 186

原创 Hive内外表操作,分区分桶操作,字段的特殊类型

hive中表的基础操作以及文件数据的导入导出;hive分区分桶的详细介绍以及复杂类型的介绍

2023-11-11 21:55:27 374

原创 Hive基础及数据仓库和数据库的区别

hive及数仓ETL的简介

2023-11-09 21:38:33 112

原创 hadoop生态圈

Hadoop生态圈的介绍以及Hadoop主要组成

2023-11-09 21:04:58 93

原创 shell编程

shell编程基础简介

2023-11-07 20:22:45 84

原创 linux高级

linux进阶命令

2023-11-05 21:49:37 1298

原创 linux基础命令

linux部分基础命令

2023-11-04 21:39:28 107

原创 MySQL拓展

mysql_8 涉及的开窗函数,特殊类型,ER建模,存储引擎,事务,索引,视图

2023-10-25 21:20:52 99

原创 MySQL概述

mysql基本知识

2023-10-21 19:33:57 105

原创 pyecharts数据可视化

几种常见的pyecharts数据可视化

2023-10-18 20:36:36 106

原创 正则表达式

正则表达式的常见用法

2023-10-14 20:29:30 761

原创 Python五大容器对比总结

容器方面的总结

2023-10-09 17:14:11 253

原创 Python函数进阶

函数进阶,即函数的返回值以及参数的详细说明

2023-10-09 14:19:05 87

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除