自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 Excel常用函数

这些是现代Excel的利器,可以自动溢出结果,极大地简化了复杂操作。这类公式用于获取信息或进行条件判断,是构建复杂公式的基础。用于在数据表中查找和引用特定值,是数据分析的核心。用于处理、提取、连接和转换文本字符串。用于数学计算和数据分析。用于处理日期和时间计算。

2025-09-22 15:50:34 978

原创 SQL时间加减、格式化函数及其用法

【代码】SQL时间加减、格式化函数及其用法。

2025-09-08 21:17:42 189

转载 滴滴出行A/B测试&城市运营分析

本文基于滴滴出行A/B测试和城市运营数据展开分析。通过配对样本t检验发现,实验条件对GMV和ROI有显著影响,但对requests影响不显著。城市运营分析显示:12点订单需求最大,13点完成率最低;周末出行需求旺盛但完成率较低;实际等待时间普遍长于预计时间;12点司机在忙率最高。建议优化派单逻辑、提升等待时间预测准确性,并在高峰时段增加运力供给。分析结果为提升运营效率和用户体验提供了数据支持。

2025-09-06 22:27:16 62

原创 LLM面试小白速背表

用法:先看“含义”→ 再看“面试用法”→ 记住“关键词”即可对答。背完这 100 条,小白也能自信应对西门子 LLM 面试!西门子电气(Siemens)数据分析/数据科学实习生。LLM 100 个面试小白速背表(2025 版)表格可横屏查看,按类别排序,方便 2 小时速背。

2025-08-28 10:07:54 453

原创 MS SQL(Microsoft SQL Server)面试常考的知识点

本文总结了MS SQL Server数据库管理的核心面试知识点,内容涵盖:1)体系结构(实例、系统数据库、事务日志等);2)DDL操作(建库表、索引、分区表等);3)DML与事务;4)查询优化(执行计划、统计信息等);5)备份恢复方案;6)安全管理(权限、行级安全);7)监控维护工具;8)常见问题解决方案(日志暴涨、死锁等)。采用"概念-命令-场景"的结构化整理方式,帮助应聘者快速掌握90%高频考点,适用于DBA和开发岗位面试准备。

2025-08-28 09:40:22 1138

原创 SQL性能调优

MySQL性能优化指南 主要问题:全表扫描、复杂查询、大数据量表 核心方案:索引优化(覆盖索引、复合索引)、查询简化、执行计划分析 监控手段:慢查询日志+EXPLAIN分析 进阶技巧:数据分片、缓存机制、参数调优 优化思路:诊断瓶颈→设计索引→验证效果的系统工程

2025-08-25 21:26:19 1009

原创 Python面试常考的数据处理函数

本文整理了Python面试中常见的100个关键函数,涵盖数据分析和基础编程两大方向: 数据分析核心库函数(50个): Pandas数据操作:read_csv()/DataFrame()/groupby()等40个数据处理函数 NumPy数值计算:array()/reshape()/mean()等10个数组操作函数 基础编程关键函数(50个): 内置函数:print()/len()/map()等30个基础工具 字符串处理:split()/join()/format()等15个文本操作 数据结构方法:列表app

2025-08-22 10:12:33 946

转载 SQL-牛客面经八股

数据库索引与查询优化摘要:B+树因其多路平衡、范围查询和高效磁盘I/O特性成为主流索引结构,相比红黑树更适合大数据场景。索引类型包括聚簇/非聚簇、联合索引等,使用时需遵循最左前缀原则。常见优化手段包括:合理设计索引(避免冗余、覆盖索引)、优化SQL结构(简化JOIN、精准SELECT)、利用执行计划分析慢查询(EXPLAIN工具)、批量操作时禁用索引等。对于千万级大表,建议采用分区分表、游标分页等策略。同时需防范SQL注入,掌握行转列、关联查询等高级技巧,区分DELETE/TRUNCATE/DROP的不同应

2025-08-21 15:07:23 52

原创 SQL中的游标

SQL游标是数据库面试高频考点,主要涉及概念、操作流程、分类及适用场景。游标作为数据缓冲区,允许逐行处理查询结果,适用于精细化操作。其生命周期包括声明、打开、提取数据和关闭释放四个步骤。游标分为静态、动态和键集驱动三类,各有适用场景。虽然游标支持精准控制单行操作,但会带来性能瓶颈和资源消耗,应优先考虑集合操作替代方案。面试需强调游标是最后手段,区分不同游标类型的适用性并提供优化技巧(如限制结果集大小)。在声明中,当查询包含计算列时会自动触发INSENSITIVE参数,生成静态结果集以确保数据一致性。

2025-08-21 11:04:26 531

原创 SQL中对视图的操作命令汇总

本文汇总了SQL视图的常用操作命令,包括创建、修改和删除视图。创建视图使用CREATE VIEW语句定义视图名称和查询表达式;修改视图可通过ALTER VIEW重新定义结构或使用图形工具调整;删除视图使用DROP VIEW永久移除。注意事项包括:视图是虚拟表不存储数据、部分视图修改受限、需具备相应操作权限。这些命令属于SQL数据定义语言(DDL),具体语法参考数据库系统文档。

2025-08-21 09:55:23 404

原创 SQL中对字符串操作的函数

摘要:SQL提供了多种字符串操作函数,包括SUBSTRING(从指定位置提取子串)、UPPER(转为大写)、LOWER(转为小写)和CONCAT(连接多个字符串)。这些函数可用于数据的转换和处理。

2025-08-20 16:49:01 231

原创 SQL中对时间操作的函数

本文汇总了SQL中常用的时间操作函数,按功能分为五类:获取当前时间(如CURDATE()、NOW())、提取时间部分(如YEAR()、MONTH())、时间计算(如DATE_ADD()、DATEDIFF())、时间格式化(如DATE_FORMAT()、TO_CHAR())以及实用场景示例。同时提醒注意数据库差异(如SQL Server用GETDATE())、时区处理和性能优化(避免在WHERE子句中使用函数)。适用于MySQL、SQL Server等多种数据库。

2025-08-20 11:53:13 548

原创 面试常考的 SQL 窗口函数汇总

本文汇总了SQL面试中常考的窗口函数,包括RANK()、DENSE_RANK()、ROW_NUMBER()、NTILE()、LAG()/LEAD()以及SUM()/AVG() OVER()等。通过基础语法讲解和典型例题演示,详细说明了各函数的功能特点、使用场景和面试考点,如排名计算、分组分桶、同比环比分析以及累计统计等。内容涵盖窗口函数的核心应用,帮助数据分析相关岗位求职者系统掌握这一SQL重要知识点,提升面试表现。

2025-08-20 11:50:11 699

原创 SQL中与rank相关的窗口函数汇总

SQL 中的 RANK 相关窗口函数用于数据排序和排名分析,主要包括 6 种函数:RANK()(允许并列并跳过后续排名)、DENSE_RANK()(允许并列但不跳过)、ROW_NUMBER()(生成连续唯一序号)、NTILE(n)(数据分组)、PERCENT_RANK()(计算百分比排名)和 CUME_DIST()(计算累积分布)。这些函数支持 PARTITION BY 分组操作,适用于各类数据分析场景,如绩效排名、数据分桶和分布分析等。不同函数适用于不同需求:RANK 适合需要跳过排名的场景,DENSE_

2025-08-20 11:46:51 639

原创 SQL查询语句的执行顺序

SQL查询的实际执行顺序与书写顺序不同:1) 首先执行FROM/JOIN确定数据源;2) WHERE进行行过滤;3) GROUP BY分组;4) HAVING过滤组;5) SELECT选择列和计算表达式;6) DISTINCT去重;7) ORDER BY排序;8) LIMIT限制行数。关键区别在于WHERE在分组前执行不能使用聚合函数,而HAVING可以;ORDER BY可使用SELECT定义的别名。理解执行顺序有助于编写正确高效的SQL查询。

2025-08-20 10:53:59 1118

原创 SQL四大类命令(DQL、DML、DDL、DCL)

SQL语言可分为四大类:DQL(数据查询,如SELECT)、DML(数据操作,如INSERT/UPDATE/DELETE)、DDL(数据定义,如CREATE/ALTER/DROP)和DCL(数据控制,如GRANT/REVOKE)。DQL用于查询数据,DML处理数据增删改,DDL管理数据库结构,DCL控制访问权限。每类包含特定命令及其应用示例,共同构成完整的数据库操作语言体系。(98字)

2025-08-20 10:21:33 393

原创 SQL语序

这篇SQL查询旨在找出2025年1月5日以来下单次数最多(超过2次)的客户。查询通过关联customers和orders表,筛选指定日期后的订单,按客户分组统计订单量,排除订单数≤2的客户,并按订单量降序排序返回第一名。结果将显示客户ID、姓名和订单总数,例如可能输出customer_id为123、名为Alice、订单数为5的客户记录。该查询综合运用了JOIN、WHERE、GROUP BY、HAVING、ORDER BY和LIMIT等SQL关键操作。

2025-08-11 09:58:50 336

原创 Python数据分析常规步骤整理

本文摘要: 《Python数据处理与机器学习全流程指南》系统介绍了从数据预处理到建模的完整流程。主要内容包括:1)数据清洗(缺失值处理、异常值检测、数据类型转换);2)数据预处理(特征编码、标准化、特征工程);3)数据分析(统计描述、分组聚合、相关性分析);4)可视化方法(Matplotlib基础图表、Seaborn高级图表);5)机器学习建模流程(逻辑回归、随机森林、XGBoost等模型的训练评估及超参数调优)。文档提供了详细的代码示例和注释,涵盖特征选择、模型评估、可解释性分析等关键环节,并给出了模型部

2025-08-10 22:38:23 654

转载 Spark

摘要:Spark是一个高效的大数据处理框架,其核心优势在于内存计算和丰富的计算场景支持。通过弹性分布式数据集(RDD)实现快速数据处理,RDD具有只读特性,通过转换操作生成新RDD,最终由Action触发计算。Spark采用DAG调度模型,根据宽窄依赖划分Stage,其中宽依赖涉及Shuffle操作。Spark支持多种运行模式(Standalone/onYARN),其中onYARN模式可复用现有Hadoop集群资源。任务执行时,Driver解析代码生成逻辑和物理计划,划分Task并调度到Executor执行

2025-08-09 15:27:41 40

转载 MapReduce

本文介绍了MapReduce分布式计算框架的基本原理和运行机制。MapReduce是Hadoop的核心组件之一,采用"分而治之"思想,分为map和reduce两个阶段:map阶段将计算任务分发到数据节点并行处理,reduce阶段对中间结果汇总。其核心特点是"计算向数据移动",具有良好的扩展性,适合海量数据离线批处理场景,如网页统计、搜索引擎索引构建等,但不适合实时计算和DAG运算。文章详细讲解了词频统计案例的执行流程,包括数据分块、map处理、shuffle阶段(关键

2025-08-09 14:49:28 53

转载 YARN分布式资源管理系统

YARN是Hadoop 2.x引入的分布式资源管理系统,解决了Hadoop 1.x中MapReduce既负责计算又管理资源的局限性。YARN采用主从架构,包含ResourceManager(主节点)和NodeManager(从节点),通过将资源管理与作业管理解耦,支持多种计算框架共享集群资源。YARN提供三种调度策略:FIFO(先进先出)、容量调度(多队列预分配资源)和公平调度(动态资源分配)。YARN还支持高可用机制,通过ZooKeeper实现ResourceManager的故障转移。运维方面可通过命令行

2025-08-09 14:05:47 75

转载 HDFS分布式文件系统(Hadoop Distributed File System)

那这节课呢,我们按照这几方面来讲:首先看一下HDFS的简介,认识一下HDFS;然后的话原理部分这一块,我们重点掌握它的架构部分;那在第三第四部分操作命令和运营管理这一块,我们看一下它怎么去使用。首先看一下简介部分:什么是HDFS?它有哪些优缺点?那什么是HDFS呢?我们在上节课其实也有一个基本认识了。HDFS,它的全称是Hadoop Distributed File System(Hadoop分布式文件系统),对吧?它是基于谷歌发表的Google File System(GFS)这篇论文的一个实现。

2025-08-09 13:26:55 151

转载 大数据技术入门精讲

源自B站视频up主“哈喽编程”

2025-08-09 11:43:12 77

原创 平台型电商购物数据的探索性分析

2024-12-16 08:32:46 123

原创 大数据技术基础(Hadoop、HDFS、HBase、NoSQL、MapReduce、Spark)

大量化、快速化、多样化、价值化数据量大、数据类型繁多、处理速度快、价值密度低Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。

2024-11-14 09:17:31 846

原创 pandas

【代码】pandas。

2024-11-12 17:26:48 131

原创 数据分析——确定分析指标(X,Y)

2024-11-10 18:49:53 76

原创 Python

有利于划分项目的功能模块内实现的函数可以提供给多人使用,提高了程序的复用性,关键字又叫保留字,是程序设计或开发者规定的具有特殊语义的符号。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。标识符由字符,数字与下划线组成,要求第一个字符不能是数字。字符不局限于26个英文字母,还包括中文字符或日文字符等。当多个模块组合形成稳定的功能提供给外界使用,也被称为库。标识符,就是作为类,方法/函数,变量等名字的符号。标识符不能与关键字重名。

2024-11-10 16:48:27 169

原创 数分一般步骤——数据清洗/预处理

【代码】数分一般步骤——数据清洗/预处理。

2024-10-27 21:37:45 275

原创 数据分析常规步骤(运营商客户流失分析)

实例化归一化处理器mms = MinMaxScaler()#这行代码创建了一个MinMaxScaler的实例,并将其存储在变量mms中。# 删除不需要的列# 使用归一化处理特定的列#fit_transform方法首先计算这些列的缩放比例,然后应用这些比例来缩放数据。# 显示处理后的前几行数据以检查df1.head()classifier.fit(x_train, y_train)#使用训练特征和标签来训练分类器。

2024-08-17 21:20:54 1053 5

原创 Python爬虫-xpath

2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。-1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。- 如何实例化一个etree对象:from lxml import etree。-2.可以将从互联网上获取的源码数据加载到该对象中。xpath解析:最常用且最便捷高效的一种解析方式。- xpath('xpath表达式’)

2024-08-12 15:39:53 202

原创 数据分析常规步骤(太空泰坦尼克号)

grid = {请挨个自学吧。。。。。。。

2024-08-12 15:39:42 1302

原创 Python爬虫-爬取三国演义文本数据-bs4

1.将本地的html文档中的数据加载到该对象中。- 2.将互联网上获取的页面源码加载到该对象中。-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中。先使用通用爬虫爬取页面所有数据,再解析标题内容。-2.提取标签、标签属性中存储的数据值。爬取三国演义文本数据。

2024-07-12 16:36:32 671

原创 Python爬虫-正则分页数据解析(先爬取整张页面再提取局部数据)-爬取糗图百科图片

【代码】Python爬虫-数据解析(先爬取整张页面再提取局部数据)

2024-07-12 09:06:22 483

原创 Python爬虫-局部数据提取-数据解析-聚焦爬虫

2024-07-10 22:24:34 233

原创 Python爬虫-requests模块

在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此商业机密等敏感内容需要及时停止爬取或传播。爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户。门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。抓取的是页面中特定的局部内容。3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品.- 时常的优化自己的程序,避免干扰被访问网站的正常运行。-爬虫抓取了收到法律保护的特定类型的数据或信息。抓取的是一整张页面数据。

2024-07-09 14:40:07 1179 1

原创 MySQL学习笔记

表中定义了几个字段,insert语句中就应该对应有几个值,插入顺序与表中字段顺序一致insert语句中字段名顺序可与表定义时的顺序不同,相应的插入的值的顺序也随着改变。

2024-05-06 18:45:33 314 1

原创 Python学习笔记——聚类算法:K-means、凝聚层次聚类、基于密度聚类

在单链接聚类中,两个聚类之间的链接距离是两个聚类中最接近的两个点的距离。在方阵中,行和列都代表城市,对角线上的元素是城市与自己之间的距离,非对角线上的元素是城市之间的距离。‘average’(平均链接):平均链接聚类中,两个聚类之间的链接距离是所有成对点的距离的平均值。‘complete’(完全链接):与单链接方法相反,完全链接聚类中,两个聚类之间的链接距离是两个聚类中最远的两个点的距离。K均值聚类是一种常见的无监督学习算法,用于将一组数据点分组,使得每个组内的数据点尽可能相似,而组间的数据点尽可能不同。

2024-04-23 21:41:53 2969

原创 Python学习笔记——关联规则(关联分析)

在超市的例子中,如果尿布和啤酒的提升度大于1,那么就说明购买尿布的顾客购买啤酒的概率大于这两个物品独立购买的概率。例如,在超市的数据中,关联分析可能会发现某些商品经常一起被购买,或者在特定的时间段某些商品的销售量会增加。比如,如果我们在所有的购物篮中查看,发现尿布和啤酒一起出现在80%的购物篮中,那么我们就说尿布和啤酒的支持度是80%。如果我们设置的最小支持度是50%,那么只有当尿布和啤酒一起出现在至少50%的购物篮中时,我们才认为这个组合是频繁的。关联分析的目的是找出数据库中的项目之间隐藏的关联性。

2024-04-22 23:03:04 4389 2

原创 Python学习笔记——进阶分类技术:管道函数、网格搜索、Optuna参数优化库、维度规约、单变量统计、自定义得分函数、过采样法

处理pos_label默认值不是1的情况pos_label指的是我们定义的正类标签,即我们希望在预测中优先关注的那个类别。score_func:分类性能函数**kwargsscore_func需要的参数例如,如果,那么**kwargs位置则可写%%time。

2024-04-22 16:18:07 1692 1

### 数据仓库基础与HIVE入门总结

内容概要:本文介绍了数据仓库的基础知识与HIVE入门相关内容。首先,文章详细阐述了数据仓库的起源、主要特征(面向主题、集成性、稳定性和时变性)、构建目的(支持管理决策)以及其与OLTP系统的主要区别。其次,文章讲解了数据仓库的组成部分,包括数据源、ETL(抽取、转换、加载)过程、数据集市、元数据及其管理,并解释了元数据在数据管理中的重要作用。此外,文中还介绍了数据仓库系统开发工具,如SQL Server分析服务、Oracle、IBM、SAS等公司的解决方案。最后,文章探讨了商业智能(BI)和数据挖掘与数据仓库之间的关系,强调了数据仓库作为BI基础的角色,以及数据挖掘在从数据中提取有价值信息方面的作用。 适用人群:具备一定计算机基础知识,尤其是对数据库有一定了解的人员,包括但不限于数据库管理员、数据分析师、数据科学家和从事大数据相关工作的工程师。 使用场景及目标:①理解数据仓库的概念及其与传统数据库的区别;②掌握数据仓库的主要特征和构建目的;③熟悉数据仓库的组成部分,特别是ETL过程和元数据管理;④了解数据仓库系统开发工具及其应用场景;⑤掌握商业智能和数据挖掘的基本概念及其与数据仓库的关系,以支持企业决策分析。 其他说明:本文内容详实,不仅涵盖了理论知识,还提供了丰富的实际案例,帮助读者更好地理解和应用数据仓库技术。对于希望深入了解数据仓库和大数据处理架构的人来说,这是一份非常有价值的参考资料。

2025-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除