自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 收藏
  • 关注

原创 中级统计师-经济学基础知识-第一章 经济学基础

需求量对价格变动的敏感度。

2025-06-04 21:25:11 557

原创 中级统计师-统计学基础知识-第八章 统计指数

A. 人民币购买力下降2% B. 货币贬值2% C. 100元消费等价于上年98元 D. 货币购买力指数102.04%A. 单位成本指数 B. 职工人数指数 C. 价格指数 D. 劳动生产率指数。:CPI为98.0(上年=100),正确的说法是(D):数量指数反映规模变动(如职工人数、产量、销售量):帕氏指数用报告期权数,物量指数以价格。:下列属于数量指数的是(B):帕氏物量指数公式是(D)

2025-06-02 16:26:32 663

原创 中级统计师-统计学基础知识-第七章 回归分析

指标/方法核心公式/定义平均发展水平时期序列:( \sum y_i / n );时点序列:加权平均法平均增长速度移动平均法指数平滑法{t-1} )季节指数不考虑趋势:( S_i = \frac{\bar{y}_i}{\bar{y}} );考虑趋势:先剔除趋势再计算。

2025-05-27 22:30:13 676

原创 中级统计师-统计学基础知识-第六章 回归分析

形式Yβ0β1X1β2X2⋯βkXkεYβ0​β1​X1​β2​X2​⋯βk​Xk​ε估计方程yβ0β1x1⋯βkxky​β​0​β​1​x1​⋯β​k​xk​指标一元回归多元回归模型形式Yβ0β1XεYβ0​β1​XεYβ0β1X1⋯βkXkεYβ0​β1​X1​⋯βk​。

2025-05-22 22:55:52 795

原创 中级统计师-统计学基础知识-第五章 相关分析

概念要点函数关系严格确定,yfxy = f(x)yfx相关关系非确定性,用散点图和 Pearson 系数度量检验ttt检验判断总体相关性,原假设ρ0\rho = 0ρ0因果关系需排除混杂变量,相关仅为必要条件非充分条件。

2025-05-21 21:32:46 807

原创 中级统计师-统计学基础知识-第四章 假设检验

检验饼干水分均值是否超标(

2025-05-18 21:01:56 823

原创 中级统计师-统计学基础知识-第三章 参数估计

μσ2πxˉs2p。

2025-05-18 10:00:38 832

原创 中级统计师-统计学基础知识-第二章数据描述

​用于比率或增长率数据(二)中位数定义:排序后处于中间位置的数值计算:奇数序列:第n+12\frac{n+1}{2}2n+1​个值偶数序列:第n2\frac{n}{2}2n​和n2+1\frac{n}{2}+12n​+1个值的平均特点:不受极端值影响,适用于顺序和数值型数据1.2 数据离散程度的测度指标公式特点极差(RRR)R=max⁡(xi)−min⁡(xi)R = \max(x_i) - \min(x_i)R=max(xi​)−min(xi​)

2025-05-17 16:03:34 613

原创 中级统计师-统计学基础知识-第一章 统计学和数据

2025-05-16 18:11:21 634

原创 大数据面试问答-数据湖

数据湖(Data Lake):以原始格式(如Parquet、JSON等)存储海量原始数据的存储库,支持结构化、半结构化和非结构化数据(如文本、图像)。采用Schema-on-Read模式,数据在读取时才定义结构,适合机器学习、探索性分析等场景。

2025-05-02 18:18:04 1487

原创 数据分析师-Part1-职业介绍

用数据讲故事,让决策更聪明”

2025-04-20 21:59:29 779 4

原创 大数据面试问答-NoSQL与MPP

HBase是构建在Hadoop HDFS之上的分布式NoSQL数据库,采用列式存储模型,支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景,如实时日志处理、在线交易等。RowKey(行键)定义:表中每行数据的唯一标识,类似于关系数据库的主键。特点:数据按 RowKey 的字典序全局排序。所有查询必须基于 RowKey 或范围扫描(Scan)。(用户ID + 订单ID)。Region(区域)

2025-04-16 21:20:09 895

原创 大数据面试问答-Kafka/Flink

分布式流数据平台,核心解决三大问题:高吞吐的实时数据管道:支持每秒百万级消息处理。持久化的消息队列:消息持久化到磁盘,支持多订阅者。流式数据处理:与 Flink/Spark Streaming 集成,实现实时计算。

2025-04-15 21:28:05 949

原创 大数据面试问答-批处理性能优化

列式存储格式:使用Parquet/ORC代替CSV/JSON,减少I/O并提升压缩率。列式存储减少I/O的核心机制:列裁剪(Column Pruning)原理:查询时只读取需要的列,跳过无关列。示例:若执行,只需读取Age列的数据块,而无需加载Name、City等列。节省效果:假设表有100列,仅读取1列时,I/O量减少99%。高效压缩(Compression)数据局部性:同一列的数据类型和值域相似,压缩效率更高。

2025-04-14 21:02:56 755

原创 大数据面试问答-Spark

"Apache Spark是一个基于内存的分布式计算框架,旨在解决Hadoop MapReduce在迭代计算和实时处理上的性能瓶颈。

2025-04-14 19:56:32 1278

原创 大数据面试问答-Hadoop/Hive/HDFS/Yarn

可分为 SQL解析阶段、语义分析阶段、逻辑计划生成阶段、逻辑优化阶段、物理计划生成阶段。SQL解析阶段词法分析(Lexical Analysis):使用Antlr3将SQL字符串拆分为有意义的token序列语法分析(Syntax Analysis):根据Hive语法规则构建抽象语法树(AST)语义分析阶段元数据验证:检查表、列是否存在,类型是否匹配隐式类型转换:如将字符串与数字比较时的自动转换UDF解析:确定用户定义函数的实现类权限验证:检查用户是否有执行该查询的权限。

2025-04-13 09:44:00 1029

原创 CDA数据分析师一级

R:recency最近一次消费:基于当前时点,统计用户最近一次消费时点和当前时点的时间差,F:frequency消费频次:指定时间区间内统计用户的购买次数;本文用于记录备考CDA数据分析师一级的常错概念及考点。M:money指定时间区间内统计用户的消费总金额;是衡量客户价值和客户创利能力的重要工具和手段;饼图和环形图和南丁格尔玫瑰图。油量表和圆环百分比进度图。折线图和面积图和柱状图。堆积图和百分比堆积图。

2023-11-01 15:47:48 381

原创 证券从业资格证-考前复习-证券市场基本法律法规

此博客用于记录本科目内,部分涉及金额和年限的语句,进行总结记录。

2023-06-01 09:30:30 1060

原创 证券从业资格证-考前复习-金融市场基础知识

1 、金融市场是要素市场的一种 2 、金融市场是创造和交易金融资产的市场 3 、金融市场是以金融资产为交易对象而形成的供求关系和交易机制的总和 4 、金融市场参与者进行金融资产交易的场所资本市场是长期金融市场或长期资金市场,是为一年以上资本性或准资本性融资产品提供发行和交易服务的有形或无形的市场总和。资本市场包括股票及衍生品市场、债券及衍生品市场、中长期资金借贷品市场;广义的资本市场还包括为国民经济发展和企业经营运行发挥稳定作用的期货市场场内市场。

2023-05-01 18:16:24 26255

原创 LeetCode13罗马数字转整数

LeetCode13罗马数字转整数

2023-01-25 21:17:51 1294

原创 LeetCode9回文数

在此记录一下LeetCode9回文数的解题思路和答案

2023-01-25 18:19:17 269

原创 java入门笔记

Java入门笔记

2023-01-24 22:53:04 1595 2

原创 数据开发面试问题记录

因作者近期正在投递数据开发岗位,所以会在此记录一些面试过程中的问题,持续更新,直到入职新公司为止

2023-01-18 14:13:08 5020 2

原创 python实现excel和csv中的vlookup函数

python实现excel和csv中的vlookup函数

2023-01-14 22:13:31 1471 1

原创 2022年终总结

2022年终总结

2023-01-02 00:11:07 1163 6

原创 猿如意使用测评

猿如意使用测评

2022-12-25 11:01:29 1509 1

原创 python中pandas进行数据分析与可视化(3)

python中pandas进行数据分析与可视化(3)

2022-12-18 17:08:32 906 1

原创 python中pandas进行数据分析与可视化(2)

python中pandas进行数据分析与可视化(2)

2022-12-15 22:11:28 334 1

原创 python中pandas进行数据分析与可视化(1)

python中pandas进行数据分析与可视化(1)

2022-12-14 20:47:22 1140

原创 python中nmupy获取本地数据和索引

python中nmupy获取本地数据和索引

2022-12-07 21:49:02 417

原创 python中numpy数组形状和计算

python中numpy数组形状和计算

2022-12-03 11:52:44 2983

原创 python中numpy创建数组

python中numpy创建数组

2022-12-02 22:30:47 1110

原创 python数据分析-matplotlib可视化

使用python中的matplotlib可视化

2022-11-30 21:13:36 2428

原创 excel笔记

excel总结小经验

2022-11-27 22:57:38 1094

原创 python中urllib库的使用

python爬虫

2022-11-24 21:55:58 1349

原创 PMP考前冲刺

PMP考前冲刺

2022-11-22 20:08:26 1902

原创 使用python中的pandas对csv文件进行拆分

使用pandas高效切分大型csv文件

2022-09-09 21:36:44 8119 8

原创 前端页面结构简单介绍

使用python进行爬虫的前置条件,熟悉前端页面结构

2022-09-08 20:46:10 1449

原创 使用python处理文件

使用python处理文件

2022-09-08 18:23:47 1305

原创 mysql中EXPLAIN命令解析

mysql中explain命令解析

2022-09-01 21:06:23 601

CDA数据分析师 LEVEL1

CDA数据分析师 LEVEL1

2023-11-01

python中nmupy获取本地数据和索引-US-video-data-numbers

python中nmupy获取本地数据和索引博客里,所使用到的数据源,一共四列,分别表示【阅读量】、【喜欢量】、【不喜欢量】、【评论量】

2022-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除