- 博客(87)
- 收藏
- 关注
原创 中级统计师-统计学基础知识-第八章 统计指数
A. 人民币购买力下降2% B. 货币贬值2% C. 100元消费等价于上年98元 D. 货币购买力指数102.04%A. 单位成本指数 B. 职工人数指数 C. 价格指数 D. 劳动生产率指数。:CPI为98.0(上年=100),正确的说法是(D):数量指数反映规模变动(如职工人数、产量、销售量):帕氏指数用报告期权数,物量指数以价格。:下列属于数量指数的是(B):帕氏物量指数公式是(D)
2025-06-02 16:26:32
663
原创 中级统计师-统计学基础知识-第七章 回归分析
指标/方法核心公式/定义平均发展水平时期序列:( \sum y_i / n );时点序列:加权平均法平均增长速度移动平均法指数平滑法{t-1} )季节指数不考虑趋势:( S_i = \frac{\bar{y}_i}{\bar{y}} );考虑趋势:先剔除趋势再计算。
2025-05-27 22:30:13
676
原创 中级统计师-统计学基础知识-第六章 回归分析
形式Yβ0β1X1β2X2⋯βkXkεYβ0β1X1β2X2⋯βkXkε估计方程yβ0β1x1⋯βkxkyβ0β1x1⋯βkxk指标一元回归多元回归模型形式Yβ0β1XεYβ0β1XεYβ0β1X1⋯βkXkεYβ0β1X1⋯βk。
2025-05-22 22:55:52
795
原创 中级统计师-统计学基础知识-第五章 相关分析
概念要点函数关系严格确定,yfxy = f(x)yfx相关关系非确定性,用散点图和 Pearson 系数度量检验ttt检验判断总体相关性,原假设ρ0\rho = 0ρ0因果关系需排除混杂变量,相关仅为必要条件非充分条件。
2025-05-21 21:32:46
807
原创 中级统计师-统计学基础知识-第二章数据描述
用于比率或增长率数据(二)中位数定义:排序后处于中间位置的数值计算:奇数序列:第n+12\frac{n+1}{2}2n+1个值偶数序列:第n2\frac{n}{2}2n和n2+1\frac{n}{2}+12n+1个值的平均特点:不受极端值影响,适用于顺序和数值型数据1.2 数据离散程度的测度指标公式特点极差(RRR)R=max(xi)−min(xi)R = \max(x_i) - \min(x_i)R=max(xi)−min(xi)
2025-05-17 16:03:34
613
原创 大数据面试问答-数据湖
数据湖(Data Lake):以原始格式(如Parquet、JSON等)存储海量原始数据的存储库,支持结构化、半结构化和非结构化数据(如文本、图像)。采用Schema-on-Read模式,数据在读取时才定义结构,适合机器学习、探索性分析等场景。
2025-05-02 18:18:04
1487
原创 大数据面试问答-NoSQL与MPP
HBase是构建在Hadoop HDFS之上的分布式NoSQL数据库,采用列式存储模型,支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景,如实时日志处理、在线交易等。RowKey(行键)定义:表中每行数据的唯一标识,类似于关系数据库的主键。特点:数据按 RowKey 的字典序全局排序。所有查询必须基于 RowKey 或范围扫描(Scan)。(用户ID + 订单ID)。Region(区域)
2025-04-16 21:20:09
895
原创 大数据面试问答-Kafka/Flink
分布式流数据平台,核心解决三大问题:高吞吐的实时数据管道:支持每秒百万级消息处理。持久化的消息队列:消息持久化到磁盘,支持多订阅者。流式数据处理:与 Flink/Spark Streaming 集成,实现实时计算。
2025-04-15 21:28:05
949
原创 大数据面试问答-批处理性能优化
列式存储格式:使用Parquet/ORC代替CSV/JSON,减少I/O并提升压缩率。列式存储减少I/O的核心机制:列裁剪(Column Pruning)原理:查询时只读取需要的列,跳过无关列。示例:若执行,只需读取Age列的数据块,而无需加载Name、City等列。节省效果:假设表有100列,仅读取1列时,I/O量减少99%。高效压缩(Compression)数据局部性:同一列的数据类型和值域相似,压缩效率更高。
2025-04-14 21:02:56
755
原创 大数据面试问答-Spark
"Apache Spark是一个基于内存的分布式计算框架,旨在解决Hadoop MapReduce在迭代计算和实时处理上的性能瓶颈。
2025-04-14 19:56:32
1278
原创 大数据面试问答-Hadoop/Hive/HDFS/Yarn
可分为 SQL解析阶段、语义分析阶段、逻辑计划生成阶段、逻辑优化阶段、物理计划生成阶段。SQL解析阶段词法分析(Lexical Analysis):使用Antlr3将SQL字符串拆分为有意义的token序列语法分析(Syntax Analysis):根据Hive语法规则构建抽象语法树(AST)语义分析阶段元数据验证:检查表、列是否存在,类型是否匹配隐式类型转换:如将字符串与数字比较时的自动转换UDF解析:确定用户定义函数的实现类权限验证:检查用户是否有执行该查询的权限。
2025-04-13 09:44:00
1029
原创 CDA数据分析师一级
R:recency最近一次消费:基于当前时点,统计用户最近一次消费时点和当前时点的时间差,F:frequency消费频次:指定时间区间内统计用户的购买次数;本文用于记录备考CDA数据分析师一级的常错概念及考点。M:money指定时间区间内统计用户的消费总金额;是衡量客户价值和客户创利能力的重要工具和手段;饼图和环形图和南丁格尔玫瑰图。油量表和圆环百分比进度图。折线图和面积图和柱状图。堆积图和百分比堆积图。
2023-11-01 15:47:48
381
原创 证券从业资格证-考前复习-金融市场基础知识
1 、金融市场是要素市场的一种 2 、金融市场是创造和交易金融资产的市场 3 、金融市场是以金融资产为交易对象而形成的供求关系和交易机制的总和 4 、金融市场参与者进行金融资产交易的场所资本市场是长期金融市场或长期资金市场,是为一年以上资本性或准资本性融资产品提供发行和交易服务的有形或无形的市场总和。资本市场包括股票及衍生品市场、债券及衍生品市场、中长期资金借贷品市场;广义的资本市场还包括为国民经济发展和企业经营运行发挥稳定作用的期货市场场内市场。
2023-05-01 18:16:24
26255
python中nmupy获取本地数据和索引-US-video-data-numbers
2022-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人