
数据分析
文章平均质量分 95
数据+作图+数学+算法+代码+实战
noobiee
一般路过的普通学生
展开
-
(业务向) 数据分析知识 + 产品
指标,是反映某种事物或现象,描述在一定时间和条件下的规模、程度、比例、结构等概念,通常由指标名称和指标数值组成.简单计数型指标:指可通过重复加1这一数学行为而获得数值的指标,如UV(Unique Visit , 独立访客数)、PV(Page View,页面浏览量)复合型指标:由简单计数型指标经四则运算后得到的,如跳出率、购买转化率,MAU月活跃用户数,CTR=点击UV/曝光UV,用户留存率=继续的用户/新增用户数,ARPU每用户平均收入(1)按场景拆分成多个子指标的和DAU日活跃用户。...原创 2023-06-01 12:19:43 · 1104 阅读 · 0 评论 -
SPC 统计过程控制
根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。,将生产过程中抽象的“人机料法环测”的表现进行量化、可视化、可追踪过程中的变差,即将现实的问题转化为统计学的问题,找到统计学的解决办法,再转化为现实的解决路径并实践;进行分析评价,根据反馈信息及时发现系统性因素出现的征兆,并采取措施消除其影响,使过程维持在仅受随机性因素影响的受控状态,以达到控制质量的目的。T公差=规格上限(USL) - 规格下限(LSL), σ=样本的标准差。原创 2022-11-14 11:12:40 · 5823 阅读 · 0 评论 -
【机器学习】异常检测
异常检测实际案例:网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。时间序列的异常又分为点异常和模式异常。对于一个新观测值进行判断: 离群点检测: 训练数据包含离群点,即远离其它内围点。离群点检测估计器会尝试拟合出训练数据中内围点聚集的区域, 会忽略有偏离的观测值。 新奇点检测: 训练数据未被离群点污染,我们对新观测值是否为离群点感兴趣。在这个语境下,离群点被认为是新奇点。离群点检测 也被称之为 无监督异常检测; 而 新奇点检测 被称之为 半监督异常检测。 在离群点检原创 2022-10-28 11:48:50 · 10974 阅读 · 2 评论 -
【Python】时间序列分析
同时,小值样本可能存在更大的误差,比如真实值是1,预测值是2,这偏差就是100%了,小样本本来就噪声大。但是时间序列分析的数据结构有它的特殊性,对随机序列而言,在任意时刻t的序列值Xt都是一个随机变量,而且由于时间的不可重复性,该变量在任意时刻只能获得唯一的样本观测值。对于ARIMA模型,其残差被假定为高斯白噪声序列,所以当我们用ARIMA模型去拟合数据时,拟合后我们要对残差的估计序列进行LB检验,判断其是否是高斯白噪声,如果不是,那么就说明ARIMA模型也许并不是一个适合样本的模型。原创 2022-10-27 18:39:49 · 7067 阅读 · 0 评论 -
数据分析-时空分析
Knox方法基于临界空间和时间距离量化时空相互作用。测试统计量X是那些相距小于临界空间和时间距离的案例对的计数。当存在交互时,成对的案例将彼此接近,并且测试统计将很大。Knox设计了这种方法来考虑潜伏期。潜伏期是从暴露到症状出现之间的时间。如果你怀疑一种潜伏期为3天的疾病,将时间临界距离设置得足够长,以允许症状出现,比如4天或5天。 ST-DBSCAN 以地理位置距离作为半径,时间范围作为高,在空间画圆柱,进行密度聚类检测异常点。使用KDTree,BallTree,Faiss进行近邻检索加速。原创 2022-10-21 09:26:03 · 2260 阅读 · 0 评论 -
数据预处理、数据工程 + 代码
调整原始分布趋于正态分布1. 原因单变量正态性虽然不能保证多变量的正态性,但是它是有帮助的。并且一般解决了正态性问题的话,就可以解决异方差或者线性度的问题。而且很多模型假设数据服从正态分布后,它的样本均值和方差就相互独立,这样就能更好的进行统计推断和假设验证。2. 如何调整数据右偏的话可以对所有数据取对数、取平方根等,它的原理是因为这样的变换的导数是逐渐减小的,也就是说它的增速逐渐减缓,所以就可以把大的数据向左移,使数据接近正态分布。 如果左偏的话可以取相反数转化为右偏的情况。通常来..原创 2022-10-08 12:24:52 · 1069 阅读 · 0 评论 -
R语言入门
rio 包支持多种文件格式,包括 SAS、SPSS、Stata、Excel、MATLAB、Minitab 等其他软件中使用的数据文件格式。工作空间(workspace)就是 R 的工作环境,所有创建的对象都被临时保存在工作空间(也可称为全局环境,.GlobalEnv)中。:即分类变量,名义型变量是没有顺序关系的分类变量,有序型变量是有层级和顺序关系的分类变量。txt或csv文件:write.table( ) 和 write.csv( )函数简化了用户导入和导出数据的工作。数据类型的判断与转换函数。原创 2022-10-07 23:24:05 · 1416 阅读 · 0 评论 -
【统计】假设检验方法
由统计量反推得到方差齐性指不同组间的总体方差是一样的。而方差分析的前提是要组间的总体方差保持一致。先想想方差分析是做什么呢?方差分析是用来比较多组之间均值是否存在显著差异。那如果方差不一致,也就意味着值的波动程度是不一样的,如果此时均值之间存在显著差异,不能够说明一定是不同组间处理带来的,有可能是大方差带来大的波动;如果方差一样,也就意味着值的波动程度是一样的,在相同波动程度下,直接去比较均值,如果均值之间存在显著差异,那么可以认为是不同组间处理带来的。两组方差的比,用较大一组的方差除较小一组的方差,最后得原创 2022-09-30 11:37:23 · 7746 阅读 · 0 评论 -
Python可视化分析
关键词 Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh 简介 - pyecharts - A Python Echarts Plotting Library built with love.Plotly'sployly常用的两个绘图模块:graph_objs(go)和express(px)原创 2022-09-28 11:29:12 · 2374 阅读 · 0 评论 -
机器学习算法- 数据分析、数据挖掘、算法
聚类分析又叫群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。1. 算法K-means聚类、K-中心点聚类、CLARANS算法(基于随机选择), DIANA算法(自顶向下层次聚类算法)、BIRCH算法、Chameleon算法EM算法 (最大期望算法)OPTICS算法、DBSCAN算法 (基于密度)2. 聚类原理2.1. 相似性衡量(similarity measurement)(1)距离。......原创 2022-08-08 16:07:53 · 1806 阅读 · 0 评论 -
数据可视化
d3.js使用Web标准做数据可视化的JavaScript库。 D3帮助我们使用SVG, Canvas 和 HTML技术让数据生动有趣。 D3将强大的可视化,动态交互和数据驱动的DOM操作方法完美结合,让我们可以充分发挥现代浏览器的功能,自由的设计正确的可视化界面。svg与canvassvg是及其形状都是标签形式的,就像提供了很多各种形状,你选择图形给上贴。而且每个形状都支持事件以及属性。canvas是给你一个画板,给你一个笔,调api绘制来绘制图形。svg可以很轻松的捕捉鼠标事件,..原创 2022-05-08 17:30:30 · 749 阅读 · 0 评论 -
概率论、统计
PMF,PDF,CDF随机变量的分布 Bernoulli Distribution Binomial DistributionX ~Bin(n, p)Binomial if np > 5 and n(1-p) > 5. – Poisson if λ > 5 Geometric Distribution 直到最后一次成功一次 Negative Bi...原创 2022-05-01 22:27:30 · 4897 阅读 · 1 评论