自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 HQL使用技巧

善用union all,多表union all会优化成一个MR job,但在使用union all聚合时,由于聚合函数、分组会使MR job数增加,消除子查询内的group by、巧用中间表(临时表、单独处理子查询内的Join等能起到的效果。此时,由于使用了distinct,因此在Map阶段不能用combine对输出结果驱虫,必须将author_id作为Key输出,在Reduce阶段再对来自于不同Map Task、相同Key的结果去重。桶表抽样是一种桶表进行优化的抽样。

2023-09-19 15:24:18 294

原创 一些战略分析报告的思路

视频行业探索类-某类视频内容结构的探索整体思路:对属于该类型的腰部、头部作者进行全方位分析维度:渠道(不同APP),作品细分类型指标:原子指标——供给(作品/作者数量)、消费(视频消费情况)派生指标——占比、日发文、日活跃作则结构化体现:发文结构、消费结构、入驻结构探索:渠道上探索不同渠道的结构差异,作品类型上探索是否存在某一细分类型的缺失策划类-视频范式策划背景balabalaWhy为什么要做?收益点在哪里?可以做:比如先验信息证明能做,逻辑上用户愿意接受,成本上可以接受做

2022-07-12 20:24:19 189

原创 机器学习—模型公平性

机器学习—模型公平性目录机器学习—模型公平性一、公平性评价指标1.有哪些常见、常用的公平性指标?如何计算?1.0 公平的定义1.1 针对二分类模型、二值字段分群1.2 针对二分类模型、多值字段分群1.3 针对回归模型、二值字段分群1.4 针对回归模型、多值字段分群二、偏差缓解算法一、公平性评价指标  如何评价一个机器学习模型对于群体的公平性从选择率和错误率(包括丰富的子组公平性)导出的组公平性度量的综合集合全面的样本失真度量集广义熵指数(Speicher等人,2018)差异公平和偏差放大(Fo

2022-06-11 20:29:56 1529

原创 异常数据分析

数据异常分析文章目录数据异常分析如何确定异常数学上实战中探索异常的原因首先确定数据是否准确判断已知动作是否带来影响,计算影响量级对异常指标拆解定位量化角度常见指标根因分析(Root Cause Analysis)算法控制替代法连环替代法控制替代法超均贡献计算法1.贡献度计算公式2.超均贡献度的解释性综合贡献计算法1.问题提出2 计算公式3 案例说明MDRCA(Multi-Dimensional Root Cause Analysis)算法1算法背景2原理介绍异常检测算法原理天级异常检测1 预研选择2 异常

2022-03-21 20:56:34 2462

原创 sql基础知识查漏补缺

日期函数日期差DATEDIFF() 函数返回两个日期之间的天数 DATEDIFF(enddate,startdate)增删改增加数据INSERT INTO 语句用于向表格中插入新的行。INSERT INTO table_name VALUES (值1, 值2,....)指定所要插入数据的列:INSERT INTO table_name (列1, 列2,...) VALUES (值1, 值2,....)SELECT INTO 语句从一个表中选取数据,然后把数据插入另一个表中。常用于

2022-03-15 10:35:27 453

原创 力扣刷题_栈

【简单】 用两个栈实现队列题目链接思路:双栈可以实现列表倒序,倒序后,stack_out执行出栈则相当于删除了stack_in的栈底元素,即对应队首元素class CQueue: def __init__(self): self.stack_in = [] self.stack_out = []#创建两个空栈 def appendTail(self, value: int) -> None: self.stack_in.app.

2022-03-14 19:45:53 113

原创 数据分析工作前瞻

数据分析工作前瞻统计检验因果分析一、RCT(随机试验)1概述随机试验是一种最常用的方法,我们在工作中常用的A/B test就是随机试验的一种。RCT最重要的就是找一个好的问题(可以测量、精确性),这需要可以量化的因变量和自变量控制变量后精确的试验环境猜测可能的因果关系在开启A/B test前可以考虑先进性AAtest,其作用可以参考这篇文章AB test 中的AA test有什么作用?在做实验后,除了记录我们关心的自变量和因变量,我们还要关注其他变量,理由如下:验证试验的随机性

2022-03-07 09:51:38 3543

原创 记录自己在学校服务器上配置R

在学校服务器上运行R最近由于导师的要求,需要在学校的服务器上去跑R,但是由于没有管理员权限,安装起来异常的麻烦。终于在昨天协商好,可以用管理员的账号配置相关环境,所以先在自己的虚拟机上去配置一下,以防万一。sudo apt install r-base报错apt时出现如下问题:Could not get lock /var/lib/dpkg/lock-frontend - open说明之前使用apt时出现异常,没有正常关闭,还在运行。解决,使用ps 和 grep查找apt的pid,并使用kill

2021-07-27 09:46:02 2047 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除