- 博客(109)
- 收藏
- 关注
原创 窗口函数复习笔记
窗口函数不聚合,能保留每一行的数据,同时对其进行分析。同比,指当前时间段与去年同一时期。环比,当前时间段与上一个时间段。计算环比、同比等指标。
2025-01-03 06:00:00
312
原创 ETL处理工具Kettle入门
Kettle(现已更名为Pentaho Data Integration,简称PDI)是一个开源的ETL工具,能够进行数据的抽取(Extract)、转换(Transform)和加载(Load)。它是由图形化界面支持的,能够从不同的数据源中获取数据,进行清洗和转换,最后将数据加载到目标系统中。
2025-01-02 00:02:06
460
原创 窗口函数知识点
- 使用 FIRST_VALUE() 和 LAST_VALUE() 获取分组内的第一和最后一条销售记录SELECTid,salesperson_id, -- 销售人员IDsale_date, -- 销售日期amount, -- 销售金额FIRST_VALUE(amount) OVER (PARTITION BY salesperson_id ORDER BY sale_date) AS first_sale, -- 获取分组内的第一条销售记录。
2025-01-01 22:49:28
247
原创 贝叶斯决策
某地区居民的肝癌发病率为 0.000 4,现用甲胎蛋白法进行普 查.医学研究表明,化验结果是存有错误的.已知惠有肝癌的人其化验结果 99% 呈阳性(有病),而没患肝癌的人其化验结果 99.9% 呈阴性 (无病).现某人的检 查结果呈阳性, 问他真的患肝癌的概率是多少?先验概率是根据先验知识或经验估计出的某事件发生的概率,即。指事件 A在另一个事件 B已经发生的条件下发生的概率。后验概率是在观察到新的数据或证据后更新的概率,即。的情况下,计算反向条件概率。同时发生的概率除以事件。
2024-11-25 02:49:01
991
原创 【西瓜书笔记】第二章
回归看误差(MSE),分类看准确率、查准率和查全率,综合用 F1 或 AUC 评价模型好坏。:由偏差、方差和噪声共同决定。调整模型复杂度和归纳策略可以优化泛化性能。F1 值:查准率和查全率的综合得分,F1 值越高(接近 1),模型越好。:ROC 曲线下的面积,0.5 表示随机猜测,越接近 1 模型越好。P-R 曲线:曲线靠近右上角(既高查准率又高查全率)。ROC 曲线:展示模型在不同阈值下的性能。
2024-11-17 18:13:10
362
原创 常见机器学习算法及总结
信息熵(不确定性)低 一致性高。新参=旧参-学习率*导数。离散点 减少极端值影响。边界分界面 决策分界面。决策条件 类似二叉树。增加做错的部分注意度。
2024-11-17 18:09:09
173
原创 力扣100题解及笔记 图论
最小生成树(p和k)、最短路径(d)hot100没有涉及。邻接矩阵(二维矩阵)、邻接表(数组 + 链表)拓扑:一系列依赖关系,有向图转成线性的排序。通过拓扑排序判断此课程安排图是否是有向无环图。广搜:二叉树层序遍历,一般用队列,原理通用。深搜:二叉树递归遍历、回溯等等,原理通用。详细的去看离散数学,以下快速回忆概念。并查:两个元素在不在同一个集合。为什么用广搜,因为相邻的。有向图、无向图、加权图。1 ->马上想到拓扑。
2024-09-22 00:33:39
404
原创 力扣100及题解 滑动窗口&子串
要找的子数组的和是 k,要找的子数组的前缀和应该是 sum - k。前缀和ps是数组中从第一个元素开始,到当前元素为止所有元素的和。适用于求子数组或子串的最大值、最小值或满足某些条件的长度等。在给定字符串中,寻找没有重复字符的最长子串。子串:连续的字符片段。给定一个数组,找到所有长度为。所有字符的最短子串。的滑动窗口的最大值。
2024-09-19 21:29:37
1024
原创 力扣100题解及笔记 栈
单调栈:栈中保留的都是比当前入栈元素大的值,从栈顶到栈底 的元素是单调递增快速找到一个元素旁边第一个比它大或者比它小的元素用一个栈来记录遍历过的元素下标i,本质是空间换时间。
2024-09-17 12:39:57
444
原创 java引用、容器及API
keySet()、values()、entrySet()返回键、值、键值对的集合。Entry<K,V>,entrySet()的返回值也是返回一个Set集合。get(key) 获得对应值、remove(key) 删除对应值。put(key,value)键已存在,则更新对应的值。clear、isEmpty、size键值对的清空、数量。字符串转换为字符数组。底层是基于链表实现的(循环双向链表),查找慢、增删快。底层是基于数组实现的,查找快,增删较慢。value 是无序的、可重复的。key 是无序的、不可重复的。
2024-09-16 19:47:47
386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人