- 博客(41)
- 收藏
- 关注
原创 【数据开发】埋点体系的讲解 - 埋点方式、原理、优缺点
随着业务的不同阶段,所需要的方案和对数据的精度、准度是不一样的,在设计、部署方案的同时,还受不同的终端、系统(iso/windows等)、防护机制等等影响。只有合理设计方案,才能构建匹配业务发展、高效的数据体系。
2025-05-16 14:56:55
998
原创 【Python】API常用的调用方式解析
在数据开发中,调用API是连接外部服务、获取数据或实现系统集成的核心方式之一。最近由于阿里云ODPS安全限制问题,处理了一批API调用的任务,所以从原理、案例和优缺点等维度,写一写python调用API的常用方式介绍。
2025-05-08 11:26:24
826
原创 【SQL】COUNT... FILTER 的适用场景
COUNT(*) FILTER (WHERE …) 通过语法精简与执行优化,显著提升了条件统计的效率与可维护性。尤其在 PostgreSQL 和 Spark 生态中,是多维分析的推荐实践,对于需兼容传统数据库的场景,可通过 CASE WHEN 平稳过渡即可。
2025-04-14 17:12:20
1071
原创 【SQL】MySql常见的性能优化方式
优化方向常用方法适用场景优势劣势索引优化联合索引、覆盖索引高频查询较大提升查询速度增加写入开销,需定期维护SQL语法优化分页优化、避免全表扫描复杂查询或大数据量分页简单,减少资源消耗统一约定规范配置与架构优化参数调优、分库分表高并发或超大规模数据提升系统吞吐量复杂度高存储与硬件SSD、内存升级I/O密集型或预算充足的环境成本高,需停机维护监控和人力成本高。
2025-04-11 16:51:53
1111
原创 【SQL】常见SQL 行列转换的方法汇总 - 精华版
- 近期参加了数据岗位的一些面试(如下图:近几年的面试数据),非常多的同学在简历上会写熟悉、精通SQL,但一旦进行原理性(对应数据开发岗)或者实操性(数据分析、数据产品岗)的沟通和测试,往往表现的不尽如人意。所以打算再开一个【SQL】的专栏,分享一些SQL的知识和技巧。
2025-04-11 16:16:36
1204
原创 【SQL】基于多源SQL 去重方法对比 -- 精华版
近期参加了数据岗位的一些面试,非常多的同学在简历上会写熟悉、精通SQL,但一旦进行原理性(对应数据开发岗)或者实操性(数据分析、数据产品岗)的沟通和测试,往往表现的不尽如人意。所以打算再开一个【SQL】的专栏,分享一些SQL的知识和技巧。
2025-04-10 17:41:39
1627
原创 【Python】图片加水印 - 无损高清 - 性能强劲版
在技术课程、文案处理创作中,本着分享的初心,但经常遇到辛苦创作的内容被拿去售卖的情况,因此为图片添加水印是保护版权和增加抄袭成本的有效手段。本文基于Python的Pillow库,提供【无损高清水印】的方案,支持透明度调节与批量处理,确保输出画质不受损。
2025-04-09 17:19:39
600
原创 【Python】分析图标可视化visualization - 详解 2期
【Python】分析图标可视化visualization - 详解 2期】1期大家反馈较好, 2期咱们继续研究和分享。
2025-04-09 08:15:00
517
原创 【Python】分析图标可视化visualization - 详解 1期
- 在大数据时代,优秀的数据可视化图表分析能帮助开发者、业务决策者快速洞察数据规律,了解业务全貌- 📈本文详细介绍可视化图表的常见案例和分析操作
2025-04-08 16:02:24
488
原创 【Python】Python 100题 分类入门练习题 - 新手友好
【代码】【Python】Python 100题 分类入门练习题 - 新手友好 - 整合篇。
2025-04-08 15:22:01
2975
2
原创 【Python】贝叶斯,条件概率是怎么回事儿
贝叶斯定理是概率论中的核心公式,用于计算在已知某些条件下事件发生的后验概率,即我们常说的条件概率(面试会考哦):P(A∣B) 是后验概率(已知B发生时的A概率)P(B∣A) 是似然概率(已知A发生时B的条件概率)P(A) 是先验概率(A的独立发生概率)P(B) 是边际概率(B的总发生概率)
2025-04-06 14:53:33
751
原创 【Python】决策树算法全解析:原理、实现与对比
决策树是一种基于树结构的监督学习算法,【核心思想】是通过特征属性的判断逐步将数据分配到不同的子节点,最终在叶节点输出分类或回归结果。三大经典算法包括:ID3,C4.5,CART
2025-04-03 15:54:21
1011
原创 【Python】KNN:K-NearestNeighbor 学习指南
KNN是机器学习分类技术中最简单方法之一,属于监督学习范畴。K最近邻,就是k个最近的邻居的意思,即每个样本都可以用它最接近的k个邻居来代表。因此KNN算法的结果很大程度取决于K的选择。
2025-04-02 18:22:02
442
原创 【GitLab + IntelliJ IDEA 完整配置流程(收藏版)】
GitLab + IntelliJ IDEA 完整配置流程(收藏版)
2025-03-11 15:35:58
1120
原创 【Python】主成分分析PCA - 算法、问题与Python实现
主成分分析PCA,旨在利用降维的思想,把多指标转化为少数几个综合指标。常用于数据压缩,比如图像处理领域的 KL 变换就使用 PCA 做图像压缩,通过将高维数据映射到低维空间,实现数据量的减少;在特征提取方面,能够帮助找出数据中最具代表性的特征,去除一些冗余或者相关性较强的特征;同时也是数据预处理的有效手段,可简化后续数据分析、建模等操作流程。
2024-12-19 16:46:01
1970
原创 【Python】线性回归:原理、问题看懂这篇就够了
最小平方函数对一个或多个自变量和因变量之间关系进行建模,表达某一个随机变量的条件均值与一个或多个解释变量的相关取值之间的关系,表达式为(其中误差服从均值为 0 的正态分布)。
2024-12-19 16:18:02
2944
原创 【DSL】ES+DSL 查询语法
本文介绍了Elasticsearch(DSL)的查询语法,包括关键字、标识符、表达式等基本概念,以及查询、过滤和聚合等常见操作。提供了MatchQuery、BoolQuery和AggregationQuery等示例,帮助读者理解和掌握DSL查询技巧。
2023-07-06 17:07:58
18633
1
原创 【R语言】循环遍历机制 :for、purrr::map、apply、repeat、while、迭代器等
【R语言】循环遍历机制 :for、purrr::map、apply、repeat、while、迭代器等
2022-12-09 16:56:33
7339
原创 【Python】基础习题100例(76-100例)_努力做最通俗易懂版本
前言:Python 100个小测试,用于熟悉和巩固Python基础例题地址:https://www.runoob.com/python/python-100-examples.html在这里插入代码片76-100题如上,大家有什么疑问可以留言讨论。题外话希望本文有大家有帮助, 如有错误,欢迎指正。转载请注明原文链接:https://blog.youkuaiyun.com/weixin_41613094/article/details/122132033...
2022-01-01 17:03:15
779
原创 【Python】基础习题100例(51-75例)_努力做最通俗易懂版本
前言:Python 100个小测试,用于熟悉和巩固Python基础例题地址:https://www.runoob.com/python/python-100-examples.html在这里插入代码片51-75题如上,大家有什么疑问可以留言讨论。题外话希望本文有大家有帮助, 如有错误,欢迎指正。转载请注明原文链接:https://blog.youkuaiyun.com/weixin_41613094/article/details/122132033...
2022-01-01 17:01:59
685
原创 【Python】基础习题100例(26-50例)_努力做最通俗易懂版本
前言:Python 100个小测试,用于熟悉和巩固Python基础例题地址:https://www.runoob.com/python/python-100-examples.html在这里插入代码片26-50题如上,大家有什么疑问可以留言讨论。题外话希望本文有大家有帮助, 如有错误,欢迎指正。转载请注明原文链接:https://blog.youkuaiyun.com/weixin_41613094/article/details/122132033...
2022-01-01 17:00:37
637
原创 【Python】关于加密算法的实现 笔记梳理
前言:因为主管数据,数据安全问题比较常见,今天遇到一个业务场景,较多数据加密的处理,结合最近优化数据安全流程的问题,分享下对数据加密算法的理解。定义数据加密:对原来为明文的文件或数据按某种算法进行处理,使其成为不可读的一段代码为“密文”,只能在输入相应的密钥之后才能显示出原容,通过这样的途径来达到保护数据不被非法人窃取、阅读的目的。 该过程的逆过程为解密,即将该编码信息转化为其原来数据的过程。简单理解:算法分类目前主流的分法有2类,对称加密、非对称加密,当然也还有分3类的,新增单向加密(Hash
2021-12-21 20:17:22
5440
7
原创 【R语言】报错解析:dplyr::group_by 后只显示一条记录,实际应多条记录的报错解析
今天遇到个奇葩问题,特地记录下:先上语句library("dplyr")zy1=mtcars%>% group_by(cyl)%>%summarise(sum=sum(mpg))zy1正常应该显示如图:是多条记录的group_by但楼主显示的是这样的:只有一条记录.具体原因未知…解决方法:查看下目前studio版本sessioninfo 查看卸载目前版本的R_studio ,更新无用,卸载干净后,再安装更高版本的studio即可。...
2020-05-28 11:08:16
4260
4
原创 【爬虫】浅析 selectorgadget 高效使用的方法
最近在进行算法的实战,常需要一些网络数据,故而进行爬虫,相信玩过爬虫的朋友都知道,找nodes比较麻烦,尤其是一些复杂的前端页面.目前大部分人用selectorgadget 工具比较多,但只是一个普通可下载的工具,搜索了半天都是要下载币才能下载,或者下载了文件提示:安装包无效。本文分享一个无需下载便可使用selectorgadget的方法,希望能帮到大家。第一步:进入谷歌中文官网点击这里–...
2020-04-20 19:39:09
4124
6
原创 【R语言】可视化:ggplot代码的自动生成
转:添加链接描述你是否有同样的疑问,用R语言实现可视化时,会遇到非常多的问题,数据类型报错,参数过多记忆不过来,图层关系混乱等等, 看到谢大神这个文章,非常棒,共勉:ggThemeAssist:鼠标调整主题,并返回代码R语言中的ggplot2是最美的绘图包之一。但调整主题的细节,需要写大量代码,而且反复修改、预览,费时费力。当然你可以用Adobe Illustrator等工具进行后期编辑,...
2019-06-25 18:41:16
2012
2
原创 【R语言】报错解析:关于 input string 1 is invalid in this locale报错的分析
常需要使用R语言写报告,在切换了Windows电脑后,时常会发现一个报错如下:Warning message:In strsplit(code, "\n", fixed = TRUE) : input string 1 is invalid in this locale该报错为:输入字符串1在此区域设置中无效;但是并不影响报告的output;分析下该问题:报错原因:RStudi...
2019-04-12 16:31:42
11366
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人