数据处理
文章平均质量分 74
bing_feilong
算法/CV/Python/c++
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
html都支持哪些颜色
html色彩原创 2025-12-03 20:23:12 · 136 阅读 · 0 评论 -
python资源释放问题
在对象被Python解释器正常垃圾回收时,释放一些。原创 2025-09-16 19:02:54 · 1091 阅读 · 0 评论 -
zx-jds
1.基于自动驾驶海量数据,利用机器学习和数据挖掘方法,负责相关数据挖掘工作,研发适合在实际业务中使用的AI模型、算法和工具:2.负责机器学习/深度学习领域的理论研究和算法开发,包括但不限于图学习、生成学习、迁移学习、强化学习以及各种优化方法的实践和创新;3.熟悉至少一种深度学习框架,熟悉常见的机器学习/深度学习模型和算法,例如多模态Clip模型、GBDT、RF、CNN/RNN、Transformer等沟通能力强能够跟非技术人只对技术方安的优势进行有效沟通;逻辑思维好,有优秀的分析/解决问题的能力;原创 2024-05-22 17:01:03 · 513 阅读 · 0 评论 -
两个python独立进程通信
中,两个独立的 Python 文件(进程)可以通过 multiprocessing.Queue。from consumer import consumer # 导入 consumer 函数。启动两个子进程(对应两个 Python 文件),并共享同一个。方式),适用于正式项目,便于管理和扩展。在 Python 3 中,可以通过一个。,因为它们是两个独立的进程,队列不共享。启动这两个文件,并将队列作为参数传递。如果两个文件是完全独立的进程 →。如果两个 Python 文件是。),并将队列作为参数传递。原创 2025-06-21 13:08:43 · 662 阅读 · 0 评论 -
似然分布与共轭分布,算是补作业吧
介绍似然函数和共轭分布原创 2025-05-23 20:05:14 · 882 阅读 · 0 评论 -
数学概念: Inf——下确界积分与Wasserstein距离
介绍数学概念: 下确界Inf与下确界积分原创 2025-04-19 18:07:11 · 759 阅读 · 0 评论 -
数据处理:基础篇—正态分布与长尾
alpha, _, _ = pareto.fit(data[data > np.percentile(data, 90)]) # 拟合尾部。excess_kurtosis = kurtosis(data, fisher=True) # Fisher定义,正态分布=0。tail_ratio = np.mean(data > top_10_percent) # 尾部占比。绝对值 > 0.5 视为显著偏态(正偏:右长尾,负偏:左长尾)α越小 → 尾部越厚(α<2表示方差可能无限)RMSLE(对数误差)原创 2025-04-17 19:15:46 · 582 阅读 · 0 评论 -
数据处理: DBSCAN与HDBSCAN聚类
DBSCAN是广为人知的密度聚类算法,HDBSCAN为其升级版本。本文对比两种算法的优劣,为大家提供参考原创 2025-04-17 15:50:57 · 708 阅读 · 0 评论 -
数据处理: OPTICS聚类及Python实现
是一种基于密度的聚类算法,可视为DBSCAN的改进版本。它能够识别不同密度的簇,并自动发现数据中的层次化聚类结构,适用于复杂分布的数据集。通过可达性图识别“山谷”区域(低可达距离),每个山谷对应一个簇。计算复杂度高于DBSCAN(近似于O(n log n))。(邻域半径)敏感,难以处理密度变化大的数据。,标记为核心点,并计算其邻域点的可达距离。低可达距离的区域(“山谷”)代表高密度簇。为每个点计算核心距离和可达距离。切割可达性图,提取最终聚类。(核心点的最小邻域点数)和。(可选,限制搜索范围)。原创 2025-04-17 15:36:12 · 608 阅读 · 0 评论 -
数据处理: 亲和聚类
与其他聚类算法的比较特性K-MeansDBSCAN层次聚类需要指定簇数否是否是/否簇形状适应性任意球形任意任意处理噪声数据中等差好中等时间复杂度O(N²)O(NKT)O(N²)O(N³)内存消耗高低中等高适合数据规模小到中等大中等小Affinity Propagation是一种强大的聚类算法,对于中小规模数据集能够提供非常有价值的聚类结果。特别适用于以下场景:不知道数据中应该有多少个簇数据中存在非球形的簇结构。原创 2025-04-17 15:20:21 · 763 阅读 · 0 评论 -
数据处理: 均值漂移聚类(Mean Shift)
的非参数聚类算法,不需要预先指定簇的数量,而是通过寻找数据空间中密度最大的区域来自动确定聚类中心, 适合图像分割和目标跟踪等。迭代:计算当前点的邻域内所有点的加权均值,将当前点移动到该均值位置。:每轮迭代需要计算所有点的邻域关系,时间复杂度O(n2)。:对大规模数据,先采样再聚类,bin_seeding设置。其中 N(x) 是 x 的邻域(由带宽决定)聚类:合并收敛到同一位置的点为一个簇。初始化:对每个数据点作为起点。:决定邻域大小的关键参数,使用。:自动发现数据中的聚类结构。:可以识别非球形分布的簇。原创 2025-04-17 15:03:46 · 668 阅读 · 0 评论 -
数据处理: 层次聚类
介绍层次聚类原创 2025-04-17 14:42:50 · 707 阅读 · 0 评论 -
数据处理:聚类综述
综述常见的聚类方法,后续会针对部分方法详细展开原创 2025-04-17 14:30:01 · 858 阅读 · 0 评论
分享