- 博客(11)
- 收藏
- 关注
原创 推荐系统初学:基于余弦相似度的推荐系统
本文基于MovieLens-20M数据集构建了一个基于内容的电影推荐系统。系统首先处理电影类型和标签信息,使用多标签编码和稀疏矩阵技术构建特征矩阵。通过计算用户喜欢电影的平均特征向量形成用户画像,采用余弦相似度计算与候选电影的匹配度,最终为用户推荐最相似且未观看过的电影。系统还考虑了冷启动问题,采用全局平均特征向量作为新用户的默认画像。实验结果显示,该系统能有效为用户生成个性化推荐列表。
2025-09-29 10:41:56
350
原创 数据处理:稀疏矩阵
稀疏矩阵是指大部分元素为零的矩阵,其存储和计算效率较高。主要优点包括节省存储空间(仅存储非零元素)、提高计算效率(避免零元素运算)以及适用于大型数据集。常见存储格式有CSR、CSC等。缺点是存储结构复杂、某些操作效率低且转换成本高。Python中可通过scipy.sparse实现稀疏矩阵的创建和转换,并计算稀疏性指标(零元素比例)。稀疏矩阵广泛应用于数值分析、图论和大规模数据处理领域。
2025-09-29 08:51:27
706
原创 Pyechart:可交互式的K线,MA,MACD,KDJ展示 | 以及简单说明
该文档介绍了一个金融数据分析流程,主要包括以下内容:1. 数据采样方法,支持15/30/60/120分钟间隔采样;2. 技术指标计算,包括MA(5/10/20/30/60)、MACD(12,26,9)和KDJ(9,3,3);3. 可视化功能,使用Pyecharts绘制K线图、成交量柱状图、MACD和KDJ指标图;4. 数据处理流程,从原始数据采样到技术指标计算再到可视化展示。该方案适用于金融市场分钟级数据分析,提供了完整的分析工具链,支持交互式图表展示和技术指标计算。
2025-09-28 09:44:58
637
原创 数据降维:ICA的介绍
摘要:独立成分分析(ICA)是一种用于盲源分离的统计方法,能够从混合信号中提取统计独立的源信号。其核心假设包括源信号的非高斯性和独立性。ICA通过最大化非高斯性(如使用峭度或负熵)来估计分离矩阵,常用算法包括FastICA。该方法在语音分离、脑电信号处理、图像特征提取等领域有广泛应用。Python的sklearn库提供了FastICA实现,实验表明它能有效分离混合信号中的独立成分。ICA克服了维度诅咒问题,是数据降维的重要技术。
2025-09-26 15:11:46
719
原创 离散化算法(c++)(自用)
例如,{400,5000,1,3000,200}通过离散化我们将其变为{3,5,1,4,2}.也就是说离散化,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。接下来,进行 m 次询问,每个询问包含两个整数l和r,你需要求出在区间[l, r]之间的所有数的和。由于r和l的范围较大,而n和m的范围较小即为调用的数字较少,所以我们可以将其离散化,缩短数周的空间,将其离散化。我们将l和r的大小范围看成数轴的范围,n和m看成点的坐标。共m行,每行输出一个询问中所求的区间内数字和。
2023-10-11 20:12:30
771
2
原创 树状数组(自用)
例如,索引 6 的二进制表示为 110(从右到左按位编号),那么对应区间的大小为 2,即包括原始数组中的第 6、5 两个元素。其中 sums_[i] 的二进制表示中最低位的 1 对应一个区间的和,而剩下的部分可以用来表示包含第 i 个元素的若干区间的和。在树状数组中,每个索引位置 i 的二进制表示中,最低位的 1 所对应的区间大小就是 i & (-i)。将每个t[x]的x转化为二进制后,我们发现每一层末尾的0的个数相同,0的个数与其覆盖的长度有关。t[x]保存以x为根的子树中叶节点值的和。
2023-10-09 19:50:09
165
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅