工作随想
文章平均质量分 74
工作中遇到的一些有感而发的思考
Lenskit
数据分析8年+
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用pyspark对设备在装app列表生成词向量
摘要 本文介绍了使用Spark和Word2Vec模型处理10亿级设备应用安装数据的技术方案。该方案通过分析设备上安装的应用程序列表,训练生成150维的应用程序特征向量,并将设备上所有应用向量的平均值作为设备特征向量。主要参数包括vectorSize(150维)、minCount(500次最低出现次数)和windowSize(10个上下文窗口)。最终输出结果可用于用户相似度计算、群体划分和精准广告投放等应用场景。该方案巧妙地将自然语言处理技术应用于用户行为分析,为大规模用户画像提供了有效解决方案。原创 2025-09-18 10:27:14 · 305 阅读 · 0 评论 -
使用pyspark对上百亿行的hive表生成稀疏向量
摘要:本文介绍了一种使用PySpark处理超大规模Hive表(338亿行数据)的方法,将用户ID和APP数据转换为稀疏向量表示。方案分为两步:首先对APP进行One-Hot编码生成稀疏向量,然后按用户ID聚合这些向量。针对数据量大的特点,采用了分区处理、两阶段聚合等优化策略,并使用SparkML标准稀疏向量格式(包含类型、长度、索引和值数组)高效存储结果。该方法充分发挥了Spark的分布式计算优势,解决了传统Hive UDF性能不足的问题,同时生成的稀疏向量格式与SparkML算法完全兼容,为后续机器学习任原创 2025-09-03 11:26:25 · 491 阅读 · 0 评论
分享