基于MinHashLSH的用户相似度

最新推荐文章于 2025-08-06 11:38:36 发布

原创

最新推荐文章于 2025-08-06 11:38:36 发布 · 936 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #spark #大数据 #经验分享 #机器学习

该博客介绍了如何在用户量达到300W+的情况下，通过MinHashLSH算法解决两两用户间特征匹配的问题。文章首先展示了笛卡尔积方法的低效，然后详细阐述了MinHashLSH的实现过程，包括数据预处理、特征转换、向量化以及使用Spark进行分布式计算。在资源有限（最高内存10T，核数4000）的集群环境下，通过调整Spark配置和算法参数，成功实现了高效的数据过滤，找到了特征值至少有三个相同的用户对。

背景：

1、用户量300W+

2、每个用户10个特征，找出两两用户十个特征值中最少有三个一样的用户对

3、资源相对不足，最高可用内存10T，核数4000

开发阶段：

1、笛卡尔积：crossJoin

众所周知此方法有点脑残，300W*300W可想而知有多么低下

2、MinHashLSH

2.1、初版

2.2、修改版（此文不放置代码，跟初版区别不大，且效率优化可以忽略）

2.3、优化版，最红用作项目

资源分配：

集群限制，每个executo至多分配55G内存，核数不限，故分配 executor 100个，core5个，内存50G，内存溢出，导致executor挂掉从而导致整个任务失败，故后来加大分区，修改spark.sql.shuffle.partitions参数，及将每个executor的core降低至2，乃至1，但是还是失败，故舍弃初版及修改版

优化版使用 executor 50个，每个executor分配2个core，内存分配55G

代码如下：

2.1 初版

# !/usr/bin/env python
# coding=utf-8

import sys
from pyspark.sql import SparkSession

import time
import datetime

import pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as fn
from pyspark.sql.types import ArrayType, StringType, IntegerType, StructType, DoubleType

from collections import Counter
from pyspark.sql.functions import monotonically_increasing_id

from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import OneHotEncoderEstimator
from pyspark.ml.feature import MinHashLSH

from pyspark.ml.linalg import Vectors, Vector, VectorUDT
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import col


def one_hot(line, ncat):
    temp = [0] * ncat
    for i in line:
        temp[int(i)] = 1
    return temp


def get_arraylen(line):
    return len(line) * [1.0]


def main():
    t0 = time.time()
    """
    日例行化 参数为输入表的

    """
    if len(sys.argv) >= 2:
        sub_date = sys.argv[1]
        pri_date = "p_" + sub_date
    else:
        raise

    print("sud_date: ", sub_date, pri_date)
    """
    data 为输入数据，此代码作为参考，实际为读hive获取
    
    """

    spark = SparkSession.builder.appName("xxx").getOrCreate()
    sc = spark.sparkContext
    data = spark.createDataFrame([
        (20210420, "230155", "qimei_xxx"),
        (20210420, "295085", "ip_xxx"),
        (20210420, "666373", "qimei_xxx1")])

    data.show(10, False)
    """
    +---------------+-------+--------------------+
    |tdbank_imp_date|   puid|             feature|
    +---------------+-------+--------------------+
    |       20210416|4855420|      qimei_h_4_471b|
    |       20210416|4855420|       mac_q_5_4C637|
    |       20210416|4855420|        osversion_11|
    |       20210416|4855420|phonetype_Redmi K...|
    |       20210416|4855420| qimei_q_5_4855420_d|   为了规整，如果某个用户的某个特征为空时则特征值为 特征_puid_无效标签
    |       20210416|4855420|        mac_h_4_A2F6|
    |       20210416|4855420|  devicename_picasso|
    |       20210416|4855420|      clientver_8140|
    |       20210416|4855420|postipb_read_116....|
    |       20210416|4855420|      manufact_Redmi|
    +---------------+-------+--------------------+
    """



    print(data.rdd.getNumPartitions())
    print("all data is ", data.count())
    t1 = time.time()
    print("used time 1 ", t1 - t0)

    """