基于MinHashLSH的用户相似度

该博客介绍了如何在用户量达到300W+的情况下,通过MinHashLSH算法解决两两用户间特征匹配的问题。文章首先展示了笛卡尔积方法的低效,然后详细阐述了MinHashLSH的实现过程,包括数据预处理、特征转换、向量化以及使用Spark进行分布式计算。在资源有限(最高内存10T,核数4000)的集群环境下,通过调整Spark配置和算法参数,成功实现了高效的数据过滤,找到了特征值至少有三个相同的用户对。

背景:

1、用户量300W+

2、每个用户10个特征,找出两两用户十个特征值中最少有三个一样的用户对

3、资源相对不足,最高可用内存10T,核数4000

开发阶段:

1、笛卡尔积:crossJoin

众所周知此方法有点脑残,300W*300W可想而知有多么低下

2、MinHashLSH

2.1、初版

2.2、修改版(此文不放置代码,跟初版区别不大,且效率优化可以忽略)

2.3、优化版,最红用作项目

资源分配:

集群限制,每个executo至多分配55G内存,核数不限,故分配 executor 100个,core5个,内存50G,内存溢出,导致executor挂掉从而导致整个任务失败,故后来加大分区,修改spark.sql.shuffle.partitions参数,及将每个executor的core降低至2,乃至1,但是还是失败,故舍弃初版及修改版

优化版使用 executor 50个,每个executor分配2个core,内存分配55G

代码如下:

2.1 初版

# !/usr/bin/env python
# coding=utf-8

import sys
from pyspark.sql import SparkSession

import time
import datetime

import pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as fn
from pyspark.sql.types import ArrayType, StringType, IntegerType, StructType, DoubleType

from collections import Counter
from pyspark.sql.functions import monotonically_increasing_id

from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import OneHotEncoderEstimator
from pyspark.ml.feature import MinHashLSH

from pyspark.ml.linalg import Vectors, Vector, VectorUDT
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import col


def one_hot(line, ncat):
    temp = [0] * ncat
    for i in line:
        temp[int(i)] = 1
    return temp


def get_arraylen(line):
    return len(line) * [1.0]


def main():
    t0 = time.time()
    """
    日例行化 参数为输入表的

    """
    if len(sys.argv) >= 2:
        sub_date = sys.argv[1]
        pri_date = "p_" + sub_date
    else:
        raise

    print("sud_date: ", sub_date, pri_date)
    """
    data 为输入数据,此代码作为参考,实际为读hive获取
    
    """

    spark = SparkSession.builder.appName("xxx").getOrCreate()
    sc = spark.sparkContext
    data = spark.createDataFrame([
        (20210420, "230155", "qimei_xxx"),
        (20210420, "295085", "ip_xxx"),
        (20210420, "666373", "qimei_xxx1")])

    data.show(10, False)
    """
    +---------------+-------+--------------------+
    |tdbank_imp_date|   puid|             feature|
    +---------------+-------+--------------------+
    |       20210416|4855420|      qimei_h_4_471b|
    |       20210416|4855420|       mac_q_5_4C637|
    |       20210416|4855420|        osversion_11|
    |       20210416|4855420|phonetype_Redmi K...|
    |       20210416|4855420| qimei_q_5_4855420_d|   为了规整,如果某个用户的某个特征为空时则特征值为 特征_puid_无效标签
    |       20210416|4855420|        mac_h_4_A2F6|
    |       20210416|4855420|  devicename_picasso|
    |       20210416|4855420|      clientver_8140|
    |       20210416|4855420|postipb_read_116....|
    |       20210416|4855420|      manufact_Redmi|
    +---------------+-------+--------------------+
    """



    print(data.rdd.getNumPartitions())
    print("all data is ", data.count())
    t1 = time.time()
    print("used time 1 ", t1 - t0)

    """
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一天两晒网

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值