约会网站预测函数

本文介绍了一种基于K近邻算法的约会匹配系统实现过程。通过使用Python编程语言及NumPy库来创建数据集并实现K近邻算法,进而应用于约会网站的实际场景中。文章详细解释了数据预处理、距离计算、分类预测等步骤,并提供了完整的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#coding:utf-8
#约会网站
from numpy import *
import matplotlib
import matplotlib.pyplot as plt
import operator
#创建数据
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels
#k近邻算法
def classify0(inX , dataSet , labels ,k):
    dataSetSize = dataSet.shape[0] #shape = (4,2) , size = 4
    diffMat = tile(inX , (dataSetSize  , 1)) - dataSet #将inX整形成为dataSet的大小
    sqDiffMat = diffMat **2 #矩阵平方
    sqDistances = sqDiffMat.sum(axis = 1) #水平相加
    distances = sqDistances **0.5 #取根号得距离
    sortedDistIndicies = distances.argsort() #排序
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]] #得到距离第i近的点的label
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #D.get(k[,d]) -> D[k] if k in D, else d. d defaults to None.
        #itemgetter(item, ...) --> itemgetter object
        #Return a callable object that fetches the given item(s) from its operand.
        #After f = itemgetter(2), the call f(r) returns r[2].
    sortedClassCount = sorted(classCount.items() , key = operator.itemgetter(1) , reverse=True)
    return sortedClassCount[0][0]

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOLines = len(arrayOLines) #得到文件行数
    returnMat = zeros((numberOLines,3)) #创建返回的Numpy矩阵,保存特征
    classLabelVector = [] #保存最后一列元素
    index = 0
    for line in arrayOLines:
        #解析文件数据到列表
        line = line.strip() #截取掉所有回车字符
        listFromLine = line.split('\t') #用\t将整行数据分割成一个元素列表
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet / tile(ranges ,(m,1))
    return normDataSet , ranges , minVals

def datingClassTest():
    hoRatio = 0.10
    datingDataMat , datingLabels = file2matrix('datingTestSet2.txt')
    normMat , ranges , minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio) #测试样本数
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with : %d , the real answer is : %d"\
              % (classifierResult , datingLabels[i]))
        if (classifierResult != datingLabels[i]) : errorCount += 1.0
    print("the total error rate is : %f" % (errorCount / float(numTestVecs)))

def classifyPerson():
    resultList = ['not at all','in small doses','in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMile = float(input("frequent fliter miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat , datingLabels = file2matrix('datingTestSet2.txt')
    normMat , ranges , minVals = autoNorm(datingDataMat)
    inArr = array([ffMile , percentTats , iceCream])
    classifierResult = classify0((inArr - minVals)/ranges , normMat , datingLabels ,3)
    print("You will probably like this this person :" , resultList[classifierResult - 1])

classifyPerson()

输出结果:
这里写图片描述

### K近邻算法在线交友平台中的实现方法 #### 数据收集与预处理 为了在约会网站中应用K近邻算法,首先需要收集用户的特征数据。这些特征可以包括但不限于年龄、性别、职业、兴趣爱好、地理位置等。通常,在用户注册时,可以通过问卷调查的形式获取这些信息[^1]。 接着是对原始数据进行清洗和标准化处理。因为不同的特征可能具有不同的量纲(例如年龄以年为单位,而收入可能是以万元为单位),因此需要对数值型特征进行归一化或标准化操作,以便后续的距离计算更加合理[^3]。 ```python from sklearn.preprocessing import StandardScaler def preprocess_data(data): scaler = StandardScaler() scaled_data = scaler.fit_transform(data) return scaled_data ``` #### 距离度量的选择 在K近邻算法中,距离度量是一个非常重要的环节。常见的距离度量有欧几里得距离、曼哈顿距离以及余弦相似度等。对于约会网站这种场景,可以选择欧几里得距离作为默认的距离度量标准,因为它能够很好地衡量两个向量之间的差异程度。 如果希望进一步提升匹配精度,则可以根据具体需求尝试其他更复杂的距离函数,如马氏距离。不过需要注意的是,当维度较高或者协方差矩阵不可逆的情况下,使用马氏距离可能会遇到困难。 #### 构建训练集并完成预测 假设已经拥有了大量已标注的历史配对记录(即知道哪些人最终成功牵手),那么就可以利用这部分数据构建训练集合测试集。通过输入新用户的属性值到模型当中去寻找其最近邻点,并依据多数投票原则决定该名新人应该归属于哪个类别——也就是找到最适合他的潜在伴侣人选之一[^4]。 以下是基于Python实现的一个简化版代码示例: ```python import numpy as np from collections import Counter class KNearestNeighbors: def __init__(self, k=3): self.k = k def fit(self, X_train, y_train): self.X_train = X_train self.y_train = y_train def predict(self, X_test): predictions = [] for test_point in X_test: distances = [np.linalg.norm(test_point - train_point) for train_point in self.X_train] nearest_indices = np.argsort(distances)[:self.k] nearest_labels = [self.y_train[i] for i in nearest_indices] label_counts = Counter(nearest_labels).most_common(1)[0][0] predictions.append(label_counts) return predictions ``` #### 总结 综上所述,k近邻算法可以在一定程度上帮助改善约会网站的用户体验。然而值得注意的是,尽管这种方法简单易懂且容易部署,但它存在明显的缺陷:随着数据库规模增大,运算成本也会显著增加;另外还需要存储整个样本空间的数据结构,这无疑增加了系统的负担。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值