海伦约会-KNN1

本文介绍了一种使用K近邻(KNN)算法对约会数据集进行分类的方法。通过对数据进行预处理,包括从文件中读取数据、创建散点图可视化、数据归一化,然后应用KNN算法进行分类,并对模型进行了测试评估。最后,文章展示了如何对实际数据进行预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# -*- coding: utf-8 -*-
"""
Created on Sun Oct 21 22:44:59 2018

@author: 国涛
"""
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import operator
def file2matrix(filename):
    '''
        从文件中读取数据
        filename:是文件所在的路径
    '''
    #打开文件
    fr = open(filename)
    #读取文件的内容
    arrayOLines = fr.readlines()
    #计算文件的个数
    numberOfLines = len(arrayOLines)
    #创建出需要返回的数组
    returnMat = np.zeros((numberOfLines,3))
    #创建需要返回的类别字典
    classLabelVector = []
    index = 0
    #开始读数据进行处理
    for line in arrayOLines:
        line  = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(listFromLine[-1])
        index += 1
    return returnMat,classLabelVector
def createMap(returnMat,classLabelVector):
    '''
        根据数据创建散点图
        returnMat:数据集
        classLabelVector:标签集
    '''
    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
    row,cols = returnMat.shape
    for i in range(row):
        if(classLabelVector[i] == 'largeDoses'):
            ax.scatter(returnMat[i,0],returnMat[i,1],returnMat[i,2],c='r',marker='o') 
        elif(classLabelVector[i] == 'smallDoses'):
            ax.scatter(returnMat[i,0],returnMat[i,1],returnMat[i,2],c='b',marker='*')
        else:
            ax.scatter(returnMat[i,0],returnMat[i,1],returnMat[i,2],c='g',marker='^')

def autoNorm(returnMat):
    '''
        对数据集进行归一化
        returnMat:数据集
        normData:归一化后的数据集
        ranges:maxVals - minVals
        minVals:数据集中每列的最小值
    '''
    minVals = returnMat.min(0)
    maxVals  = returnMat.max(0)
    ranges = (maxVals  - minVals )
    normDataSet = np.zeros((returnMat.shape))
    m = returnMat.shape[0]
    normDataSet = returnMat - np.tile(minVals ,(m,1))
    normDataSet = normDataSet/np.tile(ranges,(m,1))
    return normDataSet,ranges,minVals

def datingClassTest(dataingDataMat,dataingLabels):
    '''
        对网站分类器进行测试
    '''
    hoRate = 0.10
    errorCount = 0.0
    normData,ranges,minVals = autoNorm(dataingDataMat)
    m = dataingDataMat.shape[0]
    numTestVecs = int(hoRate * m)
    for i in range(numTestVecs):
        classifierResult = classify0(normData[i,:],normData[numTestVecs:m,:],
                                     dataingLabels[numTestVecs:m],3)
        print('the classifier came back with: %s,the real answer is : %s'
              %(classifierResult,dataingLabels[i]))
        if(classifierResult != dataingLabels):
            errorCount += 1.0
    print("the total error rate is %f%%" %(errorCount/float(numTestVecs)))

def classifyPerson():
    '''
        对实际的数据进行预测
    '''   
    percentTats = float(input("percent of time spend playing video games:"))
    ffMiles = float(input("frequent flier miles earned per years:"))
    iceCream = float(input("liters of icr creams per years:"))
    filePath = 'E:\\机器学习实战\\datingTestSet.txt'
    returnMat,classLabelVector = file2matrix(filePath)
    normData,ranges,minVals = autoNorm(returnMat)
    inArr = np.array([ffMiles,percentTats,iceCream])
    classifierResult = classify0((nArr - minVals)/ranges,normData,
                                     classLabelVector,3)
    print('the classifier came back with: %s'
              %(classifierResult))  
def classify0(inX,dataSet,labels,k):
    '''
        inX:输入的测试集
        dataSet:数据集
        labels:标签
        k:选择距离最小的k个点
    '''
    #计算数据集的个数
    dataSetSize = dataSet.shape[0]
    #计算inX与数据集直接的距离差
    diffMat = np.tile(inX,(dataSetSize,1)) - dataSet
    #计算平方和
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    #计算距离
    distance = sqDistances**0.5
    #根据距离进行排序
    sortedDistIndices = distance.argsort()
    classCount={}
    for i in range(k):
        votelabel = labels[sortedDistIndices[i]]
        classCount[votelabel] = classCount.get(votelabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),
                              reverse=True)
    return sortedClassCount[0][0]

if __name__ == '__main__':
    #根据数据集创建散点图
    createMap(returnMat,classLabelVector)
    #由于数据之间相差的太多,对数据进行归一化
    #autoNorm(returnMat)
    #d对分类器进行测试
    datingClassTest(returnMat,classLabelVector)
    classifyPerson()
    
    
        
        
    

结果显示

散点图:

模型测试误差:

对数据进行预测:

海伦约会网站(Helen's Dating Site)中的K最近邻(K-Nearest Neighbors, KNN)算法是一种常用的机器学习算法,主要用于分类和回归问题。在推荐系统中,比如个性化匹配用户,KNN可以根据用户的历史行为或偏好找到与其最相似的其他用户,从而推荐相似的人作为潜在的约会对象KNN算法的核心思想是,对于一个新的用户,将其与数据库中的所有用户进行比较,找出K个与其特征最接近的用户,然后根据这些邻居的行为或喜好来预测其可能的兴趣或匹配度。 以下是一个简单的Python示例,使用scikit-learn库来实现KNN算法: ```python # 导入所需库 from sklearn.neighbors import KNeighborsClassifier from sklearn.datasets import load_iris # 假设这是约会数据集的一种模拟 from sklearn.model_selection import train_test_split # 加载数据 data = load_iris() X = data.data y = data.target # 假设每个样本是用户的特征,y是用户类型(例如匹配等级) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建KNN模型 knn = KNeighborsClassifier(n_neighbors=5) # k=5代表查找5个最邻近的用户 # 训练模型 knn.fit(X_train, y_train) # 预测新用户 new_user = ... # 这是你要推荐给的新用户特征 prediction = knn.predict([new_user]) # 输出推荐结果 print(f"推荐给新用户的约会对象类型: {prediction}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值