K近邻算法应用——价格预测

本文详细介绍了如何使用K近邻算法进行价格预测,从构造数据、距离评估到K近邻预测,再到交叉验证和测试,揭示了k值选择对预测结果的影响,并指出k过大或过小可能导致的过拟合和无关数据干扰问题。最后,文章预告将进行优化部分的探讨。
一、构造数据
#根据rating和age评估价格
def wineprice(rating,age):
    peak_age=rating-50

    price=rating/2
    if age>peak_age:
        price=price*(5-(age-peak_age))#过了峰值年,价值降低
    else:
        price=price*(5*(age+1)/peak_age)#临近峰值年,价值增高
    if price<0:
        price=0
    return price

#构造数据集合:输入——rating,age;输出——price
def wineset1():
    rows=[]
    for i in range(300):
        rating=random()*50+50
        age=random()*50

        price=wineprice(rating,age)
        price*=(random()*0.4+0.8)
        rows.append({
  
  'input':(rating,age),'result':price})
    return rows

#构造数据集合:输入——rating,age,aisle,bottlesize;输出——price
def wineset2():
    rows=[]
    for i in range(300):
        rating=random()*50+50
        age=random()*50

        aisle=float(randint(
K近邻算法(K-Nearest Neighbor,KNN)在鸢尾花分类中有着广泛应用。K最近邻分类算法是理论上比较成熟的方法,也是最简单的机器学习算法之一,其思路是在特征空间中,根据一个样本附近的k个最近(即特征空间中最邻近)样本的类别来判断该样本的类别 [^2]。 在鸢尾花分类中,使用K近邻算法的一般流程如下: 1. **准备数据**:将文本数据进行转换,以适合算法处理 [^1]。 2. **分析数据**:利用Matplotlib创建散点图,直观地观察数据的分布情况,有助于进一步理解数据特征 [^1]。 3. **归一化数值**:对数据进行归一化处理,消除不同特征之间量纲的影响,使算法能更准确地进行分类 [^1]。 4. **测试算法**:作为完整程序验证分类器,评估算法在鸢尾花分类任务中的性能 [^1]。 5. **使用算法**:构建完整可用体系,将训练好的分类器应用于实际的鸢尾花分类中 [^1]。 在Python的`sklearn`库中,可以使用`sklearn.neighbors.KNeighborsClassifier`来实现K近邻算法。该类的常用参数如下: - `n_neighbors`:可选(默认= 5),表示k_neighbors查询默认使用的邻居数。 - `algorithm`:取值为`{'auto', 'ball_tree', 'kd_tree', 'brute'}`,是快速k近邻搜索算法。默认参数为`auto`,算法会自己决定合适的搜索算法,也可以自己指定搜索算法。其中,`brute`是蛮力搜索,即线性扫描,当训练集很大时,计算非常耗时;`kd_tree`是构造kd树存储数据以便对其进行快速检索的树形数据结构,在维数小于20时效率高;`ball_tree`是为了克服kd树高维失效而发明的,其构造过程是以质心C和半径r分割样本空间 [^3]。 以下是一个简单的使用`KNeighborsClassifier`进行鸢尾花分类的代码示例: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 创建K近邻分类器 knn = KNeighborsClassifier(n_neighbors=5, algorithm='auto') # 训练模型 knn.fit(X_train, y_train) # 预测 y_pred = knn.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print(f"模型准确率: {accuracy}") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值