180125_机器学习_初级算法调研

本文介绍了预测建模中的两种核心方法:线性回归与逻辑回归。线性回归适用于趋势线预测、相关因素分析等场景;逻辑回归则常用于解决分类问题。文中详细解释了一元及多元情况下的回归分析方法及其应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标:预测建模
方法:机器学习
实际:泛函分析
本质:找到一个目标函数f,使其成为输入变量X到输出变量Y之间的最佳映射:Y=f(X)


1.线性回归[常用spss]
一元:y=ax+b+C,误差C服从均值为0的正态分布
N元:y=a1x1+a2x2+a3x3+...anxn+b+C,误差C服从均值为0的正态分布
方法:待定系数法,先决定影响因素个数,1个还是多个,若1个,设未知数a,b,样本点到直线L:ax+b-y=0的距离平方和函数W(a,b)是二元二次函数,先确定边界点,再确定边界内是否光滑,若是,求偏导[梯度下降优化],令其为0,求出a,b。若不光滑,将不可导点和边界点作为可疑点带入计算,求W最小值[普通最小二乘法]对应的a,b。确定a,b后,计算每个点到回归线的误差,检验误差是否服从均值为0的正态分布,相关系数r代表能被回归直线解释的比例,多元同理。
适用场景:趋势线,相关因素分析,资产定价,经济预测


2.逻辑回归[实际用的比线性回归多,因为逻辑判断是社会衡量事情的主要方式,比如大中小户,优良中差][常用spss]
本质:用于解决分类问题,分类问题过渡通常是非线性,有加速带和惯性的,在线性回归之后多加一层映射,将非线性映射再次映射成逻辑值
一元:y=a(x)x+b+C,D为y的临界点,通常为0.5,误差C服从均值为0的正态分布
N元:y=a1(x1)x1+a2(x2)x2+a3(x3)x3+...an(xn)xn+b+C,D为y的临界点,通常为0.5,误差C服从均值为0的正态分布
它的目标是找出每个输入变量的加权系数值,预测输出值的函数是非线性的
逻辑回归的函数图像看起来是一个大的S形,并将任何值转换至0到1的区间[由于惯性起步慢,中途突破临界点,开始加速,后期受到天命,资源限制,开始减速,比如有人考90,有人考100,考90的是突破了临界点,考100的是受到了分数上限的限制]
### 适合初学者的机器学习入门教程及示例项目 对于希望进入机器学习领域的初学者来说,选择合适的资源和实践项目至关重要。以下是几个推荐的学习路径以及具体的实例项目。 #### 推荐学习路径 1. **理解基础理论** 学习者应先掌握基本的概念和技术术语,了解监督学习、无监督学习的区别及其应用场景[^1]。 2. **熟悉编程工具** Python 是最常用的编程语言之一,在数据处理方面拥有强大的库支持如 NumPy 和 Pandas;而在机器学习建模上,则有 Scikit-Learn 这样的高效框架可供使用。 3. **动手实验** 实践是巩固所学知识的最佳方式。可以从简单的线性回归或者 KNN 开始尝试构建自己的第一个预测模型,并利用 Matplotlib 或 Seaborn 库来进行结果可视化。 #### 初级实例项目建议 - **鸢尾花分类问题 (Iris Classification)** 使用经典的 Iris 数据集练习如何应用决策树或逻辑斯谛回归完成多类别分类任务。此案例不仅能够帮助新手快速上手 Sklearn 的 API 调用,还能加深对特征工程的理解。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier import matplotlib.pyplot as plt # 加载数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target) # 创建K近邻分类器对象 clf = KNeighborsClassifier() # 训练模型 clf.fit(X_train, y_train) # 预测测试集标签 predictions = clf.predict(X_test) plt.scatter(X_test[:, 0], X_test[:, 1], c=predictions) plt.show() ``` - **房价预测 (House Price Prediction)** 借助波士顿房屋价格数据集探索回归分析的方法论,学会评估不同参数设置下模型的表现差异。这有助于培养解决实际业务挑战的能力。 - **客户细分 (Customer Segmentation with Clustering Algorithms)** 尝试运用聚类算法(比如 k-means)实现市场调研中的消费者群体划分工作。这类非监督式学习可以揭示隐藏于大量交易记录背后的趋势模式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值