机器学习入门项目：构建基于Flask的UFO目击预测Web应用-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00698/article/details/148323444

机器学习入门项目：构建基于Flask的UFO目击预测Web应用

ML-For-Beginners 微软出品的面向初学者的机器学习课程，提供了一系列实践项目和教程，旨在帮助新手逐步掌握Python、Azure ML等工具进行数据预处理、模型训练及部署。项目地址: https://gitcode.com/gh_mirrors/ml/ML-For-Beginners

概述

本文将介绍如何使用Python构建一个完整的机器学习Web应用，基于UFO目击数据集训练模型，并通过Flask框架将其部署为可交互的Web应用。这是机器学习从理论到实践的重要一步，展示了如何将模型从开发环境迁移到生产环境。

数据集准备

我们使用的数据集来自国家UFO报告中心(NUFORC)，包含过去一个世纪的UFO目击记录。数据包含以下关键字段：

目击持续时间(秒)
发生国家
纬度/经度坐标
目击形状描述

数据预处理步骤

数据清洗：去除空值，筛选持续时间在1-60秒之间的记录
特征选择：我们主要关注"持续时间"、"纬度"和"经度"三个特征
标签编码：将国家名称转换为数值标签，便于模型处理

# 示例代码：数据预处理
ufos = pd.DataFrame({
    'Seconds': ufos['duration (seconds)'],
    'Country': ufos['country'],
    'Latitude': ufos['latitude'],
    'Longitude': ufos['longitude']
})

# 使用LabelEncoder编码国家
from sklearn.preprocessing import LabelEncoder
ufos['Country'] = LabelEncoder().fit_transform(ufos['Country'])

模型训练

我们使用逻辑回归模型，将问题建模为多分类任务，预测目击事件最可能发生的国家。

模型训练关键步骤

划分训练集和测试集(80/20比例)
使用标准化后的特征训练模型
评估模型性能

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)

# 评估模型
predictions = model.predict(X_test)
print(f'模型准确率: {accuracy_score(y_test, predictions):.2f}')

经过测试，模型准确率可达约95%，这主要得益于地理位置(经纬度)与国家之间存在强相关性。

模型序列化与持久化

为了在Web应用中使用训练好的模型，我们需要将其序列化为文件格式。Python的pickle模块非常适合这一任务。

import pickle

# 保存模型
with open('ufo-model.pkl', 'wb') as f:
    pickle.dump(model, f)
    
# 加载模型
with open('ufo-model.pkl', 'rb') as f:
    loaded_model = pickle.load(f)

安全提示：pickle文件可能存在安全风险，只应加载来自可信来源的序列化模型。

Flask Web应用开发

项目结构

典型的Flask应用目录结构如下：

web-app/
│── app.py              # 主应用文件
│── requirements.txt    # 依赖列表
├── static/
│   └── css/
│       └── styles.css  # 样式表
└── templates/
    └── index.html      # 前端模板

核心组件实现

前端界面(index.html)：包含表单用于输入预测参数
后端逻辑(app.py)：处理请求并返回预测结果
样式设计(styles.css)：美化界面

# app.py核心代码
@app.route('/predict', methods=['POST'])
def predict():
    # 获取表单数据
    features = [float(x) for x in request.form.values()]
    # 进行预测
    prediction = model.predict([features])[0]
    # 映射国家代码到名称
    countries = ["澳大利亚", "加拿大", "德国", "英国", "美国"]
    return render_template('index.html', 
                         prediction_text=f"预测国家: {countries[prediction]}")

应用部署与测试

在开发环境中，可以使用调试模式运行应用：

flask run --debug

调试模式会自动重载代码变更，便于开发测试。

进阶思考

模型部署架构选择：
- 嵌入式部署(如本文)：模型直接打包在应用中
- 云端服务：通过API调用远程模型服务
- 边缘计算：在移动设备或IoT设备上运行
性能优化方向：
- 使用更高效的序列化格式(如ONNX)
- 实现模型缓存机制
- 添加输入验证和异常处理
安全考量：
- 防止模型逆向工程
- 输入数据验证
- 防止滥用预测服务