Python全栈--基于机器学习的新闻分类与推荐系统

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #分类

Python项目实战专栏收录该内容

49 篇文章

订阅专栏

项目概述

在信息爆炸的时代，如何从海量新闻中快速找到用户感兴趣的内容成为了一个重要问题。本文将介绍如何使用Python构建一个完整的新闻分类与推荐系统，该系统集成了机器学习算法、Web开发框架和数据库技术。

技术架构

核心技术栈

后端框架: Flask/Django
机器学习: Scikit-learn, TensorFlow/PyTorch
数据库: MySQL/PostgreSQL + Redis
前端: HTML5, CSS3, JavaScript, Bootstrap
数据处理: Pandas, NumPy
文本处理: NLTK, jieba

系统架构图

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   数据采集层    │────│   数据处理层    │────│   机器学习层    │
└─────────────────┘    └─────────────────┘    └─────────────────┘
         │                       │                       │
         │                       │                       │
         ▼                       ▼                       ▼
┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│     数据库      │    │   Web API层     │    │   前端展示层    │
└─────────────────┘    └─────────────────┘    └─────────────────┘

功能模块设计

1. 数据采集模块

负责从各大新闻网站采集新闻数据，包括标题、内容、分类、发布时间等信息。

import requests
from bs4 import BeautifulSoup
import pandas as pd

class NewsSpider:
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }
    
    def crawl_news(self, url):
        """爬取新闻数据"""
        response = requests.get(url, headers=self.headers)
        soup = BeautifulSoup(response.content, 'html.parser')
        # 解析新闻内容
        return news_data

2. 文本预处理模块

对采集到的新闻文本进行清洗、分词、去停用词等预处理操作。

import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer

class TextPreprocessor:
    def __init__(self):
        self.stop_words = self.load_stop_words()
    
    def clean_text(self, text):
        """文本清洗"""
        # 去除HTML标签、特殊字符等
        text = re.sub(r'<[^>]+>', '', text)
        text = re.sub(r'[^\w\s]', '', text)
        return text
    
    def tokenize(self, text):
        """分词处理"""
        words = jieba.lcut(text)
        # 去停用词
        return [word for word in words if word not in self.stop_words]

3. 新闻分类模块

使用机器学习算法对新闻进行自动分类。

from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

class NewsClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer(max_features=5000)
        self.classifier = MultinomialNB()
    
    def train(self, X_train, y_train):
        """训练分类模型"""
        X_train_tfidf = self.vectorizer.fit_transform(X_train)
        self.classifier.fit(X_train_tfidf, y_train)
    
    def predict(self, text):
        """预测新闻分类"""
        text_tfidf = self.vectorizer.transform([text])
        return self.classifier.predict(text_tfidf)[0]

4. 推荐系统模块

基于协同过滤和内容过滤实现个性化推荐。

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

class RecommendationSystem:
    def __init__(self):
        self.user_item_matrix = None
        self.content_features = None
    
    def collaborative_filtering(self, user_id, top_k=10):
        """协同过滤推荐"""
        user_similarities = cosine_similarity(self.user_item_matrix)
        similar_users = np.argsort(user_similarities[user_id])[::-1][1:top_k+1]
        recommendations = []
        # 基于相似用户推荐
        return recommendations
    
    def content_based_filtering(self, user_id, top_k=10):
        """基于内容的推荐"""
        user_profile = self.get_user_profile(user_id)
        content_similarities = cosine_similarity([user_profile], self.content_features)
        recommendations = np.argsort(content_similarities[0])[::-1][:top_k]
        return recommendations

数据库设计

核心表结构

-- 用户表
CREATE TABLE users (
    id INT PRIMARY KEY AUTO_INCREMENT,
    username VARCHAR(50) UNIQUE NOT NULL,
    email VARCHAR(100) UNIQUE NOT NULL,
    password_hash VARCHAR(255) NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- 新闻表
CREATE TABLE news (
    id INT PRIMARY KEY AUTO_INCREMENT,
    title VARCHAR(255) NOT NULL,
    content TEXT NOT NULL,
    category VARCHAR(50) NOT NULL,
    source VARCHAR(100),
    published_at TIMESTAMP,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    INDEX idx_category (category),
    INDEX idx_published_at (published_at)
);

-- 用户行为表
CREATE TABLE user_behaviors (
    id INT PRIMARY KEY AUTO_INCREMENT,
    user_id INT,
    news_id INT,
    action_type ENUM('view', 'like', 'share', 'comment'),
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    FOREIGN KEY (user_id) REFERENCES users(id),
    FOREIGN KEY (news_id) REFERENCES news(id)
);

Web应用开发

Flask后端API

from flask import Flask, request, jsonify
from flask_sqlalchemy import SQLAlchemy

app = Flask(__name__)
app.config['SQLALCHEMY_DATABASE_URI'] = 'mysql://user:password@localhost/newsdb'
db = SQLAlchemy(app)

@app.route('/api/news', methods=['GET'])
def get_news():
    """获取新闻列表"""
    category = request.args.get('category', 'all')
    page = int(request.args.get('page', 1))
    per_page = int(request.args.get('per_page', 20))
    
    news_query = News.query
    if category != 'all':
        news_query = news_query.filter_by(category=category)
    
    news_list = news_query.paginate(
        page=page, per_page=per_page, error_out=False
    ).items
    
    return jsonify({
        'code': 200,
        'data': [news.to_dict() for news in news_list]
    })

@app.route('/api/recommend/<int:user_id>', methods=['GET'])
def get_recommendations(user_id):
    """获取个性化推荐"""
    recommender = RecommendationSystem()
    recommendations = recommender.get_recommendations(user_id)
    
    return jsonify({
        'code': 200,
        'data': recommendations
    })

前端界面

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>智能新闻推荐系统</title>
    <link href="https://cdn.jsdelivr.net/npm/bootstrap@5.1.3/dist/css/bootstrap.min.css" rel="stylesheet">
</head>
<body>
    <nav class="navbar navbar-expand-lg navbar-dark bg-primary">
        <div class="container">
            <a class="navbar-brand" href="#">智能新闻</a>
            <ul class="navbar-nav">
                <li class="nav-item"><a class="nav-link" href="#" onclick="loadNews('all')">全部</a></li>
                <li class="nav-item"><a class="nav-link" href="#" onclick="loadNews('tech')">科技</a></li>
                <li class="nav-item"><a class="nav-link" href="#" onclick="loadNews('sports')">体育</a></li>
                <li class="nav-item"><a class="nav-link" href="#" onclick="loadNews('finance')">财经</a></li>
            </ul>
        </div>
    </nav>

    <div class="container mt-4">
        <div class="row">
            <div class="col-md-8">
                <div id="news-list"></div>
            </div>
            <div class="col-md-4">
                <div class="card">
                    <div class="card-header">个性化推荐</div>
                    <div class="card-body" id="recommendations"></div>
                </div>
            </div>
        </div>
    </div>

    <script>
        function loadNews(category = 'all') {
            fetch(`/api/news?category=${category}`)
                .then(response => response.json())
                .then(data => {
                    const newsList = document.getElementById('news-list');
                    newsList.innerHTML = '';
                    data.data.forEach(news => {
                        const newsItem = createNewsItem(news);
                        newsList.appendChild(newsItem);
                    });
                });
        }

        function createNewsItem(news) {
            const div = document.createElement('div');
            div.className = 'card mb-3';
            div.innerHTML = `
                <div class="card-body">
                    <h5 class="card-title">${news.title}</h5>
                    <p class="card-text">${news.content.substring(0, 200)}...</p>
                    <small class="text-muted">${news.category} | ${news.published_at}</small>
                </div>
            `;
            return div;
        }

        // 页面加载时获取新闻
        document.addEventListener('DOMContentLoaded', () => {
            loadNews();
        });
    </script>
</body>
</html>

部署与优化

Docker容器化部署

FROM python:3.9-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .

EXPOSE 5000

CMD ["gunicorn", "--bind", "0.0.0.0:5000", "app:app"]

性能优化策略

缓存优化：使用Redis缓存热门新闻和推荐结果
数据库优化：建立合适的索引，使用分页查询
异步处理：使用Celery处理耗时的机器学习任务
CDN加速：静态资源使用CDN分发

# Redis缓存示例
import redis
import json

redis_client = redis.Redis(host='localhost', port=6379, db=0)

def get_cached_recommendations(user_id):
    """获取缓存的推荐结果"""
    cache_key = f"recommend:{user_id}"
    cached_data = redis_client.get(cache_key)
    if cached_data:
        return json.loads(cached_data)
    
    # 如果缓存不存在，计算推荐结果并缓存
    recommendations = calculate_recommendations(user_id)
    redis_client.setex(cache_key, 3600, json.dumps(recommendations))  # 缓存1小时
    return recommendations

系统评估与监控

评估指标

分类准确率：使用准确率、精确率、召回率评估分类效果
推荐效果：通过点击率、用户满意度评估推荐质量
系统性能：响应时间、并发处理能力

监控方案

# 日志记录
import logging
from datetime import datetime

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('news_system.log'),
        logging.StreamHandler()
    ]
)

def log_user_behavior(user_id, action, news_id):
    """记录用户行为"""
    logging.info(f"User {user_id} {action} news {news_id} at {datetime.now()}")