Python爬取新闻标题及链接存储至MySQL(含源码)

该代码实现从清华大学官网新闻页面抓取文章标题和URL,存储到MySQL数据库中。首先,使用requests库获取网页内容,再利用lxml库解析HTML,通过XPath选择数据。然后,遍历数据并存储到list列表中。接着,建立与MySQL的连接,通过游标执行插入操作,确保数据提交成功。最后,关闭游标和连接。注意,运行前需在MySQL创建对应表并配置正确连接信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


请求网页: https://www.tsinghua.edu.cn/news.htm/



一. 首先要获取数据,将数据暂存于 list列表

二. 将数据存储至MySQL:
                1.创建连接
                2.创建游标
                3.传入参数,执行命令
                4.数据提交(提交至MySQL)
                5.关闭游标、链接


注意: 运行代码前在MySQL新建表,做到代码与数据库的3个对应:
                        1. 用户名、密码对应
                        2. 数据库名对应
                        3. 传入参数时的表名、表中栏位名对应在这里插入图片描述

运行结果:
在这里插入图片描述


```源码```

import pandas as pd
import pymysql
import requests
from lxml import etree


# 请求网址
url = 'https://www.tsinghua.edu.cn/news.htm'
# 请求头
header = {
   
    'user_agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36'
}
# 获取响应 
response &#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值