Python爬取新闻网站保存标题、内容、日期、图片等数据

本文介绍了如何使用Python 3.6和相关模块来爬取新闻网站的数据,包括标题、内容、日期以及图片。通过解析静态网页,将信息保存为PDF和CSV文件,图片则保存到本地。详细步骤包括确定目标网页、请求网页、解析数据和文件保存。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

基本开发环境

  • Python 3.6
  • Pycharm
import requests
import parsel
import pdfkit
import csv
import threading

相关模块pip安装即可

确定目标网页

获取数据

  • 标题
  • 内容 保存成PDF
  • 日期
  • 图片 保存本地
  • 详情页url、日期、图片地址等等 保存csv

网站是静态网页,没有什么难度

 

详情页

同样是静态页面

 

网页源代码已经说明数据在什么地方了,利用相关的解析工具,对网页数据进行解析即可。

代码实现

  • 请求网页以及解析
def get_html(html_url):
    response = requests.get(url=html_url, headers=headers)
    return response

def get_pars(html_data):
    selector = parsel.Selector(html_data)
    return selector

  • 保存内容 PDF格式
html_str = """
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document
Python爬取新闻网站通常涉及以下步骤: 1. **选择合适的库**:Pandas用于数据处理,BeautifulSoup或 lxml 用于解析HTML,requests 或者 Scrapy 可以发送HTTP请求抓取网页。 2. **发送请求**:使用 `requests.get()` 发送GET请求到新闻网站的网页链接,获取HTML源代码。 3. **解析HTML**:使用 BeautifulSoup 或 lxml 库解析HTML文档,找到包含新闻标题、链接、日期等元素的特定部分。 4. **提取数据**:遍历解析后的HTML结构,提取所需的信息,例如使用`.find_all()` 或 `.select()` 方法查找元素。 5. **存储数据**:将提取的数据组织成列表、字典或其他数据结构,然后保存到CSV、JSON、数据库或本地文件中。 6. **处理反爬机制**:注意遵守网站的Robots协议,可能需要模拟用户行为(如设置User-Agent、延迟请求等),以防止被网站封锁。 7. **异常处理**:添加适当的错误处理代码,以应对可能出现的网络错误、编码问题或页面结构更改。 8. **循环爬取**:如果新闻网站有多页,可以编写循环或递归逻辑来爬取下一页的内容。 9. **动态加载内容**:有些网站使用JavaScript动态加载内容,这时可能需要用到像Selenium这样的工具。 下面是一个简单的示例,展示了基本的爬虫流程: ```python import requests from bs4 import BeautifulSoup url = 'https://www.example.com/news' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) if response.status_code == 200: soup = BeautifulSoup(response.text, 'lxml') articles = soup.select('.news-item') for article in articles: title = article.find('h2').text link = article.find('a')['href'] print(title, link) else: print(f"Failed to fetch data, status code: {response.status_code}") # 将数据保存至CSV或其他合适格式 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值