详细分析python3爬取max+新闻数据(二)

本文介绍了如何使用Python3爬取Max+新闻数据并存储到MySQL数据库中。通过分析新闻列表URL的JSON信息,提取了content_type、date、click、newsurl、newsid、title和source等字段。对于HTML结构差异导致的作者信息提取问题,采取了处理多余信息的方法。最后,创建了数据库表并成功存储了9551条新闻数据。反思中提到程序简单,未进行性能优化,如使用BeautifulSoup解析速度较慢,未来计划进行数据分析和可视化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正文

上一篇文章我们已经分析了如何获取新闻的url页面,以及url页面的参数设置。现在就来具体编写代码实现爬取数据存入数据库。

首先看看我们想要的,用Chrome打开新闻list的url,F12进入开发者模式,在network中的preview可以查看json信息。


我们可以获取,类型content_type,时间date,点击click,文章链接newsurl,文章编号newsid,标题title,来源source。

但是实际上没有具体的作者信息,我们可以从newsurl点进去具体再分析,



发现作者有两种形式,一种是没有具体作者的,直接写官方或者Max+的,还有一种是有具体作者的。html代码略有不同,不过都比较好提取。”author”提取出来可能会有一些多余信息,用replace方法或者re.sub()方法就能轻易解决。

同时兼顾到了max新闻早期的版本,15年的新闻html代码也略有不同,比如author前后有很多‘\t’占位符,不仔细还真不好去掉。

爬取的信息储存在mysql中,连接maxplus数据库,建立名为news的表:

conn=mysql.connector.connect(user='root',password='xxxxxx',database='maxplus')

create table news
                (id integer primary key auto_increment not null,
                date text not null,
                time text not null,
                click text not null,
                newsid text not null,
                linkid text not null,
                author text not null,
                title text not null,
                newsurl text not null,
                content_type text not null)
因为某些网页
### 使用Python爬虫抓取豆瓣图书数据并进行数据分析和可视化 #### 抓取豆瓣图书数据 为了实现这一目的,可以采用`requests`库来发送HTTP请求获取网页内容,并利用`BeautifulSoup`解析HTML文档。由于豆瓣网站可能具有反爬机制,在编写爬虫程序时需要注意设置合理的延时以及模拟浏览器行为。 ```python import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36' } def get_book_info(url): response = requests.get(url=url, headers=headers) soup = BeautifulSoup(response.text, "html.parser") book_items = [] # 假设每页有多个书籍条目,这里简化处理只展示单个页面的数据收集逻辑 books = soup.find_all('div', class_='item-root') for item in books: title = item.select_one('.title').get_text(strip=True) author = item.select_one('.author').get_text(strip=True).replace('/', '').strip() pub_date = item.select_one('.pub-date').get_text(strip=True) info_dict = {"Title": title, "Author": author, "Publication Date": pub_date} book_items.append(info_dict) time.sleep(1) # 设置适当延迟防止触发反爬 return book_items ``` 此部分代码用于定义函数`get_book_info()`,该函数接收URL参数作为输入,返回包含各本书籍信息字典列表的结果集[^1]。 #### 数据清洗与预处理 在完成初步的数据采集之后,通常还需要进一步清理所获得的信息,比如去除空白字符、统一日期格式等操作。这一步骤对于后续更深入地探索性分析至关重要。 ```python import pandas as pd df_books = pd.DataFrame(book_items) # 清洗出版年份字段中的非数字字符并将字符串转换成整型数值表示形式 df_books['Year'] = df_books['Publication Date'].str.extract(r'(\d{4})') df_books.dropna(subset=['Year'], inplace=True) df_books['Year'] = df_books['Year'].astype(int) cleaned_data = df_books[['Title', 'Author', 'Year']] print(cleaned_data.head()) ``` 上述脚本创建了一个Pandas DataFrame对象存储原始记录;接着从中抽取有效成分构建新的整理过后的表格结构体,并打印前几行验证效果[^2]。 #### 数据分析及可视化呈现 最后阶段涉及统计描述指标计算(均值、众数)、趋势变化观察等方面的工作。借助Matplotlib或Seaborn这样的绘图工具包能够直观展现研究成果给读者看。 ```python import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize=(10,6)) sns.histplot(data=cleaned_data, x="Year", bins=range(min(df_books.Year), max(df_books.Year)+2), stat='density') plt.title('Distribution of Book Publication Years on Douban') plt.xlabel('Years') plt.ylabel('Density') plt.show() wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies( cleaned_data.Author.value_counts().to_dict()) plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.title('Word Cloud of Authors from Collected Books Data') plt.show() ``` 这段示例展示了如何绘制直方图以显示不同年代间发布作品的数量分布情况,同时也生成了一张作者姓名频率对应的词云图像。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值