爬取腾讯新闻中省份疫情数据到Mysql数据库

最新推荐文章于 2024-12-12 22:12:57 发布

原创

最新推荐文章于 2024-12-12 22:12:57 发布 · 1.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python #mysql #腾讯 #爬虫

爬取腾讯新闻中省份疫情数据到Mysql数据库

本人是一个中职学生，第一次发表自己所学到技术……
本篇文章所用到的语言及工具等：
python 3.8
pycharm
Mysql
Navicat Premium 15
requests
json

步骤：

1. 首先要进入腾讯新闻疫情网站；

2.然后按F12进入检查在Network找到json数据文件的Url:

在这里插入图片描述

我们可以看到此URL：为https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=jQuery351004605322824901026_1615602273847&_=1615602273848
注：https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5 此url也是有效的

然后将它复制粘贴到百度就可以看到：
在这里插入图片描述
emmm… 这真是密集恐惧症的"福利"

3.在pyCharm 里来创建python文件进行爬取：

我们要爬取的是省份疫情数据所以在爬取前要找到省份数据的位置：
由于腾讯的json数据并不支持在浏览器中自动美化，所以就拿来网易的来看：
在这里插入图片描述

我们需要将这数据依次取出就可以啦

上代码


```python
import j

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Agoin101

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

定时爬取腾讯新闻娱乐部分到MySQL数据库中

码放南山

10-15

672

目录任务： 数据库搭建：项目整体结构：正式开始：一、编写配置文件 1、向pom.xml中导入相关依赖 2、application.yml文件的配置 3、创建Mybatis映射文件NewsMapper.xml 4、创建Mybatis配置文件mybatisConfig.xml 二、创建entity层下的实体类： News实体类 New...

python爬虫爬取腾讯网站——实时疫情数据并生成Excel表格

Ztf1123的博客

12-01

6617

期末爬虫项目

3 条评论您还未登录，请先登录后发表或查看评论

2 条评论

_suki 2022.05.22
现在爬不了了吗，网页结构变了怎么看呀

菜鸟小杨i 2022.05.03
现在好像只有21个省份的了

selenium爬取腾讯新闻疫情数据续——按控件tag爬取

qq_39051660的博客

08-16

465

前面更新过几篇爬虫的博客，详见以下链接： requests+json爬取腾讯新闻feiyan实时数据并实现持续更新 requests+bs4爬取丁香园feiyan实时数据 selenium爬取腾讯新闻feiyan页面实时数据这里主要是，之前面试的时候，当时信号不好没听清，可能当时面试官想问我怎么具体爬到表格里的每个数据。像之前那篇博客里写的，我当时是直接将整个表格爬下来，发现爬下来的结构是有规律的，所以就直接对表格进行拆分。但如果想要爬取表格里的每个数据，则要用到.find_elements_by_

爬取疫情数据并存到mysql数据库

阿牛的博客

09-26

2718

因为我做的项目需要一些疫情数据，因此在这里总结一下数据获取以及将其保存到数据库，对网络爬虫学习者还是有帮助的。

什么是网络爬虫

ClotSister的博客

12-09

487

什么是网络爬虫网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 ...

使用Django+vue3+mysql前后分离的形式，将疫情数据数据进行动态可视化-python毕业设计+源代码+文档说明

11-09

使用Python requests库爬取腾讯新闻疫情数据信息使用Python PyMysql库将数据分别存入MySQL数据库对应的数据表中使用Python Pandas库对数据进行数据清洗和数据处理分析使用Python web开发框架Django开发设计API...

Python爬取2019Cov及基于Flask框架的数据可视化

PythonShanyang的博客

04-01

1552

Python爬取2019Cov及基于Flask框架的数据可视化项目概述获取腾讯疫情数据初步认识腾讯数据的结构API数据结构化获取数据基于工具库代码爬取百度疫情热搜基于selenium工具爬取代码存储数据到MySQL导入工具库存储百度热搜数据存储腾讯数据搭建Flask框架的web服务搭建Flask基本框架搭建一个简单的Flaskapp.py代码Echarts可视化工具后台响应函数代码项目效果运行项目...

全国省市区县经纬度数据（2018年5月）SQL文件

这些SQL脚本文件本质上是数据库导出的数据定义语言（DDL）与数据操作语言（DML）的结合体，可用于在MySQL或其他关系型数据库系统中快速重建完整的行政区划数据表结构，并批量导入相应的地理编码信息。通过这三个表...

Hive——HQL数据定义语言

m0_66925868的博客

12-12

1821

MySQL => 核心 => SQL语句：DDL ：数据定义语言，建库、建表DML ：数据操纵语言，增、删、改DQL ：数据查询语言，查DCL ：数据控制语言，用户与权限控制 => rootHive中的数据类型指的是Hive表中的列字段类型。原生数据类型（primitive data type）和==复杂数据类型数值类型、时间类型、字符串类型、杂项数据类型；array数组、map映射、struct结构、union联合体。关于Hive的数据类型，需要注意：英文字母大小写不敏感；。

腾讯疫情爬虫

PPAP0P的博客

04-30

582

疫情爬虫

python 爬取肺炎疫情.zip

02-08

Python 爬取肺炎疫情代码，结合requets和matplot，爬取163.com接口数据，使用堆叠柱状体显示各省市数据

腾讯疫情爬取新冠数据

weixin_43827376的博客

05-16

3064

文章目录写作缘起思路分析上代码效果展示总结写作缘起南墙最近参加了学校的数学建模比赛，题目是关于新冠疫情的，因此需要获取大量的新冠疫情感染人数、新增确诊等数据，而主办方并没有给出数据，所以准备自己动手利用爬虫来爬取到这些数据。思路分析爬取目标：实时更新：新冠肺炎疫情最新动态在腾讯疫情的海外疫情模块，我们能看到一个各个国家疫情列

django+mysql新冠疫情数据分析系统-计算机毕业设计源码67684

vx1_Biye_Design的博客

07-06

391

（1）用户模块:用户模块包括用户登录注册模块、疫情资讯模块、疫情政策模块、行程登记模块、核酸检测预约模块、数据模块。登录注册模块:账号和密码、验证码进行登录。个人中心,可查看个人资料; 疫情资讯模块:首页包含整个城市、全国内的疫情具体数据情况,首页可点击进入全国高、中、低风险区的城市名单,点击各模块可进入相应的大内容模块以查看更多。展示最新疫情情况,可对资讯进行收藏和点赞。疫情政策模块:可以查看最新疫情的政策,并收藏和点赞。行程登记模块:去过中高风险地区可以进行登记。每日打卡,可上传健康码和行程码。

使用Python爬取分析腾讯新冠疫情数据，并对json格式进行校验

qq_40985985的博客

11-26

996

使用Python获取分析腾讯新冠疫情数据，并对json格式进行校验

python爬取新闻存入数据库_利用Python爬虫实现爬取网站中的数据并存入MySQL数据库中...

weixin_39526185的博客

11-23

1694

利用Python爬虫实现爬取网站中的数据并存入MySQL数据库中发布时间：2020-11-07 15:36:26来源：亿速云阅读：63今天就跟大家聊聊有关利用Python爬虫实现爬取网站中的数据并存入mysql数据库中，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。实验环境1.安装Python 3.72.安装requests, bs4，pyM...

疫情信息获取。

weixin_53597801的博客

03-15

483

通过网络获取全国疫情信息。pandas进行数据处理。便于后期利用pyecharts进行可视化。下一篇将进行pyecharts可视化。

疫情可视化--1.爬虫--腾讯疫情数据（各省市各个时间段）----附完整代码

qq_43661601的博客

06-30

7312

疫情可视化–1.爬虫–腾讯疫情数据（各省市各个时间段）目录疫情可视化--1.爬虫--腾讯疫情数据（各省市各个时间段）1. 分析网站2. 爬虫部分(代码) 先看下结果 1. 分析网站 https://news.qq.com/zt2020/page/feiyan.htm#/ 按F12进入开发界面，以广东省为例，进入广东省疫情页面后，https://news.qq.com/zt2020/page/feiyan.htm#/area?pool=gd，可以看到有这么一个文件双击打开这个链接 https://

python对疫情数据爬取，可视化，词云

qq_46199553的博客

07-20

1345

1.首先我们要找到对应的接口才能爬取到相应的数据，先找到腾讯疫情网址，如下 https://news.qq.com/hdh5/feiyanarea.htm#/ 2.按F12,查看源代码：get是获取到数据，也就是我们爬取数据的一个接口 3.搞定了接口，接下来就是对接口数据的了解 4.直接上代码 import time import json import requests from datetime import datetime import pandas as pd import numpy a

Python爬虫实战+数据分析+数据可视化（腾讯新闻实时疫情）

qq_45821420的博客

01-30

8237

一、爬虫部分爬虫说明： 1、本爬虫是以面向对象的方式进行代码架构的 2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 4、爬虫爬取的美食是以无锡为例 5、博客末尾附有源码+数据库文件代码展示 import re import requests import json from pymongo import MongoClient class COVID_19(): def __init__(self): # 入口url self.star

数据采集爬取腾讯新闻网站最新新闻信息结合MySQL代码

最新发布

12-27

### 使用 Python 爬虫抓取腾讯新闻最新文章并存储至 MySQL 数据库 为了实现从腾讯新闻网站抓取最新的新闻信息并将这些信息存储到 MySQL 数据库中，可以采用如下方法： #### 准备工作确保安装了必要的 Python 库，如 `requests` 和 `pymysql`。可以通过 pip 安装这两个包。 ```bash pip install requests pymysql ``` #### 抓取网页内容利用 `requests` 发送 HTTP 请求来获取页面 HTML 文本，并解析其中的数据。这里假设已经找到了包含最新文章列表的 URL 地址[^1]。 ```python import requests from bs4 import BeautifulSoup url = 'https://new.qq.com/omn/20231018/20231018A07QZD.html' # 示例URL，请替换为实际的目标链接 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') articles = soup.find_all('div', class_='fig fig_left') # 假设这是存放每篇文章摘要的地方 ``` #### 解析所需字段对于每一个 article 对象，提取标题、发布时间和其他任何想要保存的信息。这一步骤依赖于目标站点的具体结构[^2]。 ```python data_list = [] for art in articles[:5]: # 只处理前五条记录作为例子 title = art.h3.a.string.strip() pub_time = art.span['title'].strip() if 'title' in art.span.attrs else None data_dict = { 'title': title, 'pub_date': pub_time } data_list.append(data_dict) ``` #### 将数据存入 MySQL 数据库 建立与本地或远程 MySQL 实例之间的连接，并创建相应的表用于接收来自爬虫的数据。最后通过 SQL 插入语句完成持久化操作[^3]。 ```python import pymysql.cursors connection = pymysql.connect( host='localhost', user='root', password='password', database='news_db' ) try: with connection.cursor() as cursor: create_table_sql = """ CREATE TABLE IF NOT EXISTS news ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), pub_date DATETIME ); """ cursor.execute(create_table_sql) insert_data_sql = "INSERT INTO news (title, pub_date) VALUES (%s, %s)" for item in data_list: try: cursor.execute(insert_data_sql, (item['title'], item['pub_date'])) except Exception as e: print(f"Failed to insert record {item}: {e}") connection.commit() finally: connection.close() ``` 上述代码片段展示了如何构建一个简单的 Python 程序去访问指定网址上的资源，分析其结构以获得特定的文章详情，并最终把这些信息安全地转移到关系型数据库里进行长期保管[^4]。