python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(三)

这篇博客回顾了如何在Eclipse中关联本地Tomcat和Maven,以及配置数据库连接池。首先创建Maven项目,然后在pom.xml中添加MySQL连接和DBCP依赖。接着,在src/main/resources下创建jdbc.properties文件,存放数据库连接配置。对于MySQL8.x,需使用不同的驱动。最后,创建DBUtils.java文件用于获取数据库连接。遇到pom.xml解析错误时,通过Maven的Update Projects功能解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前的博客已经写了python爬取豆瓣读书top250的相关信息和清洗数据,以及将数据导入数据库并创建相应的数据表。接下来进行项目准备工作。
如果有没看懂的或是不了解上一部分说的是什么内容的,请看
https://blog.youkuaiyun.com/qq_45804925/article/details/112848887
https://blog.youkuaiyun.com/qq_45804925/article/details/112898570

现在开始具体内容的复习:

1. 项目准备工作

1.1 Eclipse关联本地tomcat

1.2 Eclipse关联本地maven

以上两个步骤比较普通、常见,可以自行去百度一下

1.3 数据库连接池配置

在进行这些之前首先要创建maven项目,建好后进行如下操作。

  1. 在项目的pom.xml中添加对mysql连接jar包和dbcp连接池的依赖:
<!-- 配置本项目中依赖的jar包 -->
<dependencies>
    <!-- mysql连接驱动 -->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.47</version>
    </dependency>

    <!-- 数据库连接池jar包 -->
    <dependency>
        <groupId>commons-dbcp</groupId>
        <artifactId>commons-dbcp</artifactId>
        <version>1.4</version>
    </dependency>
</dependencies>
  1. 在项目的src/main/resources下新建一个文件,名为jdbc.properties,并在其中添加如下配置:
driver=com.mysql.jdbc.Driver
url=jdbc:mysql://localhost:3306/doubanbook?useUnicode=true&characterEncoding=UTF-8
username=root
password=root
initSize=3
maxSize=3

使用mysql8.x的同学,适用下面的配置:

driver=com.mysql.cj.jdbc.Driver
url=jdbc:mysql://localhost:3306/doubanbook?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
username=root
password=root
initSize=3
maxSize=3
  1. 在cn.geo.doubanbook.util包下创建DBUtils.java文件
public class DBUtils {
    private static BasicDataSource dataSource;

    static {
        // 创建数据库连接池对象
        dataSource = new BasicDataSource();
        // 读取配置文件中的配置
        Properties prop = new Properties();
        InputStream ips = 
                DBUtils.class.getClassLoader()
                .getResourceAsStream("jdbc.properties");
        try {
            prop.load(ips);
            String driver = prop.getProperty("driver");
            String url = prop.getProperty("url");
            String username = prop.getProperty("username");
            String password = prop.getProperty("password");
            String initSize = prop.getProperty("initSize");
            String maxSize = prop.getProperty("maxSize");
            // 对数据库连接池进行设置
            dataSource.setDriverClassName(driver);
            dataSource.setUrl(url);
            dataSource.setUsername(username);
            dataSource.setPassword(password);
            dataSource.setInitialSize(Integer.parseInt(initSize));
            dataSource.setMaxActive(Integer.parseInt(maxSize));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 获取连接池中的一个空闲连接
     * @return 连接对象
     * @throws SQLException
     */
    public static Connection getConn() 
            throws SQLException {
        return dataSource.getConnection();
    }
}

以上几个操作截图如下:
在这里插入图片描述
在上图pom.xml中出现了如下错误:

Multiple annotations found at this line:
	- schema_reference.4: Failed to read schema document 'https://maven.apache.org/xsd/maven-4.0.0.xsd', because 1) could not find the document; 
	 2) the document could not be read; 3) the root element of the document is not <xsd:schema>.
	- cvc-elt.1: Cannot find the declaration of element 'project'.

如下图所示:在这里插入图片描述
解决办法如下:
右键项目——>Maven——>Update Projects——>勾选上Force Update of Snapchat/Releases在这里插入图片描述
在这里插入图片描述
这样问题就解决了!

今天复习的内容比较少,主要是对准备工作进行了复习和记录。明天开始进行正式工作啦!

### 回答1: 豆瓣电影是众所周知的一个知名电影评分网站,其中的TOP250电影榜单更是备受关注。爬取这个榜单的数据可以帮助我们更好地了解电影市场和评价,数据可视化方面可以更好地呈现这些数据。 首先,我们可以使用Python程序编写爬虫,抓取豆瓣电影TOP250的数据。我们可以通过分析网页源代码,选取需要的信息,例如电影名称、上映时间、豆瓣评分、评分人数、电影类型、导演、演员等信息。然后,将所有信息保存在CSV文件中。我们可以使用BeautifulSoup模块或Scrapy框架来实现爬虫程序的编写。 接下来,我们可以使用Python数据可视化工具来对这些数据进行可视化处理。例如,我们可以使用matplotlib或Seaborn绘制电影评分的统计图表和线型图,了解每部电影评分的分布情况、评分人数的多寡、豆瓣评分的走向等。另外,我们也可以绘制散点图或热图,从电影类型、上映时间等角度分析不同类型电影的评分情况。我们还可以利用词云图工具呈现电影的标签云图,更直观地展示豆瓣用户对电影的评价。 总的来说,我们可以使用Python爬虫数据可视化工具来爬取豆瓣电影TOP250榜单的数据,并且将数据以图表、统计、云图等形式进行可视化分析,从而更好地了解电影市场和评价。 ### 回答2: 豆瓣电影Top250是电影爱好者们都很熟悉的一个电影排行榜。为了更好地了解这个排行榜的情况,我们可以利用Python爬取豆瓣电影Top250上的电影信息,并将数据制作成可视化图表,以更直观地呈现数据。 首先,我们需要使用Python爬虫技术获取豆瓣电影Top250中每部电影的信息。一般来说,爬取网页数据需要用到一些第爬虫库,比如Requests和BeautifulSoup。使用Requests库可以向豆瓣服务器发送请求,获取Top250的网页HTML文件。接着,我们可以使用BeautifulSoup库解析HTML文件,从中获取每一部电影的名称、评分、演员、导演、简介等信息。爬取完毕后,将获取到的数据存储在MySQL或者MongoDB数据库中,方便后续对数据的处理和分析。 接下来,我们需要将获取到的数据进行数据可视化。我们可以使用Python中的Matplotlib或者Seaborn等数据可视化库来制作可视化图表。比如,我们可以生成柱状图、饼图、折线图等多种图表类型,展现Top250中电影各类别的数量分布、电影评分的分布情况、导演、演员等数据的贡献度等信息。 总之,通过Python爬取豆瓣电影Top250数据,并利用数据可视化技术制作图表,我们可以更好地了解电影市场的情况,从中找到一些有用的数据洞察点,对后续的电影市场分析等工作提供有力支持。 ### 回答3: 随着互联网的普及和数据挖掘的发展,数据可视化已经成为当今最流行的技术之一。而Python语言的出现,极大地促进了数据可视化技术的发展,并且能够使数据可视化更加高效、便捷。 Python爬取豆瓣电影Top250数据可以使用爬虫框架Scrapy,通过对网页的解析和内容抓取,将所需数据存入数据集中。数据集中存储了每个电影的名称、导演、主演、类型、上映时间、评价人数、评分等信息,这些数据可以通过Python数据可视化工具如Matplotlib、Pandas等进行可视化处理。 通过数据可视化可以得到丰富的数据分析和呈现,如: 1.不同类型电影的数量 通过Python可视化工具可以得到不同类型电影的数量,并且可以使用饼图、柱状图等图表进行图像展示,帮助人们更好地了解豆瓣Top250电影中各类型的分布情况。 2.电影排名及评价情况 通过Python爬虫框架获取的豆瓣Top250电影可以进行排名展示及评价等数据的分析。可视化工具可以帮助我们通过散点图、折线图等形式直观地了解电影排名及评价情况。 3.电影时长对评分的影响 通过Python可视化工具可视化处理电影时长对评分的影响。可以得出电影时长对于电影评分存在明显影响的结论,以饼图的形式将主观评价高的电影与电影时长进行对比。 Python爬取豆瓣电影Top250,通过数据可视化工具可以使我们直观地了解到豆瓣Top250电影的分类情况、排名和评价等数据信息,同时,也可以了解到电影时长等因素对电影评价的影响,这对我们对电影的分析与推荐可以起到积极的作用,有助于我们更好地了解电影行业的情况。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值