爬虫实战练习

1 所需技术

通过使用爬虫技术爬取门户网站相关新闻,将新闻存储在数据库做后续分析。并通过使用飞书智能表格进一步分析

1.1 beautifulSoup

BeautifulSoup是一个强大的Python库,专门用于网页抓取(web scraping)和解析HTML、XML文件 。它能够优雅地处理不完整或格式不规范的HTML代码,提供Pythonic风格的API来导航、搜索和修改解析树。BeautifulSoup与解析器(如lxml或html.parser)配合使用,让开发者能够通过CSS选择器、标签名称或其他属性轻松提取网页中的特定数据。这个库因其简单易用的特性而广受欢迎,是数据采集、网页分析和自动化任务的必备工具。
官方文档
其他技术文档链接:
A Step-by-Step Guide to Web Scraping with Python and Beautiful Soup
Beginner’s guide to Web Scraping in Python using BeautifulSoup
BeautifulSoup Web Scraping Guide
Web Scraping using Python (and Beautiful Soup)

1.2 PostgreSQL

PostgreSQL是一个功能强大的开源对象关系数据库管理系统(ORDBMS),起源于加州大学伯克利分校开发的POSTGRES 4.2版本。它不仅支持标准SQL查询,还支持JSON等非关系型数据查询,提供了高度的可扩展性和可靠性。作为一个企业级数据库,PostgreSQL具备丰富的功能,包括复杂数据类型处理、强大的查询能力、事务完整性和多版本并发控制。它被广泛应用于各种规模的应用程序中,从简单的数据存储到复杂的数据分析系统。

官方文档
PostgreSQL Tutorial
What is PostgreSQL? Key Features, Benefits, and Real-World Uses
Introduction to postgresql

1.3 飞书多维表格

飞书多维表格(Base)是一款表格形态的在线数据库工具,它融合了电子表格的轻盈易用和业务系统的强大功能。与传统电子表格不同,多维表格不仅能实现数据的存储、分析及可视化,还支持多种数据视图(如表格、看板、甘特图等)的自由切换。它具备丰富的字段类型设置能力,确保数据格式规范,同时提供强大的权限管理机制,可精确控制到行列级别。飞书多维表格还支持自动化流程功能,帮助团队打通数据业务流程,其技术基础设施能够处理高达1000万行数据的实时分析。作为新一代效率应用,飞书多维表格满足个性化团队协作需求,帮助企业实现信息管理和业务升级。
快速上手多维表格

2 实现过程

2.1 建立数据表

建立一张表用于存放爬虫获取的新闻,字段包括新闻时间、新闻标题、更新时间等。

DROP TABLE IF EXISTS public.news_daily;

CREATE TABLE IF NOT EXISTS public.news_daily
(
    news_id integer NOT NULL DEFAULT nextval('all_id_seq'::regclass),
    created_time timestamp without time zone DEFAULT CURRENT_TIMESTAMP,
    news_time timestamp without time zone DEFAULT CURRENT_TIMESTAMP,
    title character varying COLLATE pg_catalog."default",
    link character varying COLLATE pg_catalog."default",
    source character varying COLLATE pg_catalog."default",
    comments character varying COLLATE pg_catalog."default",
    joins character varying COLLATE pg_catalog."default"
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值