网络爬虫基础练习

最新推荐文章于 2022-05-06 08:21:07 发布

weixin_30278311

最新推荐文章于 2022-05-06 08:21:07 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/229zyx/p/8678134.html

0.可以新建一个用于练习的html文件，在浏览器中打开。

1.利用requests.get(url)获取网页页面的html文件

import requests
url = "http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html"
res = requests.get(url)
res.encoding = "utf-8"
res.text
print(res.text)

2.利用BeautifulSoup的HTML解析器，生成结构树

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text, 'html.parser')

3.找出特定标签的html元素

soup.p #标签名，返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典，标签的所有属性

soup.p. contents # 列表，所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

5.练习：

取出h1标签的文本

for li in soup.select('li'):
    print(li.text)

取出a标签的链接

for link in  soup.select('a'):
    print(link.get('href'))

取出所有li标签的所有内容

for li in soup.select('li'):
    print(li.text)

取出一条新闻的标题、链接、发布时间、来源

print(soup.select('.show-nav')[0].a.attrs['href'])

转载于:https://www.cnblogs.com/229zyx/p/8678134.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30278311

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

网络爬虫作业练习_爬虫_python学习_网络爬虫_python_

10-03

网络爬虫作业练习

网络爬虫基本练习

dianshuo4558的博客

03-29

123

1.取出h1标签的文本 import requests url = 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html' res = requests.get(url) res.encoding='utf-8' from bs4 import BeautifulSoup soup = Beautiful...

参与评论您还未登录，请先登录后发表或查看评论

网络爬虫练习

03-29

176

1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.encoding='utf-8' 2.利用BeautifulSoup的HTML...

网络爬虫练习-1

有朋自远方来，不亦乐乎。

04-08

2456

爬取中国新闻网滚动新闻：滚动新闻-中国新闻网-梳理天下新闻 (chinanews.com.cn)将上述中国新闻网滚动新闻第一页的新闻内容爬下来，保存到txt文件中（可以统一保存到一个，也可以每个新闻保存一个）。新闻第一页共有125条新闻，首先先获取一下所有新闻的超链接： from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen('https://www.chinanews.co

Python网络爬虫技术_习题答案.rar

07-12

Python网络爬虫技术是当前IT领域中非常热门的一个分支，尤其在大数据分析和人工智能应用中起着关键作用。...通过系统学习并练习，可以有效地提升网络爬虫技术，为从事数据分析、人工智能等相关工作打下坚实的基础。

《从零开始学Python网络爬虫》练习代码.zip

02-21

这本书通过实例和练习，让读者逐步理解网络爬虫的工作原理，并学会如何编写自己的爬虫程序。练习代码.zip文件包含了书中各个章节的实践代码，为学习者提供了直观的学习材料。在Python网络爬虫的世界里，你需要了解...

python网络爬虫-入门基础学习爬虫原理.zip

最新发布

05-20

Python网络爬虫是一种用于自动化获取互联网上数据的技术，它能够高效地遍历网页，提取所需信息，为数据分析、网站维护、市场研究等提供强大的支持。本文将深入探讨Python爬虫的基础概念、工作原理以及入门所需的必备...

python爬虫练习.zip

12-28

教程详尽：配套的Python爬虫教程，从基础到进阶，让您逐步掌握爬虫的核心技术。合法合规：严格遵守法律法规和网站使用协议，确保采集行为合法，尊重网站权益。实战项目：结合实际案例，让您在实践中掌握Python爬虫...

网络爬虫练习1

weixin_42066363的博客

06-11

253

** 网络爬虫练习——开发环境配置 ** 1、安装ChromeDriver遇到的问题及解决方案使用如下代码测试ChromeDriver是否配置成功： from selenium import webdriver browser=webdriver.Chrome() 在运行代码后发现出现如下错误： Traceback (most recent call last): F...

爬虫练习，适合新手

05-05

一个简单的爬虫代码，适合新手玩一玩，代码很简洁，有兴趣的可以下载看一看。

程序员5个刷题网站-Crawl:学习爬虫的经验总结

07-07

程序员5个刷题网站 1、 2、 3、 4、 5、怎么学好python推荐看这本书就好了《python面向对象》，一般能把这本书啃下来，基本python的很多东西都看得懂 6、一个很好的网站，里面很多书都在里面，可以直接在这里找到你想要看的书，就没别必要乱花钱买一些不知道水有多深的书籍了。 7、如果想成为一个出色的程序员必须要掌握的技能：算法、网络（TCP）、Linux内核（用户态内核态），算法的话多刷题就好了，网络就是计算机网络了，一般掌握这些基本功，有这些功底在，很多语言很快就学会了，也不用每次面对一门新的语言学的那么累。 8、 9、如果想要在手机上进行抓取数据，需要用到夜神模拟器和fiddler抓包工具如果觉得不错的点一下右上角的start吧，你的支持是我更新的最大动力

静态页面的图片爬取器（爬虫）批量下载图片

12-13

自己用Python3写的针对任何静态页面的图片爬取器（爬虫）, 批量下载省力省心。

Python网络爬虫快速上手

m0_49139268的博客

10-13

5042

环境准备：事先安装好，pycharm 打开File——>Settings——>Projext——>Project Interpriter 点击加号（图中红圈的地方）点击红圈中的按钮选中第一条，点击铅笔，将原来的链接替换为（这里已经替换过了）： https://pypi.tuna.tsinghua.edu.cn/simple/ 点击OK后，输入requests-html然后回车选中requests-html后点击Install Package 等待安装成功，关闭通过解析网页

python网络爬虫教程(一)：一篇文章轻松搞定网络基础

weixin_45698431的博客

05-25

1353

网络爬虫是一种高效的信息采集利器，利用她可以快速、准确地采集我们想要的各种数据资源，在这个充满各种信息的时代，大数据深刻地改变着我们的工作和生活，而数据的获取很大程度上依赖于爬虫的爬取。在开始系统地学习网络爬虫之前，我们需要对网络基础有一定的了解，如服务器请求的收发原理、HTTP原理、爬虫的基本原理等，在本章中我们就对这些基础知识做一个简单的总结。 URL概念 URL是Uniform Resource Locator的简称，翻译过来就是“统一资源定位符”，在访问网络资源时，我们可以用它来唯一指定它的访

爬虫入门及练习

qq_51086303的博客

01-08

2803

一、wireshark抓取网络数据包二级目录三级目录二、爬虫入门1.爬虫简述二级标题二级标题一、wireshark抓取网络数据包二级目录三级目录二、爬虫入门 1.爬虫简述（1)原理 网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。（2）分类 网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose.

《python网络爬虫》1-7章答案