Po_python_lesson10_通信_2017/7/27

最新推荐文章于 2024-05-17 03:12:05 发布

原创最新推荐文章于 2024-05-17 03:12:05 发布 · 231 阅读

0 ·

CC 4.0 BY-SA版权

Po-Python 专栏收录该内容

2 篇文章

订阅专栏

本文介绍Python爬虫的基础知识，包括所需的语言基础、爬虫业务知识及网页结构认识，并通过实例演示如何利用BeautifulSoup库从HTML文件中提取信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通信

实战爬虫理论
1、需要语言基础

循环
   判断
方法
模块
类

2、爬虫业务相关知识

搜索引擎（GOOLE）
由很多的网络爬虫组成的
把所有的网站变成可索引化的东西
小型爬虫
统计
归类
类

3、认识网页的结构

每一个网站-——>html文件
head-——>titlei标题 head 没有什么用
  link链接

  body body最重要部分

标签<div......div> 为一块

鼠标放在网页右键点击审查元素   会返回到相应的标签阴影部分

4、制作爬虫

在pycharm中新建项目WebCrawlersDemo

再新建main.py,先导入第三方库bs4 , from bs4 import BeautifulSoup
BeautifulSoup作用：从html中提取信息 Tag

如何使用bs4：
soup = BeautifulSoup(html_doc,lxml)
print(soup.title) #soup+标签名 a为Tag类的对象
print(soup.a) #为什么只打印了第一个，不会了看文档 help() ; type()

将html里面的每一个标签解释为一个Tag对象
print(type(soup.find_all('span'))) #如何调用find_all()
print(help(soup.find_all(span')))

for item in soup.find_all('span'):

print(item) #找出所有的span

在WebCrawlersDemo项目文件夹下复制粘贴html文件重命名为test
html_file = open('test.html'，encoding = 'utf-8') #打开test.html文件进行解析
html file.close() #记着要关闭

soup.find(id = ' ') 每个Tag都有自己的名字，通过 .name 来获取: Tag.name
如：print(item.name)

一个Tag可能有很多个属性，