Po_python_lesson10_通信_2017/7/27

本文介绍Python爬虫的基础知识,包括所需的语言基础、爬虫业务知识及网页结构认识,并通过实例演示如何利用BeautifulSoup库从HTML文件中提取信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通信

  • 实战    爬虫理论
1、需要语言基础
    • 循环
    •    判断
    • 方法
    • 模块
2、爬虫业务相关知识
    • 搜索引擎(GOOLE)
    • 由很多的网络爬虫组成的
    • 把所有的网站变成可索引化的东西
    • 小型爬虫
    • 统计
    • 归类
3、认识网页的结构
    • 每一个网站-——>html文件
    • head-——>titlei标题    head 没有什么用
    •   link链接

    body                             body最重要部分

 标签<div......div> 为一块

鼠标放在网页右键点击   审查元素   会返回到相应的标签    阴影部分

4、 制作爬虫
  • 在pycharm中新建项目WebCrawlersDemo

  • 再新建main.py,先导入第三方库bs4 , from bs4 import BeautifulSoup
                • BeautifulSoup作用:从html中提取信息 Tag
  • 如何使用bs4:
    • soup = BeautifulSoup(html_doc,lxml)
      • print(soup.title) #soup+标签名 a为Tag类的对象
        • print(soup.a) #为什么只打印了第一个,不会了看文档 help() ; type()
  • 将html里面的每一个标签解释为一个Tag对象
    • print(type(soup.find_all('span'))) #如何调用find_all()
    • print(help(soup.find_all(span')))
for item in soup.find_all('span'):
print(item) #找出所有的span
  • 在WebCrawlersDemo项目 文件夹下复制粘贴html文件 重命名为test
    • html_file = open('test.html',encoding = 'utf-8') #打开test.html文件进行解析
      • html file.close() #记着要关闭
  • soup.find(id = ' ') 每个Tag都有自己的名字,通过 .name 来获取: Tag.name
    • 如:print(item.name)
  • 一个Tag可能有很多个属性,
tag<b class='boldest'>有一个”class“的属性,值为”boldest“,
  • tag属性的操作方法与字典相同:tag['class']
    • print(item('class'))
  • 也可以直接”点“取属性,比如 tag.attrs
    • print(item.attrs)

        如有错误,请指正!

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值