通信
1、需要语言基础
- 实战 爬虫理论
2、爬虫业务相关知识
- 循环
- 判断
- 方法
- 模块
- 类
3、认识网页的结构
- 搜索引擎(GOOLE)
- 由很多的网络爬虫组成的
- 把所有的网站变成可索引化的东西
- 小型爬虫
- 统计
- 归类
- 类
- 每一个网站-——>html文件
- head-——>titlei标题 head 没有什么用
- link链接
body body最重要部分
标签<div......div> 为一块
鼠标放在网页右键点击 审查元素 会返回到相应的标签 阴影部分
4、 制作爬虫
- 在pycharm中新建项目WebCrawlersDemo
- 再新建main.py,先导入第三方库bs4 , from bs4 import BeautifulSoup
- BeautifulSoup作用:从html中提取信息 Tag
- 如何使用bs4:
- soup = BeautifulSoup(html_doc,lxml)
- print(soup.title) #soup+标签名 a为Tag类的对象
- print(soup.a) #为什么只打印了第一个,不会了看文档 help() ; type()
- 将html里面的每一个标签解释为一个Tag对象
- print(type(soup.find_all('span'))) #如何调用find_all()
- print(help(soup.find_all(span')))
for item in soup.find_all('span'):
print(item) #找出所有的span
- 在WebCrawlersDemo项目 文件夹下复制粘贴html文件 重命名为test
- html_file = open('test.html',encoding = 'utf-8') #打开test.html文件进行解析
- html file.close() #记着要关闭
- soup.find(id = ' ') 每个Tag都有自己的名字,通过 .name 来获取: Tag.name
- 如:print(item.name)
- 一个Tag可能有很多个属性,
tag<b class='boldest'>有一个”class“的属性,值为”boldest“,
- tag属性的操作方法与字典相同:tag['class']
- print(item('class'))
- 也可以直接”点“取属性,比如 tag.attrs
- print(item.attrs)
如有错误,请指正!