
Python爬虫
文章平均质量分 70
笨小孩124
这个作者很懒,什么都没留下…
展开
-
Python大数据之Python爬虫学习总结——day17 综合案列
此模块目的是为了重复去读取各个国家疫情数据# 导包# 定义一个函数用于处理和分析各个国家的疫情数据"""此函数用于处理和分析各个国家的疫情数据:param file_path: json文件路径:param rep_str: 要替换的json数据开头子串:return: 返回的是元组(日期数据,确诊数据)"""# 一.数据处理: 抽取 转换 加载# 1.抽取: 读取文件中json数据# 打印数据,测试是否成功读取,注意: 测试完可以注释或者删除。原创 2023-10-19 21:26:11 · 107 阅读 · 1 评论 -
Python大数据之Python爬虫学习总结——day16 数据可视化
注意: 模块的名称不要以数字开头,不要是关键字,一般都是小写,可以字母数字下划线汉字组成(不建议)举例: 当前模块定义名称为:文件操作# 读取文件中的列表,并且把字符串类型转为列表本身# 写列表数据到文件中。原创 2023-10-19 21:18:34 · 263 阅读 · 1 评论 -
Python大数据之Python爬虫学习总结——day15 数据可视化和程序日志
日志优先级: DEBUG < INFO < WARNING < ERROR < CRITICAL。pyecharts: python版本的echarts工具。1.安装: pip install pyecharts。3.使用: 可以制作饼图,折线图,地图等可视化页面。echarts: 百度开源的一个数据可视化工具。2.导包: import pyecharts。python中日志模块: logging。WARNING: 警告信息(默认)CRITICAL: 危险信息。INFO: 正常运行信息。原创 2023-10-19 21:11:33 · 173 阅读 · 1 评论 -
Python大数据之Python爬虫学习总结——day14_爬取图片和数据
网络爬虫:(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 枚举函数自动生成从0开始的编号: enumerate()2.变量接收响应对象 = requests.get(url)枚举函数自动生成从0开始的编号: enumerate()字符串切割方法: split()字符串切割方法: split() 文件操作相关知识点。4.检索自己想要的数据。原创 2023-10-15 21:53:28 · 891 阅读 · 0 评论 -
Python大数据之Python爬虫学习总结——day13 正则表达式
(regular expression)描述了一种字符串匹配的模式,可以用来检查一个大字符串中是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。已知页面部分源码,其中包含了很多图片标签,要求扫描整个字符串,提取每个图片的路径。一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。2.正则表达式通用性很强,能够适用于很多编程语言。1.正则表达式的语法很令人头秃,可读性差。让.匹配到\n,实现真正的任意。匹配前一个字符出现次数。原创 2023-10-15 21:14:50 · 987 阅读 · 1 评论 -
Python大数据之Python爬虫学习总结——day12_web服务器优化
注意: 在web服务器中如果服务器指定的是本地局域网分配的ip地址,那么此局域网内所有的主机都能互相访问。: 查看本机ip地址(局域网或者外网的ip都能查看)2.with open特点: 可以自动关闭文件对象。不用去添加f.close(),比较方便。1.with open格式。原创 2023-10-15 19:55:01 · 121 阅读 · 1 评论 -
Python大数据之Python爬虫学习总结——day11 HTTP协议-HTML页面-web服务器
超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。(Hyper Text,HT )是超级文本的中文缩写。超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。WWW是基于客户机/服务器方式的信息发现技术和超文本技术的综合。传输控制协议(TCP,Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议。原创 2023-10-11 20:06:42 · 87 阅读 · 0 评论