
python爬虫
文章平均质量分 84
忘忧记
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python的类型注解讲解
Python类型注解指南:提升代码质量与可维护性 本文介绍了Python类型注解的基本概念和使用方法。类型注解允许开发者为变量、函数参数和返回值添加类型提示,虽不强制执行类型检查,但能显著提高代码可读性、支持静态类型检查工具(如mypy)、增强IDE智能支持并改善团队协作。文章详细讲解了变量、函数参数、复杂类型(如List、Dict)、类属性、泛型和类型别名的注解语法,展示了如何利用typing模块中的工具进行更精确的类型提示。类型注解特别适用于大型项目,能帮助开发者提前发现潜在问题,降低维护成本。原创 2025-07-11 13:23:48 · 321 阅读 · 0 评论 -
python的conda的使用
Conda 是一个强大的工具,适用于创建隔离环境和管理包。熟练使用 Conda 可以避免许多 Python 环境和包冲突问题。借助镜像源,可以大幅提升 Conda 的下载速度。原创 2024-12-23 20:12:08 · 636 阅读 · 0 评论 -
Pyecharts绘制各种折线图实战
在每次调用时设置 is_smooth=True 来平滑折线,area_style=opts.AreaStyleOpts(opacity=0.3) 设置折线下方区域的透明度(你可以根据需求调整透明度),并使用 linestyle_opts 设置折线颜色。legend_opts=opts.LegendOpts(is_show=True) 用于显示图例,这样可以通过点击图例来选择/隐藏不同的系列。如果需要在同一张图表中展示多条折线,比如比较不同城市的温度变化情况,可以使用 add_yaxis 方法添加多条数据。原创 2024-12-09 16:34:37 · 576 阅读 · 0 评论 -
Pyecharts 基础入门
Pyecharts 支持丰富的图表自定义,可以调整颜色、标题、坐标轴、工具栏等。line = Line("自定义折线图")line.add_yaxis("温度", [22, 25, 30, 35])# 设置标题样式title_opts={"title": "气温变化", "subtitle": "某城市温度变化"},xaxis_opts={"name": "年份", "type": "category"},yaxis_opts={"name": "温度(°C)"}折线图(Line)柱状图。原创 2024-12-09 13:09:31 · 810 阅读 · 0 评论 -
Python MySQL SQLServer操作
Python 可以通过pymysql连接 MySQL,通过pymssql连接 SQL Server。pymysql。原创 2024-11-21 09:59:12 · 662 阅读 · 0 评论 -
JSON模块基础与实战
假设你有一个 Python 类Person# 创建一个 Person 对象# 定义一个自定义的 JSON 序列化函数type。原创 2024-11-21 08:48:59 · 1049 阅读 · 0 评论 -
python的OS模块基础总结
OS模块基础大总结Python 的os模块提供了与操作系统交互的多种功能,主要用于文件和目录的操作、获取系统信息以及进程管理。以下是对os模块常用功能的总结,以及实际代码示例。1. OS模块基础操作1.1 获取和设置当前工作目录: 获取当前工作目录。: 改变当前工作目录。代码示例import os# 获取当前工作目录print("当前工作目录:", current_dir)# 改变当前工作目录new_dir = "/tmp" # 示例路径。原创 2024-11-20 14:53:40 · 337 阅读 · 0 评论 -
多进程的操作和案例
介绍python多进程的用法原创 2024-11-12 13:04:57 · 592 阅读 · 0 评论 -
线程和进程
这种计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。涉及到网络、磁盘IO的任务都是IO密集型任务,这类任务的特点是CPU消耗很少,任务的大部分时间都在等待IO操作完成(因为IO的速度远远低于CPU和内存的速度)。当有某个任务完成的时候,会yield这个任务,就能执行for循环下面的语句,然后继续阻塞住,循环到所有任务结束,同时,先完成的任务会先返回给主线程。原创 2024-11-11 17:12:20 · 1112 阅读 · 0 评论 -
爬虫入门urllib 和 request(二)
除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!urllib在python中分为urllib和urllib2,在python3中为urllib下面以python3的urllib为例进行讲解构造简单请求#构造请求#发送请求获取响应传入headers参数#构造headersMSIE 9.0;#构造请求#发送请求传入data参数 实现发送post请求(示例)data = {'pid': '','keyword': '北京',原创 2024-11-06 10:59:13 · 1419 阅读 · 0 评论 -
爬虫入门urllib 和 request (一)
在开始进行爬虫的知识之前,我们需要明白web网页是怎么工作的?浏览器工具是怎么使用的?反爬虫的手段手段是那些?原创 2024-08-31 09:47:59 · 2053 阅读 · 0 评论 -
xpath语法详解
XPath 是一门在 XML 文档中查找信息的语言。查找所有id属性等于head并且class属性等于s_down的div标签。html_tree = etree.HTML(html字符串)通过在路径表达式中使用“|”运算符,您可以选取若干个路径。谓语用来查找某个特定的节点或者包含某个指定的值的节点。注意: “|”两边必须是完整的xpath路径。查询所有id属性中包以he开头的div标签。查找所有div标签下的直接子节点h1的内容。查询所有id属性中包含he的div标签。etree.HTML()(建议)原创 2024-08-31 00:05:02 · 906 阅读 · 0 评论 -
beautifulsoup的简单使用
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 **soup.select(),**返回类型是。如果属性字典中的键值对完全匹配一个标签的属性,则该标签会被返回。组合查找即和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开。如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为。原创 2024-08-12 23:17:41 · 1456 阅读 · 0 评论 -
正则表达式
则表达式是一种强大的文本处理工具,用于搜索、替换、检查或解析特定模式的字符串。正则表达式使用单个字符串来描述、匹配和处理一系列符合某个句法规则的字符串。Python 的 re 模块提供了对正则表达式的全面支持,包括编译正则表达式、执行匹配检查、搜索和替换文本等功能。如下四个方法经常使用match()search()findall()finditer()原创 2024-08-10 22:48:35 · 1590 阅读 · 1 评论 -
配置python的基本环境
Python 是一种广泛使用的高级编程语言,由 Guido van Rossum 在1989年底发明,第一个公开发行版发行于1991年。Python 的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进来区分代码块,而不是使用大括号或关键词)。这使得 Python 成为一种易于学习的语言,同时具备强大的功能,适合快速开发。Python 的名字来源于 Guido van Rossum 喜爱的喜剧团体 Monty Python,与爬行动物没有关系。原创 2024-08-05 22:04:17 · 1244 阅读 · 0 评论 -
python爬虫初识
现在看一下这三者的关系URL统一资源定位符,而URN统一资源名称。**URI(Uniform Resource Identifier,统一资源标识符)**是一个通用的概念,用于唯一标识一个资源。它包括了URL(Uniform Resource Locator,统一资源定位符)和URN(Uniform Resource Name,统一资源名称)。URL不仅标识资源,还提供了资源的位置信息,如协议类型(如HTTPS)、服务器地址、端口号以及资源的路径等。原创 2024-08-01 17:00:14 · 1386 阅读 · 0 评论