自己python 爬虫入门的小坑

本文讲述了在使用Python的BeautifulSoup解析HTML文件时遇到的编码问题,包括忘记文件扩展名导致的问题及不同编码设置对文件解析的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.文件扩展名

啊!一般人都不会犯得错误啊~ 偏偏被我犯了

本地自建的一个HTNL文件
本地自建的一个HTNL文件
请一定记得勾选此选项,不然文件就会成上面那个样子(PS:自己真不愧小白的名号!)。当你输入文件路径时很容易就会忘记扩展名,从而会报路径或文件找不到的错误
这里写图片描述

2.运行报错!

下面是一丢丢源代码

with open(r"H:\text\homework.html", 'r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    print(Soup)

运行后的结果就是这样了…..(PS:我也很无奈)
这里写图片描述
我自己上网搜了一下解决方案,是说文件打开时的编码有问题
大致是一下这么几种方案:
(1)打开文件时设置编码格式,最常见的就是gbk和utf-8

 with open(r"H:\text\homework.html", encoding='gbk') as wb_data:

(2)如果仍然进行报错,那文件中应该出现了一些字符超出了编码范围,所以更大的编码范围是gb18030

with open(r"H:\text\homework.html", encoding='gb18030') as wb_data:

(3)天啊!如果还是不行,那你忽略掉吧!当然不是没有缺点的,会出现乱码

with open(r"H:\text\homework.html",encoding='gb18030',errors='ignore') as wb_data:

就是这样子咯
这里写图片描述

3.求助

我打开源文件看了一眼,发现出现编码问题的就是注释这一部分
这里写图片描述
我试了上面的所有方法,仍然提示编码错误或者是出现乱码,迫于无奈,小白的我把那些注释全部删掉后可以正常的跑出来了~

嘤嘤嘤,哪位大神知道怎么解决的话求解答啊啊啊啊啊啊啊

一、综合实战—使用极轴追踪方式绘制信号灯 实战目标:利用对象捕捉追踪和极轴追踪功能创建信号灯图形 技术要点:结合两种追踪方式实现精确绘图,适用于工程制图中需要精确定位的场景 1. 切换至AutoCAD 操作步骤: 启动AutoCAD 2016软件 打开随书光盘中的素材文件 确认工作空间为"草图与注释"模式 2. 绘图设置 1)草图设置对话框 打开方式:通过"工具→绘图设置"菜单命令 功能定位:该对话框包含捕捉、追踪等核心绘图辅助功能设置 2)对象捕捉设置 关键配置: 启用对象捕捉(F3快捷键) 启用对象捕捉追踪(F11快捷键) 勾选端点、中心、圆心、象限点等常用捕捉模式 追踪原理:命令执行时悬停光标可显示追踪矢量,再次悬停可停止追踪 3)极轴追踪设置 参数设置: 启用极轴追踪功能 设置角度增量为45度 确认后退出对话框 3. 绘制信号灯 1)绘制圆形 执行命令:"绘图→圆→圆心、半径"命令 绘制过程: 使用对象捕捉追踪定位矩形中心作为圆心 输入半径值30并按Enter确认 通过象限点捕捉确保圆形位置准确 2)绘制直线 操作要点: 选择"绘图→直线"命令 捕捉矩形上边中点作为起点 捕捉圆的上象限点作为终点 按Enter结束当前直线命令 重复技巧: 按Enter可重复最近使用的直线命令 通过圆心捕捉和极轴追踪绘制放射状直线 最终形成完整的信号灯指示图案 3)完成绘制 验证要点: 检查所有直线是否准确连接圆心和象限点 确认极轴追踪的45度增量是否体现 保存绘图文件(快捷键Ctrl+S)
<think>嗯,用户想了解Python入门的学习路径和推荐教程。结合之前提供的站内引用内容,我需要整合出一个系统的入门学习方法。用户明确提到“学习路径”和“推荐教程”两个重点,根据引用[2],毫无基础的用户可以从Python官方中文教程开始,这是个可靠的切入点。引用[1]和[3]都强调了学习路线图的重要性,这提示我应该提供分阶段的路径设计。引用[4]提到的实践项目很关键,特别是那个2048游戏的例子很适合初学者。考虑设计一个四阶段学习路径:先安装环境打基础,再系统学习基础语法,然后用实践项目巩固学习,最后进阶到特定方向。每个阶段都要标注推荐工具和练习时长,用户都是自学党需要明确的时间参考。在教程推荐上,应该包含三个层次:官方资源(如引用[2]建议的)、经典图书(引用[4]提到的《集体智慧编程》)和免费课程(引用[3]提到的优快云资料)。特别要注意引用中反复出现的“标准库”和“语法练习”这两个点,所以准备专门设计基础语法的练习重点,包括文件操作和网络请求这些实用技能。针对用户最可能遇到的编程环境配置问题(引用[1]提到过),要强调Anaconda+VSCode的组合优势。最后主动提出三个进阶问题:持续学习资源方案、目标导向学习方法和Python方向选择建议,这样能引导用户深入思考。准备在回复时注意所有行内变量都用$...$标记,如$Python$安装路径。</think> 以下是针对零基础学习者的Python高效入门路径,结合主流教程和实践经验整理: --- ### **一、学习路径设计(分阶段递进)** #### **阶段1:环境搭建与基础语法(1-2周)** - **核心工具**: - 安装Python:推荐使用[Anaconda](https://www.anaconda.com/)(集成开发环境) - 编辑器:VS Code(轻量级)或PyCharm社区版(功能全) - **学习重点**: - 变量与数据类型(字符串/列表/字典) - 条件语句(`if-elif-else`) - 循环结构(`for`/`while`) - 函数定义与调用 - **练习建议**:每天完成10个小练习(如:计算器、简易通讯录) #### **阶段2:项目驱动实战(2-3周)** | **项目类型** | **推荐库** | **案例** | |---------------------|------------------|--------------------------| | 数据处理 | pandas/numpy | 分析CSV文件中的销售数据 | | 网络爬虫 | requests/BeautifulSoup | 爬取天气预报数据 | | 自动化办公 | openpyxl/PDFplumber | Excel报表处理 | #### **阶段3:方向专项提升(4周+)** ```mermaid graph LR A[基础语法] --> B{方向选择} B --> C[Web开发] B --> D[数据分析] B --> E[自动化运维] C --> F(Flask/Django) D --> G(Pandas/Matplotlib) E --> H(Ansible/Docker) ``` --- ### **二、权威教程推荐** #### **免费资源** 1. **官方文档**([Python中文文档](https://docs.python.org/zh-cn/3/tutorial/index.html)) - 语法最权威的解释,含交互式示例[^2] 2. **实战平台**: - [Codecademy](https://www.codecademy.com/):交互式学习环境 - [夜曲编程](https://npython.com/):中文场景化教学 3. **经典图书**: - 《Python编程:从入门到实践》(项目驱动型) - 《集体智慧编程》(算法+实践结合)[^4] #### **体系化课程** - **微软Python入门课**(edX平台) - **北理工《Python语言程序设计》**(中国大学MOOC) --- ### **三、避指南** 1. **语法学习误区**: - 避免死记硬背,重点理解`迭代器`、`生成器`等核心概念 - 函数参数传递机制(可变/不可变对象)需实操验证 2. **项目实践要点**: - 先模仿再创新:GitHub搜索`python beginner projects` - 版本控制:早期即学习`Git`基础命令 3. **调试能力培养**: - 掌握`pdb`调试器基础命令: ```python import pdb; pdb.set_trace() # 设置断点 ``` --- ### **四、持续学习建议** - **社区资源**: - Stack Overflow:搜索`[python]`标签 - 中文论坛:Python.cn(原蟒社区) - **进阶路径**: $$ \text{基础语法} \rightarrow \text{标准库精研} \rightarrow \text{框架专精} \rightarrow \text{源码阅读} $$ - 保持周更:至少贡献1个开源项目issue或写技术博客 > 附:学习成效自测表 > | 能力项 | 达标要求 | > |----------------|----------------------------| > | 基础语法 | 能独立编写贪吃蛇游戏 | > | 数据处理 | 可完成数据清洗+可视化分析 | > | 工程化能力 | 用virtualenv管理项目环境 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值