python
基础知识和简单的爬虫
dadada~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ubuntu python版本
ubuntu18.04自带python3.6 安装不同版本python: 从官网下载源码编译安装 apt install python3.7-minimal 切换默认版本: update-alternatives是管理Linux软件版本的工具,标准格式--install link name path priority install是注册服务。 link是注册最终地址,把命令在这个固定的目的地址做真实命令的软链,以后管理就是管理这个软链 服务名,命令行直接打开的服务。 path被管理的软件的绝对路径。原创 2022-03-06 11:51:30 · 680 阅读 · 0 评论 -
python ModuleNotFoundError
1.在terminal运行时,import默认从以下路径寻找模块 如果找不到或存在多个版本的模块就会报错ModuleNotFoundError。 2.如果是在pycharm venv或conda等虚拟环境就需要检查虚拟环境中是否安装了模块。 3.如果在pytharm中出现Unresolved reference: 设置项目为Source root并重启 ...原创 2021-11-29 10:17:48 · 204 阅读 · 0 评论 -
pip安装package问题
1、下载失败,换国内源 (地址) pycharm可以加到repo里,但有时还是下载失败(可能是默认源的问题) 用链接里手动指定源下载比较稳。 2、pip版本或python版本与package不匹配。原创 2021-01-29 08:46:01 · 287 阅读 · 0 评论 -
Python拷贝问题
Python拷贝问题 直接赋值 list1 = [[1,2,3], ['a','b','c']] list2 = list1 获得整个对象的引用,对象改变引用也改变。 浅拷贝 list1 = [[1,2,3], ['a','b','c']] list2 = list1.copy() dict, list 都有copy()方法进行浅拷贝。 浅拷贝后 list1 和 list2 是两个不同的对象,但这两个对象内部引用的子对象还是相同的。 list1[0].append(4) # list2 -> [原创 2020-11-12 18:43:03 · 306 阅读 · 0 评论 -
HTTP基本知识
1.1 URL / URI :唯一指定了一个网络资源的访问方式 超文本:网页的源代码HTML就是超文本 协议类型: HTTP(Hyper Text Transfer Protocol):超文本传输协议 HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer):HTTP加入SSL层,保障数据信息安全,且能确认网站的真实信息(某些网站的证书未被CA机构信任,但它的数据传输仍然是SSL加密的,需要忽略证书的选项,否则会SSL链接错误) 1.原创 2020-07-19 10:21:29 · 153 阅读 · 0 评论 -
python爬虫开发环境配置
安装python (下载速度过慢可以用清华大学镜像) 配置环境变量 找到python安装路径 将该路径复制下来,在系统属性的高级系统设置中找到环境变量 选中path点“编辑”,新建两个条目,分别是刚才python的安装路径和Scripts路径,如图 安装请求库 pycharm:File / Setting / Project Interpreter 点加号搜索相应库即可 提醒: 如果下载速度太慢,修改Manage Repositories设置 cmd:pip install name request原创 2020-07-18 12:13:30 · 374 阅读 · 0 评论 -
编码简单总结(python)
编程时要考虑编码(不仅是python)!!! 先介绍几种编码 1. ASCII(American Standard Code for Information Interchange) 128个,包含字母、数字、标点、控制符。 2. EASCII 256个,扩展了一些西欧字符,有诸多标准(一些标准互不兼容)。 兼容ASCII。 3. GBK GB标准中包含字符最多的,还收录少数民族常用文字。兼容ASCII。 英文一个字节原创 2020-07-10 08:33:53 · 246 阅读 · 0 评论 -
urllib简单网页抓取
python网络爬虫学习 URL(父类是URI) :统一资源定位符 构成:协议、主机、地址 (protocol、host、path) urlib包:抓取网页,处理URL,包含模块: request:打开读取URL error:(可以用try捕捉) parse:解析URL robotparser:可以测试一个页面是否可以被爬虫下载 用urlib实现简单的网页抓取 # -*- coding: UTF-8 -*- from urllib import request import chardet if原创 2020-07-07 09:50:54 · 270 阅读 · 0 评论 -
用urlib向网页发送数据
用urlib向网页发送数据原创 2020-07-10 08:46:34 · 318 阅读 · 0 评论
分享