- 博客(22)
- 收藏
- 关注
原创 BeautifulSoup核心学习笔记
摘要:BeautifulSoup(BS4)是Python解析HTML/XML的库,提供简单API提取网页数据。支持多种解析器,自动修复不规范HTML。安装需pip install beautifulsoup4 lxml。核心用法包括CSS选择器(类、ID、层级、属性等),如soup.select(".price_color")提取价格。相比lxml,BS4更易用但性能稍弱,适合爬虫新手处理静态页面。
2025-12-21 03:33:55
350
原创 类变量和实例变量的区别?
Python类变量与实例变量区别摘要 类变量和实例变量的核心区别在于归属关系: 类变量属于类本身,所有实例共享 实例变量属于具体实例,彼此独立 使用建议: 类变量通过类名访问,存储共享数据 实例变量通过实例名访问,存储私有数据 避免通过实例修改不可变类变量 可变类变量的修改会影响所有实例
2025-12-21 02:57:20
190
原创 爬虫requests库核心学习笔记
摘要: Requests是Python中最流行的HTTP请求库,语法简洁易用,支持GET/POST等请求方法,适用于网页爬取和API调用。核心功能包括:通过get()/post()发送请求,使用headers/params/data等参数配置请求头和数据,通过text/content/json()获取响应内容。关键技巧包括设置User-Agent反爬、超时控制(timeout)、代理IP(proxies)和Session会话保持。常见问题如403/404错误、编码乱码等可通过调整请求头、编码格式或代理解决,
2025-12-20 12:33:46
719
原创 User-Agent池是什么
本文介绍了User-Agent(UA)及其在爬虫中的应用。UA是客户端向服务器标识自身软硬件配置的特殊字符串,包含设备、浏览器、系统等信息。UA池是由多个不同UA组成的集合,其核心作用是通过随机切换UA来模拟真实用户访问的多样性,从而规避网站基础反爬策略。使用UA池能有效避免因单一UA频繁请求而被识别为爬虫,降低被封禁风险。实际应用中可手动构建UA列表或使用工具库生成,配合随机请求间隔等措施提升爬虫稳定性。
2025-12-20 11:36:30
383
原创 python的参数传递机制是什么
Python函数参数传递本质是引用传递,变量是对对象的引用。对象分为可变(列表、字典、集合)和不可变(数字、字符串、元组)两类。对不可变对象,只能通过改变变量引用来实现"修改",如x=3改为x=4。这种机制决定了Python参数传递的特性,也是面试常考的重点内容。
2025-12-19 22:51:27
197
原创 线性代数-行列式和矩阵
n阶行列式表示所有取做不同行不同列的n个元数乘积的代数和(和三阶行列式方法一样,不过数据量太大,过于复杂)由m×n个数排成一个m行n列的矩形数表称为一个m×n矩阵实矩阵:元素是实数的矩阵复矩阵:元素是复数的矩阵零矩阵:所有元素都是零的m×n矩阵行矩阵:一个1×n的矩阵(也称为n维行向量)列矩阵:一个n×1的矩阵(也称为n维列向量)
2023-08-20 12:54:38
1368
1
原创 人工智能一些常用数据集
与这个数据集相关的任务是:利用犯罪率,是否临近查尔斯河,公路可达性等信息,来预测20世纪70年代波士顿地区房价的中位数。数据集中包含506个数据点,有13个基本特征,同时把任意两个基本特征的乘积也作为特征,共计104个特征。数据集中的数据可以通过mglearn模块中的make_wave函数来加载。有30个数据点,每个数据点有一个特征值和一个连续的标签值。数据集中包含569个数据,每个数据中包含30个特征和标签。威斯康星州乳腺癌数据集,记录了乳腺癌肿瘤的临床测量数据。random:任意的,随机的。
2023-08-20 12:52:12
252
1
原创 人工智能、机器学习与深度学习的关系
相比于传统的机器学习,深度学习不再需要人工的方式进行特征提取,而是自动从简单特征中提取、组合更复杂的特征,从数据里学习到复杂的特征表达形式并使用这些组合特征解决问题。机器学习是一种训练算法的方式,目的是使机器能够向算法传送大量的数据,并允许算法进行自我调整和改进,而不是利用具有特定指令的软码编程来完成任务。以下棋为例:设计出的程序可以随着对弈盘数的增加,不断修正自己下棋的策略,胜率不断地提高,就认为这个程序可以在经验中学习。深度学习是基于多层神经网络的,以海量数据为输入的,规则自学习的方法。
2023-08-20 12:47:38
227
1
原创 numpy基本方法的使用
例子: [[1, 2], [2, 3], [2, 4]] + [1, 4] = 前面的每个小数组都加一遍后面的数组。一个的维度和另一个的子维度相同,进行加法是将这个array与哪个小的array一次相加。维度相同的两个array对位运算,进行加法就是对位相加,结果和它们原来的维度相同。向量化的优势在于比普通方法提高了运行效率。在-10到10之前生成100个数。(下面的情况叫广播机制)
2023-08-20 12:46:19
81
1
原创 anaconda设置自动换行
报错:Collecting package metadata (current_repodata.json): failed。点击base(root)右侧的三角形,选择 Open Terminal打开终端。(1). 找到 .condarc文件。(2). 编辑文件.condarc。False消失,变成了done。也就是启动anaconda。删除里面所有的内容,替换成。下载需要时间,耐心等待。(3). 替换文件内容。
2023-08-20 12:40:28
574
1
原创 如何从U盘重装windows10/11
(1). 在设置网络方面出现了文件(电脑没有无线网卡,网线上网又要验证,所以出现了设置时没有网络的现象)有时候电脑会多一个EFI的磁盘,根据我的经验,一般出现了这个磁盘重装系统就不会成功了。解决方法:可以将手机连上电脑,手机开和电脑USB网络共享就可以了。输入的压缩的大小是保留下来的空间,其余的是要新建为其他磁盘的容量。(如果不小心按了重启,就再次格式化c盘,重新再来一遍)将工具放入u盘后重启电脑,然后选择从u盘启动。制作启动u盘完成后U盘是空的,没有任何东西。(在重装之前要将重要数据备份好,会丢失)
2023-08-20 12:37:20
1933
1
原创 在linux集群上搭建hadoopHA
之前启动的两个namenode节点现在处于standby状态。将主节点启动namenode产生的元数据复制到备用主节点上。启动namenode后会产生images元数据。jps查看进程名为journalNode。启动master上的namenode。jps进程名为NameNode。在slave1节点主机上输入。三台节点主机都要开启zk。在master上输入命令。分发完成记得使文件生效。配置环境变量并且分发。三台节点主机分别启动。
2023-08-20 12:31:09
104
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅