- 博客(48)
- 收藏
- 关注
原创 静态网页爬取实战:从 Requests 到 Xpath 的高效数据采集指南
静态网页爬取的核心在于 “精准获取 + 高效解析”。Requests 库解决 “如何拿到数据”,Xpath 解决 “如何提取数据”,二者结合便能让公开数据为你所用。无论是图书信息、音乐榜单还是小说数据,掌握这些技术,你都能轻松抓取所需内容。现在,不妨从爬取人邮教育图书列表开始实践,试试爬取多页数据,感受从代码到数据的奇妙转化。数据世界的大门,正等你来开启!
2025-07-23 18:32:17
1014
原创 Python Requests库实现模拟登录全攻略
本文介绍了使用Python Requests库实现模拟登录的核心技术与实践。主要内容包括:1. 模拟登录的必要性,如获取需身份验证的网页内容;2. Cookie与Session机制的原理及差异,Cookie存储在客户端,Session在服务器端;3. 两种模拟登录方法:直接携带Cookie和使用Session对象维持会话;4. 通过豆瓣网站的实际案例,演示了分析登录URL、构造请求参数、创建会话和验证登录状态的完整流程。文章强调理解状态保持机制的重要性,并展示了Requests库在模拟登录中的高效应用。
2025-07-18 16:08:43
2093
原创 TXT转HTML失败?一招解决扩展名问题
深度优先遍历类似于树的前序遍历。若W未曾访问过,则以W为新的出发点继续进行深度优先遍历,直至所有和源点V有路径相通的顶点(亦称为从源点可达的顶点)均已被访问为止;网页相关知识中,HTTP 原理是基础,包括 URI/URL 格式、HTTP 与 HTTPS 的区别(HTTPS 通过 SSL 加密且默认端口 443),以及 HTTP 请求过程(建立 TCP 连接、发送请求、服务器应答等)。爬虫策略有宽度优先遍历(分层抓取,优先重要页面)、深度优先遍历(纵深抓取)和带偏好的最佳优先爬虫(按网页重要性优先级抓取)。
2025-07-16 14:49:41
1019
1
原创 U-net系列算法综述
U-net 系列算法以其简洁有效的编码-解码结构和灵活的特征融合机制,成为图像分割领域的重要基石。从 U-net 到 U-net++,再到 U-net+++,其演进方向始终围绕更全面、更高效的特征利用与多尺度信息融合,推动着分割技术在不同视觉任务中的应用与发展。
2025-10-31 15:42:42
272
原创 图像分割技术全解析:概念、数据集、评估与网络架构
图像分割的本质是像素级分类:将图像中每个像素分配到特定类别,从而精准勾勒出目标的轮廓,实现 “哪里是目标、哪里是背景” 的细粒度区分,区别于目标检测仅输出目标边框的粗粒度定位。图像分割作为计算机视觉的细粒度任务,其技术体系涵盖 “定义 - 境界 - 数据 - 指标 - 架构” 五大核心环节:从像素级分类的基础定义出发,通过语义、实例、全景分割的三层递进实现场景理解;依托 VOC、Cityscape、COCO 等数据集构建训练基础;通过 PA、mIoU 等指标量化模型性能;
2025-10-29 16:11:27
883
原创 YOLOv5 核心技术解析与可视化指南
YOLOv5 通过创新的 Focus 模块、高效的 Hardswish 激活函数、强化的 Bottleneck CSP 模块与 SPP 模块,构建了性能优异的特征提取体系;借助 PAN 流程实现跨层级特征融合,提升了多尺度目标检测能力;同时通过 ONNX+Netron 的可视化方案,降低了网络结构的理解门槛。这些设计共同促成了 YOLOv5 在检测速度与精度上的平衡,使其成为目标检测领域广泛应用的模型之一,为深度学习在计算机视觉的工程化落地提供了重要参考。
2025-10-27 13:48:00
895
原创 YOLOv4:兼顾速度与精度的目标检测利器
在网络正则化和损失函数设计上,使用 DropBlock(区域遮挡替代随机点遮挡)、Label Smoothing(缓解过拟合),并优化了 IOU 损失,提出 GIOU、DIOU、CIOU 等损失函数,解决了传统 IOU 在无重叠时无法梯度计算的问题,同时考虑了预测框与真实框的多种几何关系,提升检测准确性。综合来看,YOLOv4 通过对数据处理和网络结构的全方位优化,在速度和精度上达到了出色的平衡,不仅适用于学术研究,更能满足实际应用中的多样化需求,成为目标检测领域的重要里程碑。
2025-10-20 14:11:20
197
原创 深度学习领域的重要突破:YOLOv3 目标检测技术解析
在深度学习目标检测领域,YOLO 系列算法凭借其高效的检测速度和出色的精度,一直备受关注。其中,YOLOv3 作为该系列的重要版本,在网络结构、特征处理、先验框设计等方面进行了多项关键改进,显著提升了小目标检测能力,成为当时目标检测领域的重要里程碑。
2025-10-17 15:52:15
711
原创 YOLOv1与YOLOv2:目标检测的快速进化之路
YOLOv1以其“只看一次”的极简思想开创了单阶段目标检测的先河,而YOLOv2则通过Batch Normalization、Anchor Box、多尺度训练等一系列技术大幅提升了模型性能。YOLO系列的演进不仅推动了目标检测技术的发展,也为后续的YOLOv3、v4乃至v5奠定了坚实基础。
2025-10-16 15:39:38
326
原创 用 PyTorch 实现 MNIST 手写数字识别:从入门到实践
MNIST(Modified National Institute of Standards and Technology)数据集包含 60,000 个训练样本和 10,000 个测试样本,均为 28×28 像素的灰度手写数字图像(0-9)。数据规模适中,不需要超级计算机也能训练任务明确(10 分类问题),评价指标简单(准确率)预处理简单,无需复杂的图像增强本文详细介绍了使用 PyTorch 实现 MNIST 手写数字识别的完整流程,包括数据加载与预处理、模型设计、训练循环和结果可视化。
2025-10-13 19:21:45
828
原创 PyTorch 实现 CIFAR-10 图像分类:从基础 CNN 到全局平均池化的探索
本文基于 PyTorch 完成了 CIFAR-10 图像分类任务,覆盖了数据预处理、CNN 模型构建、训练优化、多维度评估的全流程,并引入 “全局平均池化” 优化模型结构。基础 CNN 能学习到图像分类能力,但依赖大全连接层,参数较多;全局平均池化通过 “压缩特征 + 小全连接层”,在减少参数的同时保留了有效特征提取能力,是 ResNet 等大型 CNN 常用的优化技巧。这套流程也可迁移到其他图像分类任务,为更复杂的计算机视觉应用(如目标检测、语义分割)打下基础。
2025-09-27 14:05:19
568
原创 基于PyTorch构建CNN图像分类器:从CIFAR-10数据集中识别物体
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 将像素值从[0,1]归一化到[-1,1]self.conv2 = nn.Conv2d(16, 36, 3) # 输入通道16,输出通道36,卷积核3x3。self.conv1 = nn.Conv2d(3, 16, 5) # 输入通道3,输出通道16,卷积核5x5。self.fc1 = nn.Linear(36 * 6 * 6, 128) # 全连接层,输入维度为36*6*6。
2025-09-26 14:54:46
1018
原创 深度学习图像分类技术解析
图像分类作为深度学习领域的核心任务之一,其核心目标是将不同图像精准划分至对应类别标签,以实现分类误差的最小化。孙靖钺在相关分享中,从分类境界、评估体系、模型基础及实践难题等维度,系统拆解了图像分类技术的关键内容。
2025-09-25 14:43:20
1324
原创 PyTorch 数据处理工具箱:从数据加载到可视化的完整指南
PyTorch 数据处理工具箱并非单一模块,而是由多个功能互补的组件构成,形成了 "数据加载 - 预处理 - 可视化" 的完整闭环。:提供数据加载的基础框架,支持自定义数据集与批量处理;:专注于计算机视觉任务,封装了图像预处理工具与数据集加载器;:可视化工具,可实时监控训练过程、展示网络结构与特征分布。这些组件协同工作,既解决了 "如何高效读取数据" 的基础问题,又通过预处理增强数据多样性,最终借助可视化实现训练过程的可解释性,极大降低了深度学习项目的开发门槛。
2025-09-24 15:07:17
365
原创 yTorch 神经网络工具箱:核心原理与实践指南
本文系统介绍了PyTorch深度学习框架在神经网络开发中的核心应用。首先阐述了PyTorch的模块化设计理念和动态计算图特性,重点解析了神经网络构建的四大核心组件(层、模型、损失函数、优化器)及其协作机制。接着详细对比了nn.Module和nn.functional两种建模工具的特点与适用场景,并给出了继承基类、序列容器及组合构建三种模型创建方法的具体实现。文章还以残差网络为例演示了自定义模块的开发过程,最后完整展示了从数据加载到模型训练、验证及可视化的标准流程。通过理论说明与代码示例相结合,为开发者提供了
2025-09-23 13:48:05
998
原创 PyTorch 神经网络工具箱:核心原理与实践指南
本文系统介绍了PyTorch构建神经网络的完整流程。首先阐述了神经网络的四大核心组件(层、模型、损失函数、优化器)及其协同机制;其次对比分析了PyTorch的nn.Module与nn.functional两种构建工具的特性与适用场景;然后详细讲解了三种模型构建方法(继承nn.Module、使用nn.Sequential、结合容器封装)及其实现代码;并以ResNet为例演示了自定义网络模块的方法;最后总结了模型训练的标准流程。全文为PyTorch深度学习实践提供了清晰指引,帮助开发者掌握从基础到进阶的神经网络
2025-09-22 15:27:02
1263
原创 卷积神经网络(CNN)的发展与核心原理
摘要:卷积神经网络(CNN)通过卷积核、参数共享和池化操作,有效解决了传统MLP处理图像时参数量过大、空间信息丢失的问题。典型架构从LeNet到AlexNet再到VGG,网络深度不断增加:LeNet首次实现手写识别,AlexNet引入ReLU和Dropout提升性能,VGG采用重复卷积块增强特征提取。CNN能自动学习从边缘到语义的层次化特征,奠定了现代计算机视觉基础,尽管新架构不断涌现,CNN仍是理解视觉处理的重要起点。(149字)
2025-09-19 14:33:25
452
原创 多层感知机:从感知机到深度神经网络的演进
感知机是神经网络的雏形,通过输入信号、权重和偏差实现二分类。它能解决简单逻辑问题,但无法处理线性不可分数据(如异或门)。多层感知机(MLP)通过隐藏层和非线性激活函数突破这一限制,成为深度神经网络的基础。MLP的核心包括激活函数(如ReLU)、超参数设置以及Softmax多分类输出。学习过程通过前向传播和反向传播优化参数,需划分训练集、验证集和测试集防止过拟合。MLP为深度学习奠定理论基础,展现出强大的复杂问题解决能力。
2025-09-18 13:31:52
867
原创 线性回归到 Softmax 回归:深度学习的入门双基石
摘要:线性回归和Softmax回归是深度学习的基础模型,分别用于连续值预测和离散分类任务。线性回归通过梯度下降优化参数,预测房价等连续值;Softmax回归则通过Softmax运算将输出转化为概率分布,适用于手写数字识别等多分类问题。二者虽结构简单,却体现了模型构建、损失定义和参数优化的核心思想,是理解复杂神经网络的基础。掌握这两个模型对深入学习AI至关重要。
2025-09-18 08:05:54
706
原创 从工业革命到人工智能:深度学习的演进与核心概念解析
人工智能是指用人工的方法在机器(计算机)上实现的智能,或者说使机器具有类似于人的智能。作为一门技术科学,人工智能研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。从工业革命到人工智能时代,技术的发展不断推动着人类社会的进步。深度学习作为人工智能领域的重要分支,正在以前所未有的速度改变我们的生活和工作方式。随着技术的不断成熟和发展,人工智能将继续在各个领域发挥重要作用,为人类创造更加美好的未来。
2025-09-16 17:01:02
617
原创 支持向量机(SVM)核心原理与应用解析
本文系统介绍了支持向量机(SVM)的核心原理与应用。SVM通过寻找最优划分超平面实现分类,其核心是最大化间隔以提高泛化能力。文章详细阐述了SVM的数学优化过程,包括拉格朗日乘子法求解和对偶问题转化。针对复杂数据场景,介绍了软间隔处理噪声和核变换解决低维不可分问题的关键技术。SVM凭借仅依赖支持向量、抗过拟合强等优势,在多个领域保持广泛应用。全文150字,完整概括了SVM的核心概念、数学推导和关键技术拓展。
2025-08-26 17:03:29
800
原创 朴素贝叶斯算法:原理、模型与实践应用
本文系统介绍了朴素贝叶斯算法的理论基础、核心模型和应用实践。该算法基于贝叶斯公式和特征条件独立假设,通过计算先验概率与似然概率的乘积实现分类。根据数据类型不同,可分为多项式(离散特征)、高斯(连续特征)和伯努利(二值特征)三种模型。文章详细阐述了算法在拼写纠正、垃圾邮件分类和手写数字识别中的典型应用,并指出其计算高效、小样本鲁棒性强等优势,特别适合文本分类等场景。虽然特征独立假设可能简化实际关系,但朴素贝叶斯仍是理解概率化分类的重要入门算法。
2025-08-25 14:06:16
2216
原创 线性回归解析
摘要:线性回归是一种通过属性线性组合进行预测的模型,其目标是最小化预测值与真实值之间的误差。模型可用最小二乘法求解,评估指标包括SSE、MSE和R方。多元线性回归适用于多属性预测场景。在sklearn中可通过LinearRegression实现,应用于房价预测等实际问题。该模型作为机器学习基础方法,在各领域具有广泛应用价值。(149字)
2025-08-22 17:04:24
698
原创 机器学习中的集成算法与 k 均值聚类算法概述
集成算法通过组合多个学习器提升性能,Bagging、Boosting、Stacking 分别以并行、串行、分阶段方式实现;k 均值算法则通过距离度量和迭代优化,实现无监督数据的聚类分组。两类算法在机器学习中应用广泛,前者适用于分类、回归等监督任务,后者适用于数据探索、分组等无监督场景,理解其原理与特性有助于更好地选择和应用算法。
2025-08-21 19:06:28
1119
原创 数据预处理:机器学习的 “数据整容术”
数据预处理是机器学习的关键环节,通过四个核心步骤提升数据质量:1)缺失值处理,通过删除或智能填补(均值/众数)修复数据漏洞;2)标准化(MinMaxScaler/StandardScaler),消除特征间量纲差异;3)特征编码(独热/序号编码),将文字信息转化为数值;4)二值化简化复杂特征。这些方法如同"数据整容术",将原始数据转化为适合模型训练的优质输入,直接影响最终模型性能,是构建高效机器学习系统的基石。
2025-08-20 16:39:32
647
原创 决策树算法详解
本文系统介绍了决策树算法及其实现。主要内容包括:1)三种核心算法:ID3(信息增益)、C4.5(信息增益率)和CART(基尼指数);2)连续值处理方法,通过离散化处理连续特征;3)剪枝策略,包括预剪枝和后剪枝;4)Python实现方法及参数说明。决策树通过特征划分构建树状模型,需注意过拟合问题,可通过算法优化和剪枝策略提升模型性能。最后以泰坦尼克号预测为例进行实践应用。
2025-08-19 16:17:26
1096
原创 一文读懂决策树:机器学习中的 “智能判官“
决策树是机器学习中直观易懂的模型,通过层层特征划分做出决策。其核心在于寻找最佳特征切分点,使用"熵"衡量数据混乱程度,通过信息增益选择区分性最强的特征,逐步构建树状结构。决策树优势在于决策过程透明可视,适用于需解释性的医疗、金融等领域。训练时需解决如何选择最优特征进行节点切分这一核心难题,以构建高效的决策路径。
2025-08-18 14:09:55
412
原创 K 近邻算法(KNN)及其应用解析
本文系统介绍了KNN分类算法的原理与应用。KNN通过计算待分类样本与训练集中最近K个邻居的距离,采用多数表决机制确定类别。文章详细阐述了算法步骤、K值选择策略,以及欧式距离和曼哈顿距离两种度量方式。通过电影分类和鸢尾花识别两个实例,展示了KNN在实际问题中的应用流程。该算法具有原理直观、实现简单的特点,在解决分类问题时表现出良好效果,其核心在于合理选择K值和距离度量方法。KNN为机器学习领域提供了一种高效实用的分类工具。
2025-08-15 17:05:08
982
原创 从阿尔法狗到生活日常:机器学习如何重塑我们的世界?
机器学习正深刻改变着我们的世界。从2016年AlphaGo战胜李世石开始,这项让机器从数据中学习的技术已渗透到翻译、购物推荐等日常场景。其核心是让机器通过分析大量数据发现规律,进而做出预测和决策。根据学习方式可分为监督学习、无监督学习和集成学习。但机器学习也面临欠拟合和过拟合等问题,需要通过优化模型复杂度、增加数据量等方法解决。值得注意的是,机器学习遵循"简单有效"原则,没有万能算法,需要根据具体问题选择合适模型。随着技术进步,机器学习将在更多领域展现其潜力。
2025-08-14 13:48:38
1132
原创 30天掌握数据科学全流程
摘要:本文系统介绍了数据处理的完整流程,包括数据获取(Requests爬取、Xpath解析)、数据处理(BeautifulSoup、NumPy清洗转换)、数据可视化(Matplotlib、Seaborn图表绘制)、数据分析(电商案例实战)和数据存储(MySQL数据库操作),构建了从数据采集到分析应用的全链条技能体系,强调技术工具与业务思维相结合的数据科学实践方法。(150字)
2025-08-13 17:06:27
1283
原创 从双 11 美妆数据中读懂电商:一次数据分析实践的学习心得
本文分享了一个电商双11美妆数据分析项目的实践心得。通过数据预处理、可视化分析和商业洞察三个环节,揭示了数据背后的业务逻辑:预处理阶段重点处理重复值和缺失值,并构建特征工程;可视化分析发现"价格亲民"比"商品数量"更重要,护肤品销量高于化妆品,且双11前销量高于当天;最终得出男性市场潜力大、评论数异常可能暗示刷单、提前预热比当天冲量更有效等商业启示。作者强调数据分析的核心在于业务理解而非工具使用,建议新手从具体场景入手实践完整流程。
2025-08-12 16:50:26
859
原创 当爬虫遇上数据分析:解锁中国大学排名的隐藏密码
本文通过爬虫技术获取全国820所大学排名数据,演示了完整的数据处理流程:首先使用Python的requests和BeautifulSoup库爬取并解析高三网的大学排名信息,存储为CSV文件;然后针对"总分"空值问题,提出删除、替换和智能填充三种预处理方案;最后通过柱状图和饼图可视化分析星级分布,发现1星院校占比最高达31.7%,8星仅1%的规律。案例展示了从数据采集、清洗到可视化的技术路径,揭示了技术手段如何将复杂数据转化为直观见解,为教育研究和决策提供支持。
2025-08-11 18:02:55
733
原创 数据科学与计算利器:Seaborn 数据可视化库全解析
Seaborn是基于Matplotlib的Python数据可视化库,专注于统计图形绘制。它提供简洁的高级接口和美观的默认主题,支持多种图表类型,包括散点图、折线图、柱状图、箱线图、热图和小提琴图。通过简单的pip或conda安装后,用户可灵活设置主题样式和图形元素大小。Seaborn能帮助用户快速实现复杂数据可视化,有效展示数据分布、趋势和相关性,是数据分析与展示的实用工具。
2025-08-08 16:53:19
1273
原创 Matplotlib 完全指南:从入门到实战的数据可视化工具
本文系统介绍了Python数据可视化核心工具Matplotlib,涵盖从基础到高级的应用技巧。主要内容包括:1)Matplotlib的安装导入与Pyplot模块基础用法;2)图表美化方法,包括标记样式、线条颜色、坐标轴设置;3)多子图绘制与常见图表类型(散点图、柱状图、饼图、直方图)实战;4)图像处理功能(显示/保存/读取图片)。文章强调实践建议:多动手练习、根据场景选择合适图表、参考官方文档。通过系统学习Matplotlib,读者可掌握将数据转化为专业可视化作品的核心能力。
2025-08-07 15:33:45
758
原创 Pandas:数据处理的高效工具
Pandas是Python强大的数据分析库,提供高性能数据处理和便捷分析工具。核心数据结构包括Series(一维数组)和DataFrame(表格型数据)。支持多种数据读取方式(CSV、Excel等),并具备高效查询(loc方法)和缺失值处理(fillna/dropna)功能。通过简单安装和导入即可使用,是数据工作者的必备工具,能大幅提升数据处理效率。掌握基础操作即可应对常见分析需求。
2025-08-06 17:41:18
632
原创 Pandas 入门:数据分析的得力工具
它有三大优势:高性能、易用的数据结构和便捷的分析工具,是数据处理的得力助手。这是个表格型数据结构,有行索引和列索引,列可以是不同数据类型。当设置了自定义索引(比如用 "Chinese"、"Math" 等),直接用自定义索引就能取对应行。它类似表格中的一列,像一维数组,能存各种数据类型,由索引和值组成。用 ndarray:可以自己指定索引标签,比如 'a'、'b' 等。用字典:每个字典项对应一行数据,缺失的键会用 NaN 填充。用字典:字典的键会成为索引,值就是 Series 的值。,能返回指定行的数据。
2025-08-05 15:48:47
701
原创 NumPy 函数家族:数据世界的 “全能工具师“
在数据科学的星河中,NumPy 如同一位技艺精湛的工匠,用无数精巧的函数为数据处理搭建起坚实的骨架。前 34 页 PPT 揭开了这位工匠的 "工具箱" 一角,从字符串的妙手生花到数值计算的精准无误,从数据统计的洞见挖掘到排序搜索的井然有序,每一类函数都如同身怀绝技的工具,在数据世界中各司其职,却又协同作战。
2025-08-05 08:32:03
655
原创 NumPy:数据科学的 “数字乐高” 与 “维度魔法”
从简单的数组加减到复杂的三维矩阵操作,NumPy 用简洁的语法实现了高效的数值计算。它不仅是 pandas 处理表格数据的 “底层引擎”,也是 matplotlib 绘制图表的 “数据来源”,更是机器学习中矩阵运算的 “核心工具”。掌握 NumPy 的 “维度魔法”,就像拿到了打开数据科学大门的钥匙 —— 让每一个数字都能按你的想法 “排列组合”,让每一组数据都能说出背后的故事。
2025-08-01 14:52:24
1081
原创 NumPy 入门:数据科学计算的利器
本文介绍了Python科学计算库NumPy的核心用法。NumPy以高效的N维数组(Ndarray)为核心,支持矩阵运算和数值计算,比Python列表性能更优。文章详细说明了Ndarray的创建方法(如array()、zeros()、arange()等函数)、关键属性(维度、形状、数据类型等)以及切片索引操作。同时介绍了NumPy的安装导入方式,并强调其在数据科学中的重要性。通过掌握这些基础知识,可以高效进行科学计算和数据处理。
2025-07-31 15:52:52
511
原创 数据解析利器:BeautifulSoup 实用指南
BeautifulSoup 以 "简单语法解决复杂问题" 为核心,从标签提取到关联遍历,从方法选择到 CSS 匹配,每一项功能都直指数据解析的痛点。无论是新手快速上手,还是开发者高效处理复杂网页,它都能成为可靠的 "数据提取利器"。掌握它,让网页数据从混乱的标签中 "浮出水面",为后续分析与应用铺平道路。
2025-07-30 17:55:08
1038
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅