自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 聪明办法学Python:第一章学习之旅

摘要:本文介绍了Python编程环境的配置步骤和基础语法要点。首先指导安装Python和VSCode编辑器,并进行环境验证。随后详细讲解了Python的基本数据类型、输入输出操作、运算符使用等核心概念,并提供了相应代码示例。最后通过一个HelloWorld程序展示Python的简洁特性,强调实践优先的学习方法,建议通过小步快跑的方式逐步掌握Python编程基础。文章还分享了学习技巧,包括建立错误代码库、善用官方文档等实用建议。

2025-07-14 23:09:58 305

原创 爬虫之如何新浪财经机构持股汇总全部分页数据

文章摘要: 该Python脚本使用Selenium和BeautifulSoup实现新浪财经机构持股数据的自动化抓取。通过配置无头Chrome浏览器模拟访问,脚本遍历分页数据,提取表格中的股票代码、名称、持股机构数等关键字段。采用异常处理机制应对网络问题和页面结构变化,支持自动翻页直至数据结束。最终数据以DataFrame形式保存为Excel文件(UTF-8-SIG编码),包含7个字段。主要技术点包括:Headless模式、动态页面交互、HTML解析及分页控制,适用于需要绕过简单反爬的金融数据采集场景。

2025-06-27 22:23:47 398

原创 高级网络爬虫技术剖析:绕过反爬、动态渲染与分布式架构实践标题

本文系统剖析了现代高级网络爬虫技术,重点探讨了应对反爬机制、处理动态渲染页面、实现高效数据抓取的关键方法。文章详细介绍了包括请求头伪装、代理池使用、Cookie管理等反爬绕过策略,以及Selenium、Playwright等浏览器自动化工具处理JavaScript渲染的技术方案。同时阐述了模拟登录、验证码识别、异步爬虫和分布式架构等提升爬虫效率的高级技术。通过具体代码示例展示了技术实现细节,并对AI驱动、强化学习等未来爬虫技术发展方向进行了展望,为研究者提供了实用的技术参考和实践指导。

2025-06-24 22:07:12 2399

原创 Python 爬虫入门实战:从网页获取到数据提取的完整流程

本文介绍了Python爬虫从网页获取到数据提取的完整流程。首先使用requests获取网页源码并处理中文编码问题,然后通过正则表达式和BeautifulSoup提取结构化数据,最后将电影信息存储为CSV文件。文章详细讲解了请求发送、数据提取(包括正则匹配和HTML标签定位)、数据保存等关键步骤,并提供了编码处理、工具选择等实用建议。适合爬虫初学者通过电影网站案例快速掌握数据采集的基本方法。

2025-06-21 23:41:20 321

原创 第五章学习笔记:深层网络(Deep Networks)

《深度学习:基础与概念》第五章探讨了深层网络(MLP)的结构与训练机制,重点介绍了多层感知机架构、常用激活函数(Sigmoid、ReLU等)和反向传播算法。通过PyTorch实现深层网络拟合sin(2πx)的案例,展示了网络构建、训练和可视化的完整流程。文章还分析了梯度消失、过拟合等常见问题,并给出了ReLU、BatchNorm、Dropout等改进技巧。深层网络通过多层非线性变换展现出强大的函数拟合能力,其关键在于合理的结构设计与优化策略。延伸阅读推荐了ResNet、Dropout等经典论文。

2025-06-19 19:56:43 837

原创 第四章学习笔记:单层网络回归(Single-layer Networks for Regression)

本文探讨了单层神经网络在回归任务中的应用,基于Bishop父子的《深度学习:基础与概念》。笔记系统梳理了单层感知机的核心要素:模型结构采用加权激活函数组合形式,重点分析了ReLU、Sigmoid等常见激活函数的特性,并使用最小二乘误差作为损失函数。通过PyTorch实现单层网络对sin(2πx)函数的逼近实验,包含数据生成、网络构建、训练过程及可视化分析。实验结果表明浅层网络已具备非线性拟合能力,其性能受激活函数选择和参数设置影响显著。文章最后建议通过更换激活函数、调整模型复杂度等拓展实验进一步验证理论,并

2025-06-19 19:50:37 1340

原创 网络爬虫入门指南:从零开始抓取网页数据

《网络爬虫入门指南》介绍了Python爬虫的基本概念与操作流程。文章首先解释了网络爬虫的定义及其典型应用场景,如电商数据采集、新闻抓取等。重点讲解了爬虫三步骤:发送请求、解析响应和保存数据,并推荐Python三件套(requests、BeautifulSoup、pandas)。通过豆瓣电影Top250的实战案例,展示了如何抓取标题、评分等信息并保存为Excel。文中还解答了乱码、IP封禁等常见问题,并建议进阶学习Scrapy框架和代理池技术。最后强调爬虫使用需遵守法律法规,尊重网站协议。本文适合Python

2025-06-18 21:29:58 1198

原创 《深度学习:基础与概念》第一章学习笔记

《深度学习基础与概念》第一章学习笔记摘要:本章介绍了深度学习的革命背景,指出数据、算力与算法进步三大要素共同推动了这一技术革新。重点分析了三大里程碑事件:2012年AlexNet在图像识别的突破、DeepMind的DQN强化学习成就,以及Transformer架构引发的NLP革命。深度学习"深度"的本质在于多层非线性特征提取,从低层特征逐步抽象到高层语义。数学基础部分涵盖感知机模型和神经网络层级结构。实践环节通过PyTorch实现感知机分类和深浅网络对比实验,验证了深度网络的优势。本章为

2025-06-17 23:17:59 708 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除