朱卫军 AI-优快云博客

原创 Pandas取代Excel？

Pandas的功能强大不在于比Excel数据处理能力强，而是能力边界更广，整个Python生态都可以为它所用，能结合sklearn、matplotlib、numpy、tensorflow等各种框架，处理多样化复杂任务、跨领域任务、重复性任务等数据问题。这个确实这样，在处理数据清洗、数据建模、大数据时，Excel运行速度比Pandas慢，因为Excel是图形化软件，依赖电脑性能，且多数情况下需要手工点点点操作，而Pandas直接跑Python代码，而且有并行优化机制，能快速处理数据。

2025-07-08 08:21:07 333

原创 Gemini VS 元宝，这个功能真的叠buff

元宝虽然好，但相比gemini还是有些距离，首先元宝的deepseek比较啰嗦，有时候思考过度，反而忽略了问题的本质，其次元宝在深度思考模式下的速度有待提升，比如我问excel的最大值表达式，明明直接提供代码就可以，它非要深思熟虑，搞得思考时间很长。如果使用搜索引擎，可能先要面对首页十几个广告，然后好不容易找到几个有价值的网页，告诉我n种可能性，有的会夸大说这是身体出现重大毛病引起的，费时间不说，可能还会带来不必要的焦虑和恐慌。这不就是一位资深Python工程师写的pandas教程嘛，真不像是AI写的。

2025-07-08 08:17:23 138

原创自制palywright爬虫，轻松采集电商商品数据~

亮数据平台提供了强大的数据采集工具，比如Web Scraper IDE、亮数据浏览器、SERP API等，能够自动化地从网站上抓取所需数据，无需分析目标平台的接口，直接使用亮数据提供的方案即可安全稳定地获取数据。网络爬虫是一种常见的数据采集技术，与屏幕抓取不同，屏幕抓取只复制屏幕上显示的像素，网络爬虫提取的是底层的HTML代码，以及存储在数据库中的数据。你可以使用Python编写爬虫代码实现数据采集，也可以使用自动化爬虫工具，这些工具对爬虫代码进行了封装，你只需要配置下参数，就可以自动进行爬虫。

2025-07-07 18:50:09 413

原创为什么爬虫非要用python？用C语言、C++、C#或者java不行吗？

当然python的第三方库生态也为Python爬虫提供了诸多便利，比如requests、bs4、scrapy，这些库将爬虫技术进行了高级封装，提供了便捷的api接口，原来需要几十行代码解决的问题，现在只需要一行就可以搞定。requests 库提供了丰富的功能和灵活性，支持多种请求类型（如 GET、POST、PUT、DELETE 等），可以发送带有参数、头信息、文件等的请求，并且能够处理复杂的响应内容（如 JSON、XML 等）。它提供了丰富的API，可以轻松地读取、解析、创建和修改XML和HTML文档。

2025-07-07 18:46:03 572

原创英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？

CUDA是静态编译的GPU语言，其实就是机器语言，主打的直接快速，它早期支持C/C++/Fortran，也是因为这些语言是静态语言，而Python是动态语言，与GPU计算的要求有很大冲突，比如没办法及时类型推断、内存访问等，非常影响执行效率。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必须要兼容这些Python库，因此推出了numpy的cuda接口。最后一点，可能也是最紧迫的原因，OpenAI推出的。

2025-07-06 15:59:38 576

原创 Origin、MATLAB、Python 用于科研作图，哪个最好？

matplotlib是Python中最底层的绘图库，它支持二维、三维、交互式等各种图表，而且通过元素化的模式能设计图表的任何细节，定制化程度非常高，很多可视化库都是基于matplotlib做二次开发的，或者是matplotlib的拓展，比如seaborn、pandas、mplfinance、DNA Features Viewer等，它们能应用于数据科学、金融量化、生物医学等各领域科研绘图。另外，matplotlib有一个示例集，里面有各式各样的专业图表，有的只需要换换数据就能为自己所用。

2025-07-06 15:58:07 408

原创 Python pandas 效率到底如何？

数组来计算的，本身有优势，处理小批量数据集（百万行以下，1GB以内）效率是完全可以接受的，相比其他的数据处理库其实差异不大，因为1GB以内的容量对电脑内存的占用并不大，且单核处理起来也不吃力，这时候Pandas的速度和便捷性综合优势能发挥到最大。所以可以用pandas自带的分块加载（chunksize）的方式，将大文件分为n个小文件，分批去读取并处理，这样可以把几GB的大文件拆解成N个几十M的小文件，pandas处理起来就毫无压力。如果你真的需要对每一行做处理，可以用numpy向量化来实现，可以用。

2025-07-06 15:57:37 688

原创 Pygal，可导出矢量图的Python可视化利器

Python有很多优秀的可视化库，其中有名的像matplotlib、seaborn、plotly，可以绘制出各式绚丽的图表。这次介绍一个不那么广为人知但依然优秀的可视化库-Pygal官网介绍说Pygal是一个性感的Python制表工具，提供了14种图表类型，可以轻松定制出版级别的交互式图表。相比较seaborn等明星库，Pygal有哪些值得一说的优点呢？

2025-07-04 20:23:19 323

原创说真的，你可能用错Pandas了

pandas是基于numpy数组来计算的，本身有优势，处理小批量数据集（百万行以下，1GB以内）效率是完全可以接受的，相比其他的数据处理库其实差异不大，因为1GB以内的容量对电脑内存的占用并不大，且单核处理起来也不吃力，这时候Pandas的速度和便捷性综合优势能发挥到最大。所以可以用pandas自带的分块加载（chunksize）的方式，将大文件分为n个小文件，分批去读取并处理，这样可以把几GB的大文件拆解成N个几十M的小文件，pandas处理起来就毫无压力。首先得知道pandas的哪些骚操作会让它变慢。

2025-07-04 20:20:11 279

原创 Python一行代码能做什么，30个实用案例代码详解

Python语法简洁，能够用一行代码实现很多有趣的功能，这次来整理30个常见的Python一行代码集合。

2025-07-03 08:49:51 133

原创秒啊，速来get这9个jupyter实用技巧！

与作为广受欢迎的ide，尤其适合开展数据分析相关工作，而掌握它们相关的一些实用技巧，势必会大大提升日常工作效率。而今天我就来给大家介绍9个非常实用的jupyter小技巧~图1。

2025-07-02 08:43:06 281

原创最受欢迎的5个 Vscode AI插件，收藏～

vscode插件非常多，我一般会看most popular排序，前50的很多是高频必备插件，像是Pylance、jupyter、docker、prettier、copilot、wsl等，堪称写代码神器，安装了绝对不会错。如果你是vscode小白用户，根据自己使用的语言，去选择most popular列表中的插件安装，会节省很多筛选时间。现在出现了各种AI生成代码插件，也非常的实用和有趣，绝对让写代码不枯燥，因为安装了这些插件，你可能压根不需要写代码了，下面举5个最受欢迎的Vscode AI插件。

2025-07-02 08:35:55 313

原创数据采集必备的6个低代码爬虫工具

无论是需要简单的数据抓取，还是复杂的数据挖掘和分析，市场上的爬虫工具都能提供相应的解决方案。同时，使用爬虫软件时，也应遵守相应的法律法规，尊重数据的版权和隐私。亮数据是一款强大的数据采集工具，以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据，包括产品信息、价格、评论和社交媒体数据等。爬虫，又称为网络爬虫或网页爬虫，是一种自动浏览互联网的程序，它按照一定的算法顺序访问网页，并从中提取有用信息。八爪鱼是一款面向非技术用户的桌面端爬虫软件，以其可视化操作和强大的模板库而受到青睐。

2025-07-01 18:27:56 1582

原创 Nvidia CUDA还是向Python妥协了

另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必须要兼容这些Python库，因此推出了numpy的cuda接口cuPyNumeric，以及能涵盖scipy功能的计算库nvmath，这些都是CUDA为了融入Python而做的工作。再加上现在即时编译技术JIT的成熟，比如numba库，Python代码能实时的编译为CUDA的PTX指令，消除了Python和GPU编程之间的障碍。你说，CUDA能不急吗？

2025-07-01 18:23:51 390

原创使用爬虫工具自动化采集电商商品数据

爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级，才能稳定地获取到高质量数据。

2025-06-30 08:55:07 2138

原创这个科研绘图Python库真的强大，必须推荐～

matplotlib是Python中最底层的绘图库，它支持二维、三维、交互式等各种图表，而且通过元素化的模式能设计图表的任何细节，定制化程度非常高，很多可视化库都是基于matplotlib做二次开发的，或者是matplotlib的拓展，比如seaborn、pandas、mplfinance、DNA Features Viewer等，它们能应用于数据科学、金融量化、生物医学等各领域科研绘图。另外，matplotlib有一个示例集，里面有各式各样的专业图表，有的只需要换换数据就能为自己所用。

2025-06-30 08:17:16 305

原创 Python安装库太慢？配置好这个速度飞起

然而pip是从pypi中下载库文件的，pypi是python官方第三方库的仓库，它用的是国外的服务器，下载速度自然很慢。国内的这些镜像网站拥有非常多的开源工具，不光是pypi，你还可以在里面下载mysql、anaconda、ubuntu、nodejs等主流软件，速度杠杠的。经常听到初学python的小伙伴在抱怨，python安装第三方库太慢，很容易失败报错，如果安装pandas、tensorflow这种体积大的库，简直龟速。其实这样不太方便，若想省力气，那就要永久配置镜像源，配置好后只要输入。

2025-06-29 09:19:02 397

原创轻松识别图像，这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法，识别模型为CRNN，它由3个主要组件组成：特征提取，序列标记（LSTM）和解码（CTC）。这段代码有一段参数['ch_sim','en']，这是要识别的语言列表，因为路牌里有中文和英文，所以列表里添加了ch_sim（简体中文）、en（英文）。EasyOCR支持超过80种语言的识别，包括英语、中文（简繁）、阿拉伯文、日文等，并且该库在不断更新中，未来会支持更多的语言。细心观察便可发现，身边到处都是OCR的身影，文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-29 09:18:20 419

原创 sql是什么，通俗的说，太专业听不懂？

首先你需要了解SQL语法的基础，包括SELECT，FROM，WHERE，GROUP BY，HAVING，ORDER BY、LIMIT等。比如同样是筛选数据，在excel中需要在列名上添加筛选，然后选择想要的字段，这是图形化的命令；SQL是一种用于处理数据的语言，就像我们说的汉语、英语一样，有特定的语法结构，让我们灵活地处理数据。SQL是所有数据库查询的语言，sql由于本身结构化的特点，非常容易入手。SQL做的事其实和Excel一样的，不过它处理的表我们看不到，是存放在数据库里的二维表。

2025-06-28 21:47:31 902

原创 python如何理解map，reduce，filter？

是的python函数，初学者会较难理解，这里详细解释下。

2025-06-28 21:46:56 410

原创 pandas_profiling ：教你一行代码生成数据分析报告

pandas_profiling可以用一行代码生成详细的数据分析报告，与pandas深度结合，非常适合前期的数据探索阶段，以及结果数据报告批量化生产。熟悉pandas的童鞋估计都知道pandas的describe()和info()函数，用来查看数据的整体情况，比如平均值、标准差之类，就是所谓的探索性数据分析-EDA。如果你想更方便快捷地了解数据的全貌，泣血推荐一个python库：pandas_profiling，这个库只需要一行代码就可以生成数据EDA报告。数据类型，唯一值，缺失值，内存大小。

2025-06-27 08:48:33 157

原创利用Python将PDF文档转为MP3音频

Python中操作PDF的工具库主要是PyPDF2，但发现编码实在有点繁琐，我就换了另一个库pdfplumber，与PyPDF2语法类似，用起来还算流畅。最近在群里看到有人发张磊的新作《价值》电子书，这本今年刚出的畅销书盗版猖獗，我之前在微信读书里看过，对作者长期主义的观点深信不疑。微信读书有一个功能，可以将书里的文字转换为音频，而且声音优化的不错，比传统的机械朗读听起来舒服很多。简单来说，pyttsx3可以文字转语音，而且是离线工作的，这一点就很实用。我准备动手试试，将PDF书籍转成音频。

2025-06-27 08:48:00 451

原创轻松识别图像，这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法，识别模型为CRNN，它由3个主要组件组成：特征提取，序列标记（LSTM）和解码（CTC）。这段代码有一段参数['ch_sim','en']，这是要识别的语言列表，因为路牌里有中文和英文，所以列表里添加了ch_sim（简体中文）、en（英文）。EasyOCR支持超过80种语言的识别，包括英语、中文（简繁）、阿拉伯文、日文等，并且该库在不断更新中，未来会支持更多的语言。细心观察便可发现，身边到处都是OCR的身影，文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-25 18:19:30 514

原创一文搞懂Python文件读写

readlines方法和readline方法长得像，但功能不一样，前面说过readline方法只读取一行，readlines方法则是读取所有行，返回的是所有行组成的列表。很多童鞋困扰于读写文件的各种模式（如阅读、写入、追加等），以及搞不清open、read、readline、readlines、write等方法的使用。也就是说，你读取的txt文本，其中换行符会以'\n'形式出现，写入txt文本时，文本中的'\n'会变成换行指令。相反，在默认模式下写入文件时，文本中的'\n'会转换为换行符。

2025-06-25 18:18:49 863

原创这个可视化软件图表真的好看，强烈推荐~

1、数据分析和可视化技术强大。这是BI软件的立身之本，tableau的Hyper数据引擎技术、VizQL可视化技术，非常好的将速度、性能、美观综合起来，满足BI软件的核心需求。熟悉BI可视化的同学都知道，现在企业届常用的BI工具主要是Power BI、FineBI、Tableau等，其中以Tableau可视化功能最为突出，做出来的图表非常好看。制作好报表再发布到tableau server上，并对报表进行权限分级管理，公司的各个业务部门可以看到自己的报表，也可以在server上进行二次开发和修改。

2025-06-24 08:08:11 369

原创新式爬虫工具，网页解锁能力非常强大！

在当今数据驱动型时代，数据采集和分析能力算是个人和企业的核心竞争力。然而，手动采集数据耗时费力且效率低下，而且容易被网站封禁。我之前使用过一个爬虫工具，亮数据（Bright Data），是一款低代码爬虫平台，既有现成的爬虫解锁框架，还提供IP代理服务。亮数据基于全球代理IP网络和强大数据采集技术的解决方案，可帮助轻松采集各种网页数据，如产品信息、价格信息、评论信息、社交媒体数据等。

2025-06-24 08:07:26 998

原创干财务的学Python到底有没有用？

现在Python使用的场景非常多，特别是数据采集、机器学习、数据科学领域，Python几乎是统治级别的存在。那么其他领域呢？比如财务会计，也会经常做数据分析、整理，能用到Python嘛。财务人员使用Python的场景并不多，据我了解一般的财务工作用到的软件多是Quickbook、ERP、PowerBI、ACL之类，还有Excel也是主力工具，基本可以解决财务大部分工作。但有以下三个场景可以考虑用Python。1、如果你的工作涉及。

2025-06-24 08:06:23 445

原创使用Python爬虫的重要原因和6大常用库推荐

而且亮数据有个很强大的功能：Scraper APIs，你可以理解成一种爬虫接口，它帮你绕开了IP限制、验证码、加密等问题，无需编写任何的反爬机制处理、动态网页处理代码，后续也无需任何维护，就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。爬虫其实就是请求http、解析网页、存储数据的过程，并非高深的技术，但凡是编程语言都能做，连Excel VBA都可以实现爬虫，但Python爬虫的使用频率最高、场景最广。

2025-06-23 08:52:34 1022

原创如何采集海外电商数据，这个工具很实用～

最近用到一个非常简单的高级爬虫工具，亮数据的Scraper APIs，你可以理解成一种爬虫接口，它帮你绕开了IP限制、验证码、加密等问题，无需编写任何的反爬机制处理、动态网页处理代码，后续也无需任何维护，就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML，提取重要的字段，输出为json格式。

2025-06-23 08:46:55 2357

原创 Anaconda和Python是什么关系？

简单来说，Anaconda是一个集成了IDE、Notepad、Python、IPython、Python包、Python包管理工具的数据科学开发工具，并且Anaconda还支持R等非Python语言。Anaconda和Python相当于是汽车和发动机的关系，你安装Anaconda后，就像买了一台车，无需你自己安装发动机和其他零配件，而Python作为发动机提供Anaconda工作所需的内核。你可以把Anaconda看做成Python在数据科学领域的瑞士军刀，什么都给你安排好了，就等你下载安装。

2025-06-22 21:36:49 175

原创为什么Python不适合写游戏？

知乎上有个热门问题：Python 能写游戏吗？有没有什么开源项目？

2025-06-22 21:36:10 880

原创万能Python脚本生成器！

如今AI推理模型的能力越来越强，随着o1、o3、GLM-Zero-Preview等推理模型的接连发布，我相信会涌现出非常多的AI应用，在编程、数学、逻辑推断等各个方向都会有广阔的应用方向。作为个人，其实也可以开发一些简单的AI应用，配合GLM-Zero-Preview模型的能力，可玩的场景也很多，想象力是无穷的，AI赋能的场景也是无限的。

2025-06-21 10:46:48 683

原创 RAPIDS cuDF，让数据处理飞起来~

接触过数据科学和机器学习的小伙伴可能都会知道英伟达的RAPIDS，它是大名鼎鼎的GPU加速系统，通过GPU的并行能力来为数据处理、机器学习提升效率。RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库，cuDF专门负责数据处理，它是一个DataFrame库，类似Pandas，但cuDF运行在GPU上，所以它能提供高效的数据帧操作，支持数据加载、过滤、排序、聚合、连接等操作。

2025-06-21 10:46:00 938

原创亮数据采集跨境电商数据实战，附代码～

爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级，才能稳定地获取到高质量数据。

2025-06-19 23:10:22 1462

原创我常用的几个Python金融数据接口库，非常好用~

在金融分析和量化投资领域，Python已成为最受欢迎的编程语言之一。这主要归功于其丰富的库和框架，它们提供了处理和分析金融数据所需的工具，而且还有大量免费实时的金融股票数据供你分析研究。以下是六个最常用的Python金融数据接口库，有国内也有国外的，它们各自具有独特的功能和优势。

2025-06-19 23:07:15 860

原创 jupyter中那些神奇的第三方拓展魔术命令

无论是还是，都可以使用ipython中的众多自带来实现丰富的辅助功能，诸如%time之类的。这些都已经是老生常谈的知识没什么好说的，但我们今天要给大家介绍的，则是一些实用的基于的魔术命令，从而极大程度上扩展jupyter的功能。图1。

2025-06-18 23:15:44 402

原创高级，这个Python库助力pandas智能可视化分析

LUX是一个不错的数据可视化分析工具，能智能地辅助Pandas做数据探索，省去了很多不必要的操作。

2025-06-18 23:15:09 282

原创收藏！20条非常实用的Python代码实例

在使用列表的时候，有时会需要取最后一个元素，有下面几种方式可以实现。#索引方法#pop方法。

2025-06-17 18:32:48 393

原创聊聊Pandas的前世今生

本文将从四个方面去聊一聊Pandas，期望能带给大家一点启发。

2025-06-17 18:32:11 708

原创学会这7个爬虫软件，三分钟搞定数据采集

它提供了自动网站解锁功能，能够应对动态加载、验证码、IP限制等各种反爬虫机制，而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具，在亮数据内置的无界面浏览器上进行数据的采集，成功率非常高。不管是文本、图片、视频亦或表格，八爪鱼都能抓，而且它还提供了非常丰富的采集模板，比如电商、新闻、短视频等主流平台全包含，它已经帮你配置好了流程，一键可以实现爬虫。它的优势是基于Python生态，灵活性高，支持分布式爬虫和异步请求，而且有多种扩展，能满足复杂采集需求，适合做企业级爬虫部署。

2025-06-16 17:48:32 2656

100个Github Python项目

16个matplotlib绘图技巧

60个Numpy函数和方法解析

空空如也