整理了47个python人工智能库，超详细（含资源），建议收藏，不懂可随时来看

原创已于 2024-06-13 17:50:14 修改 · 4.3k 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #学习 #python基础 #python教程

于 2022-10-02 10:00:00 首次发布

python随笔专栏收录该内容

110 篇文章

订阅专栏

本文全面介绍了Python在人工智能领域的关键库，并详细规划了从初阶到商业应用的大模型AI学习路线，适合各阶段的学习者。

这是本文的标题

前言
1、Numpy
2、SciPy 库
3、Scikit-image
4、statsmodels 库
5、Pillow
6、XGBoost 库
7、Mahotas
8、CatBoost 库
9、Scikit-learn
11、PyBrain库
12、Shogun库
13、Chainer库
14、PyLearn2库
15、Hebel库
16、Neurolab库
17、TensorFlow 库
18、PyTorch 库
19、Keras 库
20、Caffe2库
21、dist-Keras 库
22、elephas 库
23、Spark-Deep-Learning 库
24、Mxnet库
25、Sklearn-theano库
26、NLTK 库
27、SpaCy 库
28、PKUSeg 库
29、Gensim 库
30、CoreNLP 库
31、TextBlob 库
32、Stanfordnlp 库
33、openCV 库
34、Pandas 库
35、Eli5 库
36、SimpleCV 库
37、LightGBM 库
38、ITK 库
39、Pgmagick 库
40、Pycairo 库
41、Fastai库
42、Imutils库
43、PyTorchCV库
44、BioPython 库
45、DashBio 库
46、RDKit 库
- 如何学习大模型 AI
- 第一阶段（10天）：初阶应用
- 第二阶段（30天）：高阶应用
- 第三阶段（30天）：模型训练
- 第四阶段（20天）：商业闭环
资料领取

前言

Python 是人工智能（机器学习）的首选编程语言，它拥有众多模块，能完成人工智能开发的所有环节，没有任何一种语言使用起来如此顺手。今天分享我用了将近3周的时间整理出来的 Python 人工智能库，

1、Numpy

是的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库，底层使用编写，数组中直接存储对象，而不是存储对象指针，所以其运算效率远高于码。

2、SciPy 库

是一个开源的 Python 算法库和数学工具包。SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。它用于有效计算 Numpy 矩阵，使 Numpy 和 Scipy 协同工作，高效解决问题。

3、Scikit-image

是基于的图像处理库，它将图片作为数组进行处理。

4、statsmodels 库

是一个 Python 库，用于拟合多种统计模型，执行统计测试以及数据探索和可视化。statsmodels 包含更多的“经典”频率学派统计方法，而贝叶斯方法和机器学习模型可在其他库中找到。包含在 statsmodels 中的一些模型：线性模型，广义线性模型和鲁棒线性模型，线性混合效应模型，方差分析（ANOVA）方法，时间序列过程和状态空间模型，广义的矩量法。

5、Pillow

使用生成字母验证码图片

6、XGBoost 库

是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在 Boosting框架下实现机器学习算法。XGBoost提供并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决数十亿个示例之外的问题。

7、Mahotas

是一个快速计算机视觉算法库，其构建在之上，目前拥有超过100种图像处理和计算机视觉功能，并在不断增长。使用加载图像，并对像素进行操作。

8、CatBoost 库

是由 Yandex 的研究人员和工程师开发的基于梯度提升决策树的机器学习方法，现已开源。CatBoost 在 Yandex 公司内广泛使用，用于排列任务、预测和提出建议。CatBoost 是通用的，可应用于广泛的领域和各种各样的问题。

9、Scikit-learn

是针对编程语言的免费软件机器学习库。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度提升，k均值和 DBSCAN 等多种机器学习算法。

10、Theano 库

是一个 Python 库，专门用于定义、优化、求值数学表达式，效率高，适用于多维数组。特别适合做机器学习。一般来说，使用时需要安装 Python 和 Numpy 。

11、PyBrain库

PyBrain的概念是将一系列的数据处理的算法封装到被称之为Module的模块中。一个最小的Module通常包含基于机器学习算法的可调整的参数集合。

12、Shogun库

是一个开源机器学习库，它提供广泛的高效和统一的机器学习方法，如多种数据表示、算法类和通用工具的组合，用于快速原型设计数据管道。

13、Chainer库

是一个基于Chainer用于训练和运行计算机视觉任务的神经网络工具。它涵盖了计算机视觉模型的高质量实现,以及开展计算机视觉研究的必备工具集。

14、PyLearn2库

是一个基于Theano的机器学习库,它的大部分功能是基于Theano顶层实现的。这意味着用户可以用数学表达式去编写Pylearn2插件(新模型、算法等)。

15、Hebel库

是一个通过 PyCUDA 库使用 GPU CUDA 来加速建立神经网络的深度学习库。它实现了几类最重要的神经网络模型，提供各种激活函数和训练模型。

16、Neurolab库

是一个简单而强大的Python神经网络库。包含基于神经网络、训练算法和灵活的框架来创建和探索其他神经网络类型。

17、TensorFlow 库

是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machine learning）算法的编程实现，其前身是谷歌的神经网络算法库 DistBelief 。Tensorflow 拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究。

18、PyTorch 库

是一个开源的 Python 机器学习库，基于 Torch，用于自然语言处理等应用程序。PyTorch 的前身是 Torch ，其底层和 Torch 框架一样，但是使用 Python 重新写了很多内容，不仅更加灵活，支持动态图，而且提供了 Python接口。它是由 Torch7 团队开发，是一个以 Python 优先的深度学习框架，不仅能够实现强大的GPU加速，同时还支持动态神经网络。PyTorch 既可以看作加入了GPU支持的 Numpy，同时也可以看成一个拥有自动求导功能的强大的深度神经网络。除了 Facebook 外，它已经被Twitter、CMU 和 Salesforce 等机构采用。

19、Keras 库

是一个由 Python 编写的开源人工神经网络库，可以作为 Tensorflow、 Microsoft-CNTK 和 Theano 的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。Keras 在代码结构上由面向对象方法编写，完全模块化并具有可扩展性。Keras 支持现代人工智能领域的主流算法，包括前馈结构和递归结构的神经网络，也可以通过封装参与构建统计学习模型。在硬件和开发环境方面，Keras 支持多操作系统下的多GPU并行计算，可以根据后台设置转化为 Tensorflow、Microsoft-CNTK 等系统下的组件。

20、Caffe2库

是由Berkeley Vision and Learning Center(BVLC)建立的深度学习框架。它是模块化的，速度极快。

21、dist-Keras 库

是在 Apache Spark 和 Keras 之上构建的分布式深度学习框架，其重点是“最先进的”分布式优化算法。以易于实现新的分布式优化器的方式设计了框架，从而使人们能够专注于研究。支持多种分布式方法，例如但不限于使用数据并行方法训练合奏和模型。

22、elephas 库

是一个把 Python 深度学习框架 Keras 衔接到 Spark 集群的第三方 python 包。

23、Spark-Deep-Learning 库

Spark-Deep-Learning 为使用 Apache Spark 的 Python 中可伸缩的深度学习提供了高级api。该库来自 Databricks ，并利用 Spark 实现了两个最强大的方面：本着 Spark 和 Spark MLlib 的精神，它提供了易于使用的API，能够在很少的代码行中进行深入学习；它使用 Spark 强大的分布式引擎来扩展对海量数据集的深度学习。

24、Mxnet库

是一款设计为效率和灵活性的深度学习框架。它允许你混合符号编程和命令式编程,从而最大限度提高效率和生产力。

25、Sklearn-theano库

sklearn-theano的功能所在。你不能用它从头到尾的训练一个模型，但它的神奇之处就是可以把网络作为特征提取器。

26、NLTK 库

NLTK（Natural Language Toolkit）自然语言处理工具包，是 NLP 研究领域常用的一个 Python 库，由宾夕法尼亚大学的 Steven Bird 和 Edward Loper 在 Python 的基础上开发的一个模块，至今已有超过十万行的代码。这是一个开源项目，包含数据集、 Python 模块、教程等。

27、SpaCy 库

是一个 Python 和 CPython 的 NLP 自然语言文本处理库。SpaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。

28、PKUSeg 库

是由北京大学语言计算与机器学习研究组研制推出的一个高准确度的中文分词工具包。PKUSeg-Python 简单易用，支持多领域分词，在不同领域的数据上都大幅提高了分词的准确率。

29、Gensim 库

是一个相当专业的主题模型 Python 工具包。在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比较注重描述商品的属性和特性，角度更客观。Gensim 就是 Python 里面计算文本相似度的程序包。

30、CoreNLP 库

Stanford CoreNLP 提供了一套人类语言技术工具。支持多种自然语言处理基本功能，Stanford CoreNLP 是它的一个 Python 接口。Stanford CoreNLP 主要功能包括分词、词性标注、命名实体识别、句法结构分析和依存分析等等。

31、TextBlob 库

用于处理文本数据的Python库。它提供一个简单的API，可用于深入研究常见的NLP任务，如词性标注、名词短语提取、情感分析、文本翻译、分类等。

32、Stanfordnlp 库

Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形、词性，并且能够标记句子的结构，语法形式和字词的依赖，指明那些名字指向同样的实体，指明情绪，提取发言中的开放关系等。

33、openCV 库

是一个基于BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在 Linux、Windows、Android 和 MacOS 操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成，同时提供了 Python、Ruby、MATLAB 等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

34、Pandas 库

是 Python 语言的一个扩展程序库，用于数据分析。Pandas 是一个开放源码、BSD许可的库，提供高性能、易于使用的数据结构和数据分析工具，基础是 Numpy（提供高性能的矩阵运算），可以从各种文件格式比如CSV、JSON、SQL、Excel导入数据。Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

35、Eli5 库

是一个 Python 库，允许使用统一API可视化地调试各种机器学习模型。它内置了对多个ML框架的支持，并提供了一种解释黑盒模型的方法。它有助于调试机器学习分类器并解释它们的预测。

36、SimpleCV 库

SimpleCV 将很多强大的开源计算机视觉库包含在一个便捷的 Python 包中。使用 SimpleCV，你可以在统一的框架下使用高级算法，例如特征检测、滤波和模式识别。使用者不用清楚一些细节，比如图像比特深度、文件格式、颜色空间、缓冲区管理、特征值还有矩阵和图像的存储。

37、LightGBM 库

是微软开源的一个实现 GBDT 算法的框架，支持高效率的并行训练。LightGBM 提出的主要原因是为了解决 GBDT 在海量数据遇到的问题，让 GBDT 可以更好更快地用于工业实践。其具有以下优点：更快的训练速度、更低的内存消耗、更好的准确率、分布式支持，可以快速处理海量数据。

38、ITK 库

是美国国家卫生院下属的国立医学图书馆开发的一款医学图像处理软件包，是一个开源的、跨平台的影像分析扩展软件工具。

39、Pgmagick 库

Pgmagick 是 GraphicsMagick 库的一个基于 Python 的包装器。图像处理系统有时被称为图像处理的瑞士军刀。它提供了一个健壮而高效的工具和库集合，支持以88种主要格式（包括重要格式，如DPX、GIF、JPEG、JPEG-2000、PNG、PDF、PNM和TIFF）读取、写入和操作图像。

40、Pycairo 库

是一个 Python 的优秀2D图形渲染库。

41、Fastai库

计算机视觉、文本、表格数据、时间序列、协同过滤等常见深度学习应用提供单一一致界面的深度学习库。

42、Imutils库

是在OPenCV基础上的一个封装,达到更为简结的调用OPenCV接口的目的,它可以轻松的实现图像的平移,旋转,缩放,骨架化等一系列的操作。

43、PyTorchCV库

TorchCV 支持图像分类、语义分割、目标检测、姿态检测、实例分割、生成对抗网络等任务中的多个常见模型。

44、BioPython 库

Biopython 项目是旨在减少计算生物学中代码重复的开源项目之一，由国际开发人员协会创建。它包含表示生物序列和序列注释的类，并且能够读取和写入各种文件格式（FASTA，FASTQ，GenBank 和 Clustal 等），支持以程序化方式访问生物信息的在线数据库（例如，NCBI）。独立的模块扩展了 Biopython 的序列比对，蛋白质结构，群体遗传学，系统发育，序列基序和机器学习等功能。

45、DashBio 库

是一个免费的开源 Python 库,用于生物信息学和药物开发应用。

46、RDKit 库

是一个用于化学信息学的开源工具包，基于对化合物2D和3D分子操作，利用机器学习方法进行化合物描述符生成，fingerprint 生成，化合物结构相似性计算，2D和3D分子展示等。基于Python语言进行调取使用。

如果大家对python人工智能感兴趣，小编这里有一份系统完整的学习资源，收藏很久了，时不时小编都会拿出来看一下，老底都掏出来了，就看你要不要投资自己的大脑了

如何学习大模型 AI

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。