再见pip & conda!管理Python依赖关系的更好的选择:Poetry

本文对比了Python依赖管理工具Poetry、pip和conda在安装便利性、可用包、依赖关系数量、卸载包和依赖性文件方面的差异。Poetry以其一致性、简便性和对依赖关系的精细管理脱颖而出,特别适合大型项目和团队协作。文章通过实例展示了Poetry如何简化安装、卸载和版本管理,以及如何通过pyproject.toml和poetry.lock文件确保环境的可重复性。

在你的数据科学项目的开始阶段,使用pip或conda等依赖性管理工具可能就足够了。

然而,随着项目的扩大,依赖关系的数量也在增加。这可能会使项目的环境难以重现,并且在仅仅依靠pip或conda进行依赖性管理时难以有效地维护它。

此时 Poetry 应运而生,它是一个开源库,提供了一个强大的工具来创建和维护具有一致环境的Python项目。在这篇文章中,我们将深入探讨Poetry的优势,并强调它与pip和conda的主要区别。

安装的便利性

一键轻松安装过程,能够快速采用并将软件包集成到我们的代码库中,从而节省时间和精力。

Conda

Conda的安装格式对于不同的软件包是不一致的。例如,要安装polars,你需要运行:

conda install -c conda-forge polar  

而要安装pandas,命令是:

conda install -c anaconda pandas  

Pip

Pip对每个软件包都有一致的安装格式:

pip install package-name  

Poetry

Poetry也都遵循相同的安装格式:

poetry add package-name  

可用的packages

软件包选择空间大,使得找到最适合需求的特定软件包和版本更容易。

Conda

有些软件包,如 “snscrape”,不能通过conda安装。此外,某些版本,如Pandas 2.0,可能无法通过Conda安装。

虽然可以在conda的虚拟环境中使用pip来解决软件包的限制,但conda不能跟踪用pip安装的依赖关系。

$ conda list  
# packages in environment at /Users/khuyentran/miniconda3/envs/test-conda:  
#  
# Name                    Version                   Build  Channel  

Pip

Pip可以安装来自Python Package Index (PyPI)和其他存储库的任何软件包。

Poetry

Poetry还可以安装来自Python Package Index (PyPI)和其他存储库的软件包。

依赖关系的数量

减少环境中的依赖性,可以简化开发过程。

Conda

Conda提供完全的环境隔离,同时管理Python软件包和系统级的依赖关系。与其他软件包管理器相比,这可能会导致软件包太大,在安装和分发时可能会消耗更多的存储空间。

$ conda install pandas  
  
$ conda list            
  
# packages in environment at /Users/khuyentran/miniconda3/envs/test-conda:  
#  
# Name              Version         Build           Channel               
blas                1.0             openblas                            
bottleneck          1.3.5           py311ha0d4635_0                      
bzip2               1.0.8           h620ffc9_4                          
ca-certificates     2023.05.30      hca03da5_0                          
libcxx              14.0.6          h848a8c0_0                          
libffi              3.4.4           hca03da5_0                          
libgfortran         5.0.0           11_3_0_hca03da5_28                   
libgfortran5        11.3.0          h009349e_28                         
libopenblas         0.3.21          h269037a_0                          
llvm-openmp         14.0.6          hc6e5704_0                          
ncurses             6.4             h313beb8_0                          
numexpr             2.8.4           py311h6dc990b_1                      
numpy               1.24.3          py311hb57d4eb_0                      
numpy-base          1.24.3          py311h1d85a46_0                      
openssl             3.0.8           h1a28f6b_0                          
pandas              1.5.3           py311h6956b77_0                      
pip                 23.0.1          py311hca03da5_0                      
python              3.11.3          hb885b13_1                          
python-dateutil     2.8.2           pyhd3eb1b0_0                        
pytz                2022.7          py311hca03da5_0                      
readline            8.2             h1a28f6b_0                          
setuptools          67.8.0          py311hca03da5_0                      
six                 1.16.0          pyhd3eb1b0_1                        
sqlite              3.41.2          h80987f9_0                          
tk                  8.6.12          hb8d0fd4_0                          
tzdata              2023c           h04d1e81_0                          
wheel               0.38.4          py311hca03da5_0                      
xz                  5.4.2           h80987f9_0                          
zlib                1.2.13          h5a0b063_0                        

Pip

Pip只安装软件包所需的依赖性。

$ pip install pandas  
  
$ pip list  
Package         Version  
--------------- -------  
numpy           1.24.3  
pandas          2.0.2  
pip             22.3.1  
python-dateutil 2.8.2  
pytz            2023.3  
setuptools      65.5.0  
six             1.16.0  
tzdata          2023.3  

Poetry

Poetry也只安装软件包所需的依赖项。

$ poetry add pandas  
$ poetry show

卸载Packages

卸载软件包及其依赖关系可以释放磁盘空间,防止不必要的杂乱,并优化存储资源的使用。

Pip

Pip只删除指定的包,而不是它的依赖关系,可能会导致未使用的依赖关系长期积累。这可能导致增加存储空间的使用和潜在的冲突。

$ pip install pandas  
$ pip uninstall pandas  
$ pip list  
  
Package         Version  
--------------- -------  
numpy           1.24.3  
pip             22.0.4  
python-dateutil 2.8.2  
pytz            2023.3  
setuptools      56.0.0  
six             1.16.0  
tzdata          2023.3  

Conda

Conda删除了该软件包及其依赖关系。

$ conda install -c conda pandas  
  
$ conda uninstall -c conda pandas  
  
Collecting package metadata (repodata.json): done  
Solving environment: done  
  
## Package Plan ##  
  
  environment location: /Users/khuyentran/miniconda3/envs/test-conda  
  
  removed specs:  
    - pandas  
  
  
The following packages will be REMOVED:  
  
  blas-1.0-openblas  
  bottleneck-1.3.5-py311ha0d4635_0  
  libcxx-14.0.6-h848a8c0_0  
  libgfortran-5.0.0-11_3_0_hca03da5_28  
  libgfortran5-11.3.0-h009349e_28  
  libopenblas-0.3.21-h269037a_0  
  llvm-openmp-14.0.6-hc6e5704_0  
  numexpr-2.8.4-py311h6dc990b_1  
  numpy-1.24.3-py311hb57d4eb_0  
  numpy-base-1.24.3-py311h1d85a46_0  
  pandas-1.5.3-py311h6956b77_0  
  python-dateutil-2.8.2-pyhd3eb1b0_0  
  pytz-2022.7-py311hca03da5_0  
  six-1.16.0-pyhd3eb1b0_1  
  
  
Proceed ([y]/n)?   
  
Preparing transaction: done  
Verifying transaction: done  
Executing transaction: done  

Poetry

Poetry还删除了该软件包及其依赖关系。

$ poetry add pandas  
$ poetry remove pandas  
  
  • Removing numpy (1.24.3)  
  • Removing pandas (2.0.2)  
  • Removing python-dateutil (2.8.2)  
  • Removing pytz (2023.3)  
  • Removing six (1.16.0)  
  • Removing tzdata (2023.3)  

依赖性文件

依赖文件通过指定所需软件包的确切版本或版本范围来确保软件项目环境的可重复性。

这有助于在不同的系统或不同的时间点上重新创建相同的环境,确保具有相同依赖关系的开发人员之间的协作。

Conda

为了在Conda环境中保存依赖关系,需要手动将它们写入一个文件中。在environment.yml文件中指定的版本范围可能会导致不同的版本被安装,在复制环境时可能会引入兼容性问题。

我们假设已经安装了1.5.3版的pandas作为例子。下面是一个指定了依赖关系的environment.yml文件的例子:

# environment.yml  
name: test-conda  
channels:  
  - defaults  
dependencies:  
  - python=3.8  
  - pandas>=1.5  

如果一个新的用户试图在pandas的最新版本是2.0的时候重现环境,那么pandas 2.0将被替代安装。

# 创建并激活一个虚拟环境  
$ conda env create -n env  
$ conda activate env  
  
# 列出当前环境中的软件包  
$ conda list  
...  
pandas 2.0  

如果代码库依赖于pandas 1.5.3版本特有的语法或行为,而语法在2.0版本中发生了变化,那么用pandas 2.0运行代码可能会带来错误。

Pip

同样的问题也可能发生在管道上。

# Requirements.txt  
pandas>=1.5  
# 创建并激活一个虚拟环境  
$ python3 -m venv venv  
$ source venv/bin/activate  
  
# 安装依赖项  
$ pip install -r requirements.txt  
  
# 列出软件包  
$ pip list  
Package    Version  
---------- -------  
pandas       2.0  
...  
...  

可以通过把它们冻结在requirements.txt文件中来确定版本:

```bash  
$ pip freeze > requirements.txt  
# requirements.txt  
  
numpy==1.24.3  
pandas==1.5.3  
python-dateutil==2.8.2  
pytz==2023.3  
six==1.16.0  

然而,这样的代码环境并不那么灵活,从长远来看,可能更难维护。对依赖关系的任何改变都需要手动修改requirements.txt文件,这可能很费时且容易出错。

### Poetry

Poetry在安装软件包时自动更新pyproject.toml文件。

在下面的例子中,"pandas "包被加入了版本约束"^1.5"。这种灵活的版本管理方法确保你的项目可以适应更新的版本,而不需要手动调整。

$ poetry add ‘pandas=^1.5’

pyproject.toml

[tool.poetry.dependencies]
python = “^3.8”
pandas = “^1.5”


poetry.lock文件存储了每个软件包及其依赖关系的精确版本号。

poetry.lock


[[package]]
name = “pandas”
version = “1.5.3”
description = “Powerful data structures for data analysis, time series, and statistics”
category = “main”
optional = false
python-versions = “>=3.8”

[package.dependencies]
numpy = [
{version = “>=1.20.3”, markers = "python_version < “3.10"”},
{version = “>=1.21.0”, markers = "python_version >= “3.10"”},
{version = “>=1.23.2”, markers = "python_version >= “3.11"”},
]
python-dateutil = “>=2.8.2”
pytz = “>=2020.1”
tzdata = “>=2022.1”


这保证了所安装软件包的一致性,即使一个软件包在 pyproject.toml 文件中指定了版本范围。在这里,我们可以看到pandas 1.5.3被安装,而不是pandas 2.0

$ poetry install

$ poetry show pandas

name : pandas
version : 1.5.3
description : Powerful data structures for data analysis, time series, and statistics

dependencies

  • numpy >=1.20.3
  • numpy >=1.21.0
  • numpy >=1.23.2
  • python-dateutil >=2.8.1
  • pytz >=2020.1

为开发和生产环境提供单独的依赖
---------------

通过分离依赖关系,可以明确区分开发目的所需的包,如测试框架和代码质量工具,和生产环境所需的包,通常包括核心依赖关系。

这确保生产环境只包含运行应用程序所需的软件包,减少冲突或兼容性问题的风险。

### Conda

Conda本质上并不支持不同环境下的独立依赖,但一个变通方法是创建两个环境文件:一个用于开发环境,一个用于生产环境。开发文件包含了生产和开发的依赖关系。

environment.yml

name: test-conda
channels:

  • defaults
    dependencies:

Production packages

  • numpy
  • pandas

environment-dev.yml

name: test-conda-dev
channels:

  • defaults
    dependencies:

Production packages

  • numpy
  • pandas

Development packages

  • pytest
  • pre-commit

### Pip

Pip也不直接支持独立的依赖关系,但类似的方法可以用独立的需求文件。

requirements.txt

numpy
pandas

requirements-dev.txt

-r requirements.txt
pytest
pre-commit

Install prod

$ pip install -r requirements.txt

Install both dev and prod

$ pip install -r requirements-dev.txt


### Poetry

Poetry通过支持一个文件中的分组,简化了对依赖关系的管理。这使你能够在一个地方跟踪所有的依赖关系。

$ poetry add numpy pandas
$ poetry add --group dev pytest pre-commit

pyproject.toml

[tool.poetry.dependencies]
python = “^3.8”
pandas = “^2.0”
numpy = “^1.24.3”

[tool.poetry.group.dev.dependencies]
pytest = “^7.3.2”
pre-commit = “^3.3.2”


要只安装生产依赖性:

$ poetry install --only main


要同时安装开发和生产依赖:

$ poetry install


更新一个环境
------

更新依赖关系对于从较新的软件包版本中引入的错误修复、性能改进和新功能中获益至关重要。

### Conda

Conda可以只更新一个指定的软件包。

$ conda install -c conda pandas
$ conda install -c anaconda scikit-learn

新版本可用

$ conda update pandas
$ conda update scikit-learn


之后,需要手动更新environment.yaml文件,使其与更新的依赖关系保持同步。

$ conda env export > environment.yml


### Pip

Pip也只允许更新一个指定的软件包,并要求我们手动更新requirements.txt文件。

$ pip install -U pandas
$ pip freeze > requirements.txt


### Poetry

使用Poetry,可以使用 update 命令来升级 pyproject.toml 文件中指定的所有软件包。这个动作会自动更新poetry.lock文件,确保软件包规格和锁文件的一致性。

$ poetry add pandas scikit-learn

新版本可用

poetry update

Updating dependencies
Resolving dependencies… (0.3s)

Writing lock file

Package operations: 0 installs, 2 updates, 0 removals

• Updating pandas (2.0.0 -> 2.0.2)
• Updating scikit-learn (1.2.0 -> 1.2.2)


依赖关系的解决
-------

当项目所需的包或库有冲突的版本或不兼容的依赖性时,就会发生依赖性冲突。正确解决冲突对于避免错误、运行时问题或项目失败至关重要。

### Pip

pip是按顺序安装软件包的,这意味着它按照指定的顺序一个一个地安装每个软件包。当软件包有不兼容的依赖关系或版本要求时,这种顺序方法有时会导致冲突。

例如,假设你先安装`pandas==2.0.2`,这需要`numpy>=1.20.3`。后来,你用pip安装`numpy==1.20.2`。尽管这将产生依赖性冲突,但pip会继续更新numpy的版本。

$ pip install pandas==2.0.2

$ pip install numpy==1.22.2
Collecting numpy=1.20.2
Attempting uninstall: numpy
Found existing installation: numpy 1.24.3
Uninstalling numpy-1.24.3:
Successfully uninstalled numpy-1.24.3
ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
pandas 2.0.2 requires numpy>=1.20.3; python_version < “3.10”, but you have numpy 1.20.2 which is incompatible.
Successfully installed numpy-1.20.2


### Conda

Conda使用一个SAT求解器来探索软件包版本和依赖关系的所有组合,以找到一个兼容的集合。

例如,如果一个现有的软件包对其依赖关系有特定的约束(例如,statsmodels==0.13.2要求numpy>=1.21.2,<2.0a0),而你要安装的软件包不符合该要求(例如,numpy<1.21.2),conda不会立即引发错误。相反,它将勤奋地搜索所有需要的软件包及其依赖的兼容版本,只有在没有找到合适的解决方案时才会报告错误。

$ conda install ‘statsmodels==0.13.2’

$ conda search ‘statsmodels==0.13.2’ --info
dependencies:

  • numpy >=1.21.2,<2.0a0
  • packaging >=21.3
  • pandas >=1.0
  • patsy >=0.5.2
  • python >=3.9,❤️.10.0a0
  • scipy >=1.3

$ conda install ‘numpy<1.21.2’


Package ca-certificates conflicts for:
python=3.8 -> openssl[version=‘>=1.1.1t,<1.1.2a’] -> ca-certificates
openssl -> ca-certificates
ca-certificates
cryptography -> openssl[version=‘>1.1.0,❤️.1.0’] -> ca-certificates

Package idna conflicts for:
requests -> urllib3[version=‘>=1.21.1,<1.27’] -> idna[version=‘>=2.0.0’]
requests -> idna[version=‘>=2.5,<3|>=2.5,<4’]
idna
pooch -> requests -> idna[version=‘>=2.5,<3|>=2.5,<4’]
urllib3 -> idna[version=‘>=2.0.0’]

Package numexpr conflicts for:
statsmodels0.13.2 -> pandas[version=‘>=1.0’] -> numexpr[version=‘>=2.7.0|>=2.7.1|>=2.7.3’]
numexpr
pandas
1.5.3 -> numexpr[version=‘>=2.7.3’]

Package patsy conflicts for:
statsmodels==0.13.2 -> patsy[version=‘>=0.5.2’]
patsy

Package chardet conflicts for:
requests -> chardet[version=‘>=3.0.2,<4|>=3.0.2,<5’]
pooch -> requests -> chardet[version=‘>=3.0.2,<4|>=3.0.2,<5’]

Package python-dateutil conflicts for:
statsmodels0.13.2 -> pandas[version=‘>=1.0’] -> python-dateutil[version=‘>=2.7.3|>=2.8.1’]
python-dateutil
pandas
1.5.3 -> python-dateutil[version=‘>=2.8.1’]

Package setuptools conflicts for:
numexpr -> setuptools
pip -> setuptools
wheel -> setuptools
setuptools
python=3.8 -> pip -> setuptools
pandas==1.5.3 -> numexpr[version=‘>=2.7.3’] -> setuptools

Package brotlipy conflicts for:
urllib3 -> brotlipy[version=‘>=0.6.0’]
brotlipy
requests -> urllib3[version=‘>=1.21.1,<1.27’] -> brotlipy[version=‘>=0.6.0’]

Package pytz conflicts for:
pytz
pandas1.5.3 -> pytz[version=‘>=2020.1’]
statsmodels
0.13.2 -> pandas[version=‘>=1.0’] -> pytz[version=‘>=2017.3|>=2020.1’]


虽然这种方法提高了找到解决方案的机会,但它可能是计算密集型的,特别是在处理繁杂的环境时。

### Poetry

通过关注项目的直接依赖关系,Poetry的确定性解析器缩小了搜索空间,使解析过程更加高效。它评估指定的约束条件,如版本范围或特定版本,并立即识别任何冲突。

$ poetry add ‘seaborn==0.12.2’
$ poetry add ‘matplotlib<3.1’

Because poetry shell depends on seaborn (0.12.2) which depends on matplotlib (>=3.1,❤️.6.1 || >3.6.1), matplotlib is required.
So, because poetry shell depends on matplotlib (❤️.1), version solving failed.


这种即时反馈有助于防止潜在的问题升级,并允许开发人员在开发过程中及早解决问题。例如,在下面的代码中,我们可以放宽对seaborn的要求,以便能够安装特定版本的matplotlib:

poetry add ‘seaborn<=0.12.2’ ‘matplotlib<3.1’

Package operations: 1 install, 2 updates, 4 removals

• Removing contourpy (1.0.7)
• Removing fonttools (4.40.0)
• Removing packaging (23.1)
• Removing pillow (9.5.0)
• Updating matplotlib (3.7.1 -> 3.0.3)
• Installing scipy (1.9.3)
• Updating seaborn (0.12.2 -> 0.11.2)


总结
--

综上所述,Poetry提供了比pip和conda更多的优势:

1.  **一致的软件包安装:**Poetry提供了一个一致的格式来安装任何软件包,确保整个项目有一个标准化的方法。
    
2.  **广泛的软件包选择:**Poetry提供了对PyPI上广泛的软件包的访问,使你可以为你的项目利用一个多样化的生态系统。
    
3.  **高效的依赖性管理:**Poetry只为指定的软件包安装必要的依赖性,减少你环境中不相干的软件包的数量。
    
4.  **简化的软件包移除:**Poetry简化了软件包及其相关依赖关系的移除,使其易于维护一个干净和高效的项目环境。
    
5.  **依赖性解决:**Poetry的确定性解析器有效地解决了依赖关系,及时识别并处理任何不一致或冲突。
    

虽然Poetry可能需要你的团队成员花费一些额外的时间和精力来学习和适应,但从长远来看,使用Poetry这样的工具可以为你节省时间和精力。

---------------------------END---------------------------

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉优快云大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)


一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img
三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值