Open AI 刚发布GPT4那会儿,估计就有很多人想到了FPGA是否能加速推理过程。
网上就有一篇文章:剖析 FPGA 加速大模型推理的潜力。证明了逻辑实现大模型推理的可行性。
然而对于百亿量级参数的大模型,大多数FPGA上那几个G的DDR根本不够使。
今天洗澡的时候我突然想到了之前在B站看到的直接用FPGA读取PC内存的外挂。
这类外挂基本上都是基于国外老哥开源的pcileech开发的。
原理大致就是FPGA通过pcie接口直接访问电脑主机的内存,绕过CPU,简称DMA,直接内存访问。
这里摘抄了几个pcileech的特性:
Capabilities: 能力:
-
Retrieve memory from the target system at >150MB/s.
以 >150MB/s 的速度从目标系统检索内存。实际带宽远不止这点,这是他转成usb外设后的速度。真正的带宽瓶颈可能是pcie和你电脑内存的速度。
-
ALL memory can be accessed in native DMA mode (FPGA hardware).
所有存储器都可以在本机DMA模式(FPGA硬件)下访问。想象一下你的主机插满128G的内存。
-
Raw PCIe TLP access (FPGA hardware).
原始 PCIe TLP 访问(FPGA 硬件)。说实话开发难度还是有点大的你还得懂pcie。