主要贡献:
一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后,减少计算量,又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.67±5.49 bpm。该设计采用ST65 nm技术框架,实现3 GOPS @ 1 MHz,每个窗口消耗56.1μJ\mu JμJ,占用1634K NAND2等效单元面积,从PPG信号估计每隔2s的HR延迟,变为32 ms。关键在于用硬件直接搭建出CNN LSTM网络。这个算法和硬件都会太强了!
理论部分的量化公式:
quantize(x)=round(clip(x,−1,1)×M)/MQ(x)=s×quantize(x−ps)+p
\begin{gathered}
q u a n t i z e(x)=r o u n d(c l i p(x,-1,1)\times M)/M \\
Q(x)=s\times q u a n t i z e\left(\frac{x-p}{s}\right)+p
\end{gathered}
quantize(x)=round(clip(x,−1,1)×M)/MQ(x)=s×quantize(sx−p)+p
算法流程图:

硬件实现流程和时序图:


硬件实现:
CNN1单层实现:

Binarizer架构:

Binary max-pooling单元:

转置Buffer架构:

CNN:

LSTM:

bLSTM时序图:

实验结论:

**参考:**
Binary CorNET Accelerator for HR Estimation From Wrist-PPG

文章提出了一种名为bCorNET的全二值化网络结构,用于减少计算量并减轻运动伪影对心率估计的影响。通过在22个受试者上测试,平均绝对误差为6.67±5.49bpm。硬件实现部分,采用ST65nm技术,达到3GOPS@1MHz的性能,每个窗口功耗为56.1μJ,占用1634KNAND2等效单元面积。该设计实现了CNN和LSTM的硬件直接构建,显著提高了效率和实时性。

被折叠的 条评论
为什么被折叠?



