概述
机器学习 (ML) 算法一度仅在高性能数据中心计算平台中出现,现在却被推向边缘。在边缘设备上运行的ML 算法的发展,刺激了已优化功耗、性能和面积 (PPA) 的硬件架构出现爆炸式增长。在 ML 逐渐成为主流的同时,硬件设计团队却难以跟上发展的步伐,而且他们往往无法在一次迭代中完成 AI/ML 系统的优化,这导致他们有时会因为 RTL 设计周期过长带来的成本而放弃最初的尝试。在本文中,了解如何创建全新的功耗/存储器高效硬件架构,以满足下一代边缘机器学习硬件需求。
传统的硬件设计专注于执行人类不太擅长的任务,例如查找图像中的边缘,而机器学习硬件则在尝试复制人类擅长的活动,例如识别图像中的汽车。模拟人脑的计算复杂度要比传统的图像处理困难几个数量级。这意味着硬件计算引擎必须变得更加强大,同时还要更加节能。当前这一代的 ML 算法和硬件虽然在尝试实现,但恐怕很快也会过时。我们需要的是更高的复杂度。孤立地分析单一图像是不够的,因为必须考虑空间和时间行为,同时还需要优化功耗。
虽然 ML 算法和硬件无疑已成为主流,但设计人员对于其潜力可能仅掌握了皮毛。未来所需的下一代硬件和算法的复杂度已经超出了今天的能力范围。当网络背后的研究揭示出利用所处理数据的稀疏性或间歇性的全新方法时,重用过去的架构是不切实际的。这意味着创建新的功耗 / 存储器高效硬件架构,以满足这些下一代的需求。只有 HLS 能够提供可靠的途径来完成这项任务。
Catapult®HLS 使硬件设计人员能够使用 C++/SystemC 快速创建和验证复杂的硬件架构。HLS 使用位精确的数据类型,以便在 C++ 仿真中对真实的硬件精度进行建模(图 6)。这意味着设计人员不仅可以在 C++/SystemC 中为 ML 硬件的逐位行为建模,还可以将验证速度提高 100 倍至 1000 倍。设计人员可以在几分钟内验证 ML 设计,而在使用 RTL 仿真时,这将需要几小时甚至几天的时间。
点击这里下载完整白皮书
来源:Mentor明导