随着人工智能技术的迅猛发展,推理需求的增长呈指数级,但这也带来了高能耗、密集计算和实时处理等挑战。这些挑战不仅增加了运营成本,也对环境产生了影响。据GAFA数据,AI的总功耗中超过60%来自推理,而推理需求的增加导致数据中心容量在两年内增长了2.5倍。
对于服务器来说,密集计算过程中产生的热量需要复杂的冷却系统来散发,这进一步增加了人工智能流程的整体能耗。此外,实时处理的需求也带来了挑战。平衡高效实时处理与低延迟要求(服务器、高级驾驶辅助系统 (ADAS) 或制造应用程序的强制要求)需要先进的硬件设计和优化的计算策略。
传统的AI推理硬件设计使用CPU或GPU,但由于AI算法的复杂性和特殊性,在实现能源效率方面面临限制,导致高功耗(服务器每个多核单元数百瓦)。处理单元和内存之间低效的数据移动也进一步影响了能源效率和吞吐量。例如,访问外部DRAM比访问本地寄存器要消耗多200倍的能量。
由于更高的计算需求,到2025年,使用CPU和GPU的下一代服务器的功耗可能高达1,000W。在资源有限的电池供电设备上部署AI推理更具挑战性,因为最高效的设备基于CPU和GPU的设计功耗为10mW到几瓦,受到强大的吞吐量限制,限制了AI复杂性和最终用户体验。
面对这些挑战,行业对节能AI推理解决方案的需求日益增长。企业寻求可扩展的高性能解决方案来管理复杂的人工智能工作负载,同时降低能源成本。另一方面,节能的AI推理能够使移动和资源受限的设备执行复杂任务,而不会快速耗尽电池,并减少对基于云的处理的依赖,最大限度地减少数据传输和延迟问题。
为了实现这一目标,创新的硬件加速器专为AI推理工作负载而设计。这些加速器通过优化数据流实现了高效和优化的处理。这些数据流对应于人工智能应用程序中使用的特定运算符(例如池化、激活函数、标准化等)。数据流引擎是一个大型处理元件阵列,能够有效地处理大型矩阵向量乘法、卷积和许多更复杂的运算,因为大多数神经网络都基于矩阵乘法运算。
为了进一步优化能源效率,人工智能加速器采用了新技术,例如近内存计算。近内存计算将处理元件集成在内存子系统内,从而能够在内存附近实现更快的数据处理,从而减少与数据传输相关的能耗。最近,“非标准”技术的新方法,例如内存计算或尖峰神经网络(SNN),已成为实现高能效AI推理的最积极解决方案。
内存计算直接在内存内进行电路级计算,无需数据传输并提高处理速度。处理可以以模拟或数字方式执行,并实现不同的存储技术,例如SRAM、闪存或新的NVM(RRAM、MRAM、PCRAM、FeFET等)。这种方法对于涉及大型数据集的复杂人工智能任务特别有益。SNN还代表了一种创新的人工智能推理方法:它们通常由通过尖峰进行通信的互连节点组成,能够模拟复杂的时间过程和基于事件的计算,这对于处理时间敏感数据或模拟大脑等任务非常有用。
利用近内存/内存计算或SNN的AI加速器为AI行业带来重大影响,包括提高能源效率、提高处理速度和先进的模式识别功能。这些加速器推动硬件设计的优化,从而创建针对特定人工智能工作负载量身定制的专用架构。此外,它们还促进了边缘计算的进步,促进直接在边缘设备上进行高效的人工智能处理并减少延迟。这些技术的变革潜力凸显了它们在医疗保健和制造、汽车和消费电子产品等不同行业变革中的关键作用。