· · ·

亚搏体育

亚搏体育

亚搏手机app官方入口 更好的硬件怎么将零值形成AI加速引擎:寥落策动让AI更轻量、更高效

发布日期:2026-05-10 03:12 来源:未知 作者:admin 浏览次数:

在AI模子规模,规模至关遑急。

尽管部分AI众人教会称,抓续扩大大谈话模子的规模正在遭受性能收益递减的瓶颈,各大公司仍在不休推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子规模的扩大,其智力也在增强,但随之而来的是更高的能耗需乞降更长的运行时分,进而加重了碳排放问题。为了缓解这些问题,业界启动转向规模较小、智力相对有限的模子,并尽可能聘用低精度数值来暗示模子参数。

然则,还有另一条旅途,有望在保留超大模子高性能的同期,镌汰运行时分、降愚顽耗。这一步伐的中枢,即是充分应用大型AI模子里面多数存在的零值。

关于很多模子而言,大多数参数——包括权重和激活值——内容上王人是零,或者颠倒接近于零,透彻不错在不亏欠精度的前提下将其视为零处置。这种特点被称为寥落性。寥落性为从简策动资源提供了宽绰契机:与其花费时分和能量对零进行加法或乘法运算,不如径直跳过这些策动;与其在内存中存储多数零值,不如只保存非零参数。

缺憾的是,现时主流硬件(如多核CPU和GPU)并不成自然充分应用寥落性。要着实进展寥落性的上风,磋议东说念主员和工程师需要重新念念考并重构通盘设计架构,涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的磋议团队中,咱们开发出了(据咱们所知)首款简略高效处置万般寥落和传统责任负载的硬件芯片。在不同责任负载下,能耗从简幅度互异显赫,但平均而言,咱们的芯片能耗仅为CPU的七十分之一,策动速率平均进步至CPU的八倍。为罢了这一主义,咱们从底层启动,对硬件、固件和软件进行了全面的针对寥落性的工程设计。咱们但愿这只是硬件与模子协同发展的起原,最终罢了更高能效的AI。

数组与寥落暗示

神经汇聚颠倒输入数据以数字数组的体式暗示,这些数组不错是一维(向量)、二维(矩阵)或更高维度(张量)。寥落向量、矩阵或张量中大多数元素为零。寥落进度因情况而异,但当零值占比跳跃50%时,就不错从特地针对寥落性的策动步伐中获益。与之相对的是"密集"对象——即零值数目联系于元素总额较少的情况。

寥落性不错自然存在,也不错通过东说念主工边幅引入。举例,应酬汇聚图自然即是寥落的。设计一个图,其中每个节点代表一个东说念主,每条边代表一段友谊关系。由于大多数东说念主互相并不领路,暗示扫数可能趋附关系的矩阵中绝大多数元素王人是零。其他AI应用场景,如图学习和保举模子,相通存在自然的寥落性。

平庸情况下,一个4×4的矩阵岂论包含若干个零值,在内存中王人会占用16个存储空间。若矩阵是寥落的,即多数元素为零,则不错更高效地用"纤维树"结构暗示:最初是包含非零元素所在行坐标的"纤维",趋附至包含非零元素列坐标的纤维,最终聚积到对应的非零值自己。在策动机内存中存储纤维树时,每条纤维的端点(即"段")会与坐标和数值一同保存。

除自然存在的寥落性外,还不错通过多种边幅在AI模子中主动引入寥落性。两年前,Cerebras的磋议团队证据,不错将大谈话模子中多达70%至80%的参数开导为零,而不亏欠任何精度。Cerebras在Meta开源的Llama 7B模子上考据了这一论断,议论念念路相通适用于ChatGPT、Claude等其他大谈话模子。

寥落策动的上风

寥落策动的高效性源于两个基本特点:压缩零值的智力,以及零的特殊数学性质。寥落策动算法和专用硬件王人充分应用了这两个中枢念念路。

最初,寥落数据不错被压缩,从而以"寥落数据类型"的体式更从简内存地进行存储。压缩还能在处置多数数据时遏抑数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例:传统边幅会将其完竣存储,占用16个内存空间;而压缩为寥落数据类型后,只需保留非零元素,仅占用3个存储空间,相较于底本的16个大幅从简。跟着寥落进度和矩阵规模的增大,这种从简效果将更加显赫。

除内容数据值外,压缩数据还需要存储元数据,即非零元素的行诸君置信息。这平庸以"纤维树"的边幅抒发:列出包含非零元素的行标签,并与对应的列标签连系,进而聚积到存储在这些位置的数值。

在内存层面,情况更加复杂:每个非零值的行列标签,以及标记标签数目的"段"信息,王人需要一并存储,以便昭着分辨元数据和内容数据。

在密集、未压缩的矩阵数据类型中,不错一一或并行探听数值,且其位置可通过简短公式径直策动。但在寥落压缩数据中,探听数值需要先查找行索引坐标,再"波折"查找列索引坐标,最终才能定位到主义值。由于寥落数据的位置具有当场性,这些波折查找操作可能极为当场,导致策动经过依赖于数据自己,并需要动态分拨内存探听。

其次,零的两个数学特点使软件和硬件不错多数跳过策动:任何数乘以零等于零,因此无需内容实践乘法;任何数加零等于其自己,因此加法也不错径直跳过。

在矩阵-向量乘法这一AI最常见的运算中,除触及两个非零元素的策动以外,其余策动均可跳过。过去述4×4矩阵与一个四元素向量的乘法为例:在密集策动中,需要16次乘法和16次加法;而在寥落策动中,只需处置向量中的非零元素,亚搏中国手机版app下载通过波折查找定位矩阵中对应的非零元素,仅对这部分进行乘加运算——在示例中,只需实践两次乘法,而非16次。

现存硬件的局限

缺憾的是,当代硬件并不擅长加速寥落策动。以矩阵-向量乘法为例,在单核CPU中,向量中的每个元素需一一相乘后写入内存,效能低下。因此,内容使用中往往借助支撑向量运算的CPU或GPU,将扫数元素并行处置,大幅进步速率。但当矩阵和向量王人极为寥落时,向量化CPU和GPU的大部分算力王人花费在了与零的乘法运算上,产生多数无效策动。

新一代GPU简略对一种特定类型的寥落性——结构化寥落性——进行一定进度的硬件加速。结构化寥落性假定每四个相邻参数中有两个为零。然则,部分模子更顺应非结构化寥落性——即允许苟且参数(权重或激活值)为零并被压缩,岂论其位置怎么。GPU不错通过软件边幅(如cuSparse库)支撑非结构化寥落策动,但这种支撑往往十分有限,GPU硬件应用率偏低,多数算力破钞在额外支出上。

在通过软件进行寥落策动时,当代CPU未必比GPU更具上风,因为CPU具备更好的生动性。但CPU在寥落策动中常受限于波折查找操作带来的性能瓶颈。CPU平庸会凭据预期需求对数据进行"预取",但关于当场寥落数据,这一机制往往失效,导致CPU不得不花费时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中支撑"指针数组"探听模式,加速了波折查找速率。尽管预取技艺的改进使苹果CPU在寥落策动方面更具竞争力,但CPU架构仍存在专用寥落策动架构所不具备的根人性支出,因为CPU需要兼顾通用策动需求。

其他公司也在开发加速寥落机器学习的硬件,包括Cerebras的晶圆级引擎(Wafer Scale Engine)和Meta的磨砺与推理加速器(MTIA)。Cerebras的晶圆级引擎颠倒配套寥落编程框架,在大谈话模子上罢了了高达70%的寥落度,后果颠倒。但其硬件和软件有筹划仅支撑权重寥落性,不支撑对很多应用至关遑急的激活值寥落性。MTIA第二版声称在寥落策动性能上较初版进步七倍,但现在公开线路的寥落性支撑信息仅限于矩阵乘法,尚未隐敝向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要策动时分,但为其他运算提供寥落性支撑相通至关遑急。为幸免在寥落与密集数据类型之间经常切换,扫数操作王人应原生支撑寥落处置。

Onyx:从底层支撑寥落策动的硬件加速器

针对上述万般折中有筹划的不及,斯坦福大学团队研发了一款硬件加速器——Onyx,简略从底层充分应用寥落性,岂论是结构化一经非结构化寥落性均可支撑。Onyx是首款可编程加速器,同期支撑寥落和密集策动,简略对两种模式下的要害操作进行加速。

CPU、粗粒度可重构阵列(CGRA)和现场可编程门阵列(FPGA)代表了效能与生动性之间的不同衡量。CPU的每个逻辑单位针对特定功能高效设计;FPGA的每个比特均可设立,极具生动性但效能较低;CGRA则旨在兼顾FPGA的生动性与CPU的效能。

CGRA由针对特定应用规模优化的可设立内存和策动单位组成,步伐员不错在高头绪上对其里面进行重新设立,使其比FPGA更高效,同期比CPU更生动。

Onyx基于CGRA架构构建,由生动可编程的处置单位(PE)模块和内存(MEM)模块组成。内存模块崇拜存储压缩矩阵和其他数据情势,处置单位模块则径直对压缩矩阵进交运算,摒除扫数无须要的无效策动。

Onyx的编译器崇拜将软件教导改变为CGRA设立。最初,输入抒发式(如寥落向量乘法)被漂浮为抽象内存节点和策动节点组成的图;编译器将这些抽象节点映射到CGRA的内存模块和处置单位上,并运筹帷幄数据传输旅途;最毕生成设立CGRA所需的教导集。

由于Onyx具备可编程性,工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们聘用"能量延长积"(EDP,即能耗与策动时分的乘积)来评估硬件的效能进步,该有计划抽象反应了速率与能耗之间的衡量关系。

Onyx的能量延长积最高可达使用专用寥落库的CPU(12核Intel至强处置器)的565倍。此外,Onyx还可设立为加速旧例密集策动应用,雷同GPU或TPU的责任边幅:当策动为寥落类型时,Onyx切换至寥落策动模式;当策动为密集类型时,则切换至并行加速模式。这一架构为在合并芯片上同期加速寥落与密集策动迈出了遑急一步。

相通值得关心的是,Onyx开启了算法层面的新念念路。寥落加速硬件不仅能进步AI的性能效能和动力效能,还将激发磋议东说念主员和工程师探索具有冲破性后劲的新式算法。

改日瞻望

咱们的团队已在Onyx基础上入部下手开发下一代芯片。除矩阵乘法外,机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器颠倒编译器添加对完竣策动类型的支撑。由于寥落机器学习模子可能同期包含寥落层和密集层,咱们也在磋议怎么更高效地将密集与寥落加速架构集成于合并芯片,以罢了不同数据类型之间的快速改变。此外,咱们还在探索通过更灵验地拆分寥落数据来冲破内存限度,从而在多个寥落加速芯片上协同运行策动任务。

与此同期,咱们正在研发简略预测寥落加速器性能的系统,以接济更优硬件的设计责任。从永久来看,咱们但愿不雅察高度寥落性是否会在更多模子类型中获取普及,以及寥落加速器是否会在更大规模上获取应用。

为非结构化寥落性构建硬件、充分应用零值的后劲,只是是个启动。有了这么的硬件,AI磋议东说念主员和工程师将有契机探索以全新、奢靡创意的边幅应用寥落性的模子与算法。咱们坚信,这是应付AI不休增长的运行时分、老本和环境影响的要害磋议地方。

Q&A

Q1:什么是寥落策动?它对AI有什么兴趣兴趣?

A:寥落策动是一种应用AI模子中多数参数为零这一特点来跳过无效运算、压缩存储的策动边幅。由于模子中70%以上的参数可能为零或接近零,寥落策动不错径直跳过与零议论的乘法和加法,从而显赫降愚顽耗、加速运算速率,在不就义模子精度的前提下进步全体效能。

Q2:现存的GPU和CPU为什么不成很好地支撑寥落策动?

A:GPU主要支撑一种叫作念"结构化寥落性"的特定模式,对更生动的非结构化寥落性支撑有限,导致多数算力被花费在无效的零值运算上。CPU固然更生动,但在寥落策动中常受限于当场内存探听导致的预取失败问题,相通存在效能瓶颈。两者王人零落从底层针对寥落策动特地设计的架构支撑。

Q3:Onyx芯片比较每每CPU能进步若干性能?

A:Onyx在能量延长积(速率与能耗的综总有计划)上,最高可达12核Intel至强CPU的565倍。平均而言亚搏手机app官方入口,Onyx的能耗仅为CPU的七十分之一,策动速率则平均进步至CPU的八倍。Onyx同期支撑寥落和密集策动,简略凭据任务类型自动切换策动模式,是现在已知首款兼顾两种策动模式的可编程加速器。

NBA篮球投注app官网下载