3月21日,中國本土AI創(chuàng)新企業(yè)寒武紀(jì)正式發(fā)布了新款訓(xùn)練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,集成寒武紀(jì)MLU-Link多芯互聯(lián)技術(shù),主要面向AI訓(xùn)練任務(wù)。
寒武紀(jì)MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內(nèi)封裝兩個(gè)Die,因此可提供兩倍于思元370加速卡的內(nèi)存、編解碼資源。
架構(gòu)基于Cambricon MLUarch03,支持AI訓(xùn)練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數(shù)據(jù)格式計(jì)算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。
該卡采用7nm制造工藝,集成48GB LPDDR5內(nèi)存,內(nèi)存帶寬614.4GB/s,PCIe 4.0 x16系統(tǒng)接口,整卡最大訓(xùn)練功耗250W,全高全長雙插槽設(shè)計(jì),系統(tǒng)被動(dòng)散熱。
通過MLU-Link多芯互聯(lián)技術(shù),提供卡內(nèi)、卡間互聯(lián)功能,并專門設(shè)計(jì)了MLU-Link橋接卡,可實(shí)現(xiàn)4張加速卡為一組、8顆思元370芯片全互聯(lián)。
每張加速卡通訊吞吐性能200GB/s,帶寬為PCIe 4.0的大約3.1倍,可高效執(zhí)行多芯多卡訓(xùn)練、分布式推理任務(wù)。
根據(jù)官方數(shù)據(jù),Cambricon NeuWare SDK實(shí)測,在常見的4個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)模型上,MLU370-X8單卡性能與主流350W RTX GPU相當(dāng)。
多卡加速,借助MLU-Link多芯互聯(lián)技術(shù)、Cambricon NeuWare CNCL通訊庫的優(yōu)化,8卡環(huán)境下達(dá)到更優(yōu)的并行加速比,YOLOv3、Transformer、BERT、ResNet101訓(xùn)練任務(wù)中,8卡并行平均性能達(dá)350W RTX GPU的155%。
寒武紀(jì)未透露對比的NVIDIA 350W RTX GPU是哪一款,從規(guī)格來看,350W功耗的目前只有RTX 3090、RTX 3080 Ti。
當(dāng)然,一個(gè)是專用AI加速卡,一個(gè)是GPU通用游戲卡,其實(shí)沒有太大可比性。
MLU370-X8產(chǎn)品定位中高端,與高端訓(xùn)練產(chǎn)品思元290、玄思1000相互結(jié)合,進(jìn)一步豐富了寒武紀(jì)的訓(xùn)練算力交付方式,同時(shí)與基于思元370芯粒(chiplet)技術(shù)構(gòu)建的MLU370-X4、MLU370-S4智能加速卡協(xié)同,形成完整的云端訓(xùn)練、推理產(chǎn)品組合。
關(guān)鍵詞: 雙芯片四芯粒 發(fā)布新款 訓(xùn)練加速卡 多芯互聯(lián)技術(shù)
最新資訊
Copyright (C) 1999-20120 www.tvvgv780.cn, All Rights Reserved
版權(quán)所有 環(huán)球快報(bào)網(wǎng) | 豫ICP備17019456號-52聯(lián)系我們:52 78 229 @qq.com