其次,“Anaconda”主機(jī)的目標(biāo)是達(dá)到12 teraflops(每秒12萬億次浮點(diǎn)運(yùn)算)的性能。而普通版主機(jī)“Lockhart”的目標(biāo)是達(dá)到4 teraflops(每秒4萬億次浮點(diǎn)運(yùn)算)。這兩款主機(jī)都有8個(gè)CPU核心,CPU主頻計(jì)劃設(shè)定在3.5 GHz。當(dāng)然了“Anaconda”主機(jī)的CPU主頻肯定要比“Lockhart”高一點(diǎn)。
以上的參數(shù)非常重要,盡管外媒并沒有透露“Anaconda”主機(jī)的“12萬億次浮點(diǎn)運(yùn)算”到底是雙精度浮點(diǎn)單元還是單精度浮點(diǎn)單元,但無論是雙精度浮點(diǎn)單元還是單精度浮點(diǎn)單元,“12萬億次浮點(diǎn)運(yùn)算”這個(gè)數(shù)字都是很恐怖的。

讓我們來做一個(gè)假設(shè),先保守一點(diǎn),如果12 teraflops是指單精度浮點(diǎn)單元,這意味著什么呢?

我們知道,英偉達(dá)的RTX系列顯卡采用了圖靈架構(gòu),帕斯卡架構(gòu)每個(gè)SM陣列集成128個(gè)FP32浮點(diǎn)單元,圖靈架構(gòu)則改成了2個(gè)FP64雙精度浮點(diǎn)單元、64個(gè)FP32單精度浮點(diǎn)單元、64個(gè)INT32整數(shù)單元、8個(gè)Tensor核心、一個(gè)RT核心。支持浮點(diǎn)和整數(shù)并發(fā)操作,并有新的執(zhí)行數(shù)據(jù)路徑,類似伏特架構(gòu)匯總的獨(dú)立線程調(diào)度。
整體而言,圖靈核心的CUDA陣列可以每秒執(zhí)行14萬億次FP32浮點(diǎn)操作、14萬億次INT32整數(shù)操作。
