當前位置:成語大全網 - 書法字典 - 高端FPGA(1)

高端FPGA(1)

此前,英特爾宣布已開始向首批體驗Agilex FPGA的客戶交付首批Agilex FPGA。這使得兩家最大的FPGA供應商之間的競爭進入“正面對抗”階段。Xilinx在6月份交付了他們的第壹款“Versal ACAP”FPGA,因此在經歷了漫長而有爭議的“誰能首先交付?”戰爭結束後。事實證明,兩家競爭對手都可以在大約兩個月後開始交付其FPGA產品線,這些產品線可用於與其競爭對手進行基準測試。這意味著,與其他通過首先引入先進節點來提高性能的競爭不同,兩家公司都沒有足夠的時間來使用壹種新的更先進的技術來贏得設計勝利。

然而,這種競爭已經擴大,新玩家Achronix聲稱他們將在今年年底前交付其新Speedster 7t FPGA的第壹批樣品。對於開發團隊來說,這意味著到今年年底,將有三種完全不同的高端FPGA產品可供選擇-它們都采用相似的工藝技術並具有獨特的功能。

本文是比較這三家供應商的新型高端FPGA系列的系列文章的第壹部分。我們將研究底層技術、FPGA(LUT)本身的邏輯組織、用於加速處理和聯網的增強資源、存儲器架構、芯片/封裝/定制架構、I/O資源、設計工具策略、每個產品的獨特和新穎特性和功能以及營銷策略。如果妳能從大量的失敗、瘋狂的帶寬或壹些有趣而強大的半導體器件設計中獲得樂趣,那麽這對妳來說將是壹次令人興奮的旅行。

註意–英特爾和Achronix都參與並提供了本文中的信息。Xilinx沒有回應我們的信息請求。

這壹次,高端FPGA的主導地位發生了變化。過去,高端FPGA的最大市場是網絡,市場份額也發生了變化,這主要取決於誰能為部署最新壹輪有線和無線網絡客戶的產品提供最豐富的設計,誰能獲得更大的市場份額。然而,5G的推出時機改變了這壹動態。在當前FPGA技術浪潮到來之前,5G已經開始加速其擴展。因此,第壹輪5G骨幹網是基於上壹代可編程邏輯。這些設備將被集成到已經強大的5G生態系統中,因此我們無法確定5G的徹底革命是否與新壹代FPGA的誕生相壹致。這些FPGA設計已經完全理解了5G的機制。但是,不要低估FPGA對5G的重要性或5G對FPGA市場的重要性。今天,當妳使用手機時,99%的通話可能是通過FPGA進行的。有了5G,FPGA的影響力會更大。

隨著數據中心加速(主要針對AI工作負載)這壹新興市場的快速擴張,這壹現象引起了人們的興趣。據估計,人工智能加速市場將在未來幾年內迅速發展,因此三家供應商都將憑借其令人印象深刻的性價比和更高的能效來爭奪這些設備的大部分市場份額,並聲稱他們提供的解決方案可以擴展到邊緣/端側。這些供應商中的每壹家都非常清楚占領這些AI加速卡插槽的緊迫性,他們圍繞這壹想法設計了新的芯片。

讓我們看看所有這些因素,好嗎

從底層工藝技術來看,Xilinx和Achronix系列FPGA都是基於臺積電7nm設計的,而Intel Agilex采用的是性能相近的Intel 10nm工藝。不要被7/10的命名差異所迷惑。不要被7/10的命名差異所迷惑。我們很久以前就指出,半導體行業的營銷團隊根據市場上聽起來不錯的東西來命名節點,而不是根據晶體管本身的任何可識別特征來命名節點。根據我們的估計,臺積電的7nm和英特爾10nm工藝大致相當,使用這兩種工藝的制造商基本相同。這意味著英特爾在制程工藝方面的長期領先地位似乎已經消失。然而,當我們接近摩爾定律的瓶頸時,矽加工領域的競爭是不可避免的。

當推進到最新的半導體工藝節點時,三家供應商都得到了適度提升。但不可能達到摩爾定律的歷史標準,因為在過去的幾個流程節點中,新流程更新帶來的收入增量壹直在穩步下降。FinFET技術的出現暫時推動了所有人的發展。現在,隨著摩爾定律在經濟層面的終結,我們可能會發現邊際收益遞減的趨勢將繼續下去。

過去,隨著晶體管尺寸的減小,每個新的工藝節點都大大提高了晶體管密度,並獲得了更好的性能和更低的功耗。現在,供應商必須權衡這三者,即使在他們喜歡的指標上,他們通常也只能獲得很少的回報。與此同時,轉移到新流程節點的非經常性成本繼續呈指數級增長。這意味著FPGA公司承擔的風險急劇上升,因為為了保持競爭力,他們需要不斷投資以獲得不斷減少的利潤。這也意味著我們正在進入壹個新的時代。FPGA的架構和功能、FPGA工具以及這三家公司的營銷策略將成為影響收入的關鍵因素,而不是誰將率先使用新的制程技術。

考慮到技術實際上是壹種洗禮,我們來看看每個供應商產品的功能和特點。從最基本的FPGA功能開始——LUT結構。我們經常感嘆,每家公司對LUT的計算都不壹樣,而且這種遊戲每壹代都變得更加復雜。Xilinx和Achronix目前使用6輸入LUT,而英特爾的ALM基本上是8輸入LUT。制造商或多或少同意,我們可以在每個LUT6上使用2.2個LUT4,在每個LUT8上使用2.99個LUT4,將不同的lut轉換為等效的4輸入lut。

根據這種方法的第壹種計算方法,Achronix Speedster 7T系列包括從363K到2.6m的LUT6(相當於從800K到5.76M的LUT4),Intel Agilex系列包括從132 K到912K的ALM(相當於從395K到2.7M的LUT4)。Xilinx的Versal系列產品包含約246K至984K CLB(相當於LUT4,可轉換為541K至2.2M)。每個供應商都聲稱其架構是卓越的,強調可以在某些特定應用或配置中提高邏輯密度、性能或可布線性的設計功能。目前,我們不知道任何供應商的LUT是否明顯優於任何其他供應商。

然而,FPGA的可用資源不僅取決於lut的數量。還必須考慮以下挑戰:有效使用的LUT的百分比(我們將在稍後討論設計工具時討論),以及集成到邏輯模塊中的增強功能的數量,這些功能允許以最小的方式實現LUT結構在設計功能中的參與。根據您的設計,您可能會發現壹個或多個FPGA中塞入了更多內容,而與lut的數量無關。

FPGA“擅長”人工智能推理的主要原因是它可以並行完成大量的算術運算(主要是各種精度的乘法和累加),這歸功於在可編程邏輯結構中存在大量編織的“DSP塊陣列”。這使得FPGA能夠比具有馮諾依曼結構的傳統處理器更有效地執行卷積等矩陣運算。

分析了對人工智能推理至關重要的硬件乘法器。Achronix的可變精度乘法器可以實現41K int-8乘法或82K int-4乘法。英特爾Agilex有壹個2K-17K 18×19乘法器,Xilinx Versal有壹個500-3k的“DSP引擎”,很可能是“DSP58切片”,包括壹個27x24乘法器和新的硬件浮點功能。這種比較必須是“從蘋果到橙子再到芒果”。至於哪種水果更適合妳的應用,那必須“由設計師決定”。

現在,這三家供應商都增強了對浮點乘法的支持。Achronix為他們的DSP模塊提供了壹種全新的架構,他們稱之為“機器學習處理器”(MLP)。每個MLP包含多達32個乘法器/累加器(MAC)、4-24位整數模式和各種浮點模式,並可支持Bfloat16格式和包括TensorFlow在內的塊浮點格式。最重要的是,Achronix MLP公司將嵌入式內存模塊與計算單元緊密耦合,以便MAC操作可以在750 MHz的頻率下運行,同時等待FPGA訪問內存以獲取數據。

英特爾還使用帶有硬件浮點的可變精度DSP模塊(基本上就像他們多年來壹直提供的功能壹樣)。英特爾的浮點支持可能是三者中最廣泛和最成熟的。在Agilex的幫助下,他們推出了兩種新的浮點模式,即半精度浮點(FP16)和塊浮點(Bfloat16),並進行結構調整,使其DSP運算更高效。

Xilinx已經將其以前的DSP48片升級到DSP 58-可能是因為它們現在包括硬件浮點並且它們的乘法器已經升級到27×24。因此,在這壹代產品中,另外兩家供應商也加入了英特爾的行列,提供支持浮點運算的硬件乘法器。對於Xilinx來說,這是壹個逆轉。Xilinx之前聲稱在FPGA中實現浮點硬件乘法器並不是壹個好主意,因為浮點運算主要用於訓練,而FPGA主要用於推理應用。

就可用的浮點格式而言,Versal(最高2.1K乘數)和Agilex(最高8.7K乘數)都支持FP32格式。三個系列均支持半精度(FP 16)-Versal最多可支持2.1K乘法器,Agilex最多可支持17.1K乘法器,Speedster最多可支持5.1K乘法器。Agilex(高達17.1K乘數)和Speedster(高達5.1K乘數)支持Bfloat16。對於FP24格式的浮點乘法,Versal和Agilex可能會使用FP32單元,而Speedster具有高達2.6K的乘法器。Achronix Speedster還支持高達81。9k的塊浮點乘法器。

Xilinx還帶來了壹款新的軟件可編程矢量處理器——多達400個1GHz +V LIW-SIMD矢量處理核心陣列,具有增強的計算能力和緊密耦合的內存。這為並行化復雜的向量運算和利用FPGA豐富的計算資源提供了更簡單的編程模型。壹般來說,在Xilinx的“廚房水槽”競爭策略上選擇“GPU/推理引擎”。我們稍後將詳細討論這壹點。

英特爾對Achronix MLP和Xilinx矢量處理器的回應是老派的進化。他們指出,Agilex DSP模塊已經實現了與其他供應商的新DSP功能相同的功能。我們可以使用已建立並完全理解的FPGA設計和開發流程,並且不需要客戶將其設計劃分到各種架構的設備中。如果妳的團隊擁有FPGA/RTL設計方面的專業知識,這是壹件好事。但是如果您的應用程序需要軟件工程師來開發DSP,Xilinx的軟件可編程方法可能會有優勢。

除了簡單地計算乘數之外,我們還可以通過查看供應商關於理論性能的陳述來比較這些能力。但是,應該註意的是,這些說法被大大誇大了,很難準確定義。供應商通常通過將芯片上乘法器的數量乘以這些乘法器的最大工作頻率來得到壹個數字,並得到壹個“最多XX TOPS或TFLOPS”的數字。顯然,現實世界中的設計不會使用100%乘法器,沒有任何設計可以達到這些乘法器的最大理論時鐘速率,也沒有任何設計可以以適當的速率持續為這些乘法器提供輸入數據,並且這些乘法運算的精度因供應商而異。

如果必須估計的話,我們可以說FPGA在實際設計中實際上可以達到其理論最大值的50-90%。這比GPU要好,GPU被認為在現實世界中僅達到其理論最大值的10-20%。

在估計INT8操作的TOPS數量時,如果我們在其矢量處理器中包括133 TOPS,Xilinx Versal以大約171 TOPS排名第壹。12來自其DSP模塊,26來自其邏輯結構。其次是Speedster,大約有86個TOPS,其中61來自他們的MLP模塊,25個來自他們的邏輯結構。敏捷xi nt8運算的最大數量為92 TOPS,其中51來自DSP模塊,41來自邏輯結構。根據Bfloat16格式的TFLOPS,Agilex以40分領先,Versal以9分緊隨其後,Speedster以8分緊隨其後。Speedster在塊浮點運算方面取得了很大的優勢,但它具有123 TFLOPS,其次是Agilex的41和Versal的15。

這些數字都來自該公司自己的數據表。正如我們提到的,它們是理論上的最大值,在實際應用中不可能實現。Achronix聲稱的“可用性”具有壹定的價值,因為他們的MLP是壹種獨特的設計,旨在將可變精度乘法運算保持在模塊本身中並以最大時鐘速率運行,而無需數據往返於邏輯結構以完成人工智能推理中最常見的運算。同樣,Xilinx的矢量處理器架構應該能夠保持數據在算術單元中平穩流動。換句話說,我們還沒有看到基準或參考設計以任何有意義的方式證明這些公司的說法。

當然,要使用所有這些lut和乘法器,您需要使您的設計實際布局和布線並滿足所選芯片的時序要求。隨著FPGA的發展,這已經成為壹個越來越困難的挑戰。單比特網絡和邏輯路徑通過有限的路由資源分布在壹個巨大的芯片上,這使得傳統的時序收斂逐漸成為噩夢。在同步設計中實現時序收斂的傳統技術遇到了障礙,無法擴展。Xilinx和Achronix都在新壹代FPGA中通過添加覆蓋傳統邏輯和路由結構的片上網絡(NoC)解決了這壹問題。NoC從本質上改變了遊戲規則,因為整個芯片不再需要在巨大的神奇融合中實現時序收斂。現在,更小的同步塊可以通過NoC傳輸數據,這減輕了傳統路由結構的負擔,並將龐大的設計自動化工具需要解決的問題分解為更小且更易於管理的問題。

幾代以前,英特爾采取了另壹種方法來解決這個問題-使用大量稱為“超靈活寄存器”的微寄存器來平滑整個邏輯結構。這些寄存器允許對更長、更復雜的邏輯路徑進行重新定時和流水線操作,因此整個設計基本上是異步的。有趣的是,這也是Xilinx和Achronix使用的NoC的效果。每種方法都面臨挑戰,因為這兩種方法都會給芯片設計和我們使用的設計工具增加很多復雜性。據報道,在英特爾的情況下,HyperFlex寄存器對邏輯架構可以實現的整體速度也有壹些負面影響。英特爾表示,Agilex FPGA中的HyperFlex架構是第二代架構,與上壹代HyperFlex架構相比有所改進和增強,可以提高性能並簡化時序收斂。在Agilex取得進展後,我們將不得不拭目以待用戶使用後的反應。

在Xilinx和Achronix這兩家使用NoC進行路由的供應商中,Achronix聲稱通過其二維跨芯片AXI實現實現了最快的NoC。在這個NoC中,每壹行或每壹列被實現為兩個工作在2 GHz的256位單向AXI通道,也就是說,它可以在每個方向上支持512 Gbps的數據流量。Speedster的NoC***擁有197個節點,最終形成27 Tbps的總帶寬,減輕了FPGA中傳統逐位路由的資源負擔。據我們所知,Xilinx的Versal NoC性能尚未發布,但大約有28個節點,我們猜測總帶寬約為1.5 Tbps

好了,本周我們的墨水用完了,但下周我們將繼續-看看這些FPGA系列帶來的迷人而靈活的存儲器架構,每個系列獨特的封裝和定制功能,瘋狂的SerDes IO功能,嵌入式處理子系統,設計工具流程等等。

*點擊文末閱讀原文,即可閱讀英文原文。

今天是半導體產業觀察分享的第2125期內容。歡迎關註。

半導體行業觀察

“半導體第壹垂直媒體”

識別二維碼,回復下方關鍵詞,閱讀更多內容。

AI |晶圓|臺積電|射頻|華為|集成電路| |TWS耳機|小米

回復投稿並閱讀如何成為“半導體行業觀察”的成員

回復搜索,您可以輕松找到您感興趣的其他文章!

英文原版