• TEL: 13764338070

    推理芯片,正在成為巨大挑戰!

    Oct,24,2022 << Return list

    由于應用的多樣性以及每個應用對功率和性能的高度特定的需求,設計 AI/ML 推理芯片正在成為一項巨大的挑戰。


    簡而言之,一種尺寸并不適合所有人,而且并非所有應用都能負擔得起定制設計。例如,在零售店跟蹤中,對于經過某個過道的顧客來說,允許有 5% 或 10% 的誤差幅度是可以接受的,而在醫療診斷或汽車視覺中,準確度需要顯著提高。但結果的準確性也會以功耗和性能以及設計復雜性為代價。再加上永遠在線/無停機時間、吞吐量、數據流和管理、延遲和可編程性。


    在人工智能中,準確度是衡量答案正確的概率,定義為正確預測的數量除以預測的總數。例如,如果在 100 個樣本中,正確預測了 85 個樣本,則準確率為 85%。


    Palo Alto Networks 的高級數據科學家 Venkatesh Pappakrishnan 認為,ML 算法幾乎不可能達到 100% 的預測準確率。一般來說,準確率在 80% 到 85% 的良好 ML 算法更符合實際。實現接近 95% 的準確度需要付出巨大的努力、時間、更深入的領域知識以及額外的數據工程和收集。最有可能的是,可以發布一個達到 75% 到 85% 準確率的模型,然后再進行改進。


    另一個關鍵指標是精度,它直接影響準確性。在實現推理解決方案時,開發人員使用 int(x) 格式來表示整數。對于邊緣推理,它通常是 int8 或更低。Int1 表示 1 位整數,而 Int8 表示 8 位整數。位值越高,精度越高。一個簡單的類比是照片中的像素數。像素越多,分辨率越高。在推理中,int8 將產生比 int4 更高的準確度。但它也需要更多的內存和更長的處理時間。在一項測試中,NVIDIA 證明 int4 精度與 int8 相比具有 59% 的加速。


    Arm 物聯網和嵌入式、汽車和基礎設施業務線的細分市場營銷總監 Parag Beeraka 表示:“有廣泛的準確性和精度要求,這一切都取決于用例?!?“例如,如果 AI/ML 用于實時語言翻譯,那么您確實需要具有更高的準確度和精確度才能使其易于理解。但如果將 AI/ML 用于對象識別用例,則所需的精度越高,AI/ML 模型映射到低功耗 AI 芯片的過程就越復雜。您可以通過犧牲一些精度和準確性來降低復雜性。這就是你看到很多使用 int8(8 位)格式的低功耗邊緣 AI 芯片的原因,但你會看到很多更新的 ML 技術也支持更低(1 位)


    那么何時何地進行這些權衡取決于應用程序和用例?


    “準確性和精確度在很大程度上取決于系統級用例,”Cadence Tensilica AI DSP 產品營銷總監 Suhas Mitra 說?!安煌闹笜擞糜诖_定某個應用程序可以容忍的準確度/精度。例如,在低功耗邊緣物聯網設備上運行的圖像分類與需要更高準確性的基于汽車自主的系統相比,可能能夠容忍更低的準確性。所有這些不僅影響設計軟件的方式,還影響硬件。

    GPU、FPGA 還是 ASIC?

    在 AI/ML 芯片之上運行的是軟件。各種 AI/ML 算法和實現隨著時間的推移而發展。過去,算法會在 CPU 上運行。然而,越來越多的此類軟件被嵌入到芯片中。對于邊緣應用程序,正在部署特定的軟件模塊。


    “人工智能算法跨越多種功能,”西門子 EDA 的 HLS 平臺總監 Russ Klein 說?!坝行┫喈斶m中,可以在嵌入式處理器上舒適地運行,而另一些則龐大而復雜,需要專門的專用硬件來滿足性能和效率要求。許多因素有助于確定人工智能算法的部署位置,但軟件、現成加速器或定制硬件的硬件/軟件權衡與大多數嵌入式系統的情況類似?!?/p>


    軟件是迄今為止實現任何功能的最靈活和適應性最強的方法,并且提供了最便宜的開發?!败浖恰嫦蛭磥淼摹?,” Klein說?!癈PU 將運行任何尚未發現的推理算法?;?CPU 的系統通??梢栽诓渴饡r進行更新。然而,軟件可能是部署人工智能算法最慢、最節能的方式?!?/p>


    CPU、GPU、FPGA 和 ASIC 目前用于推理芯片。雖然 CPU 因其靈活性而仍在某些 AI/ML 推理應用中使用,但 GPU、FPGA 和 ASIC 因其更高的性能效率而成為深度神經網絡 (DNN) 和卷積神經網絡 (CNN) 的首選,它們的吸引力在于在各種新應用程序中不斷增長。


    GPU 具有非常高效的并行處理和內存管理。它們通常使用 C/C++ 高級語言,并且在高性能 DNN 和 CNN 應用程序(如數據中心和自動駕駛)中運行良好。然而,對于邊緣推理應用,例如可穿戴設備和安全攝像頭,GPU 可能過于耗電。


    相比之下,FPGA 提供可編程 I/O 和邏輯塊。使用硬件描述語言 (HDL) 等工具映射 AI/ML 模型的有效方法對于推理應用程序非常重要。高效的內存管理也很重要。


    Flex Logix 的 IP 銷售、營銷和解決方案架構副總裁 Andy Jaros 表示:“低功耗、可編程性、準確性和高吞吐量是推動高效邊緣 AI 解決方案的四個相互沖突的力量?!?“具有特定模型加速器的 ASIC 解決方案將始終是最節能的解決方案,但會失去可編程性。多年來,嵌入式處理器得到了增強,以增加 AI 模型所需的乘法和累加 (MAC) 處理,但不具備滿足高精度要求的 MAC 密度?!?/p>


    Jaros 說,研究人員和系統設計人員現在正在探索將 eFPGA 用于 AI 處理解決方案的多種途徑?!罢谘芯康姆椒òㄌ囟ㄓ谀P偷奶幚砥鞫ㄖ浦噶?,其中指令集可以逐個模型更改。反過來,這種指令集的多功能性可以將 eFPGA DSP MAC 用于更傳統的基于 FPGA 的加速器,利用在 FPGA 邏輯結構中非常有效地運行的二進制或三進制模型,同時保持合理的精度。利用 eFPGA 的可重編程性和靈活性使 AIoT 設備成為可能,最終客戶可以為其應用選擇正確的可編程性、功率、性能和精度組合,”他說?!皩?eFPGA 用于 AI 還為最終用戶提供了更高級別的安全性,因為它們的專有指令或加速器可以在制造后在安全的環境中進行編程。沒有人需要看到他們的秘密電路。采用 PUF 技術的比特流加密,例如我們最近與 Intrinsic ID 的合作,為比特流保護增加了更高級別的安全性?!?/p>


    通過它們的結構——與 GPU 和 FPGA 不同——ASIC 是為特定應用定制的。設計可能非常昂貴,具體取決于復雜性和工藝節點,例如,在設計流程后期進行更改以適應更新的協議或工程變更單可能會將這些成本推高。另一方面,由于特定應用程序的專用功能,該架構更加節能。


    “如果低功耗是關鍵標準之一,那么 ASIC 是構建低功耗 AI 芯片的正確解決方案,”Arm 的 Parag 說?!叭绻K端設備是小批量產品,eFPGA 可能是一個不錯的選擇。但是,這可能會轉化為更高的成本。某些細分市場可以滿足 eFPGA 的需求,但大部分是 ASIC?!?/p>


    根據安全和新興技術中心發布的一份報告,與 CPU 技術相比,ASIC 在效率和速度方面的性能高達 1000 倍,而 FPGA 的性能高達 100 倍。GPU 提供高達 10 倍的效率和高達 100 倍的速度。這些芯片中的大多數都可以實現 90% 到幾乎 100% 的推理精度。(見下表1)

    “GPU、張量處理單元 (TPU) 或神經處理單元 (NPU) 等專用加速器可提供比通用處理器更高的性能,同時保持傳統處理器的大部分可編程性,并展示出比 CPU 更高的推理效率。然而,隨著專業化程度的提高,下一代人工智能算法可能會面臨無法正確操作組合的風險。但是,實施為特定 AI 算法量身定制的專用 eFPGA/FPGA 或 ASIC 加速器可以滿足最苛刻的要求。


    關鍵的實時應用程序,例如自動駕駛,或那些必須從能量收集中汲取能量的應用程序,可以從定制開發的加速器中受益。但定制加速器的開發成本也是最高的,如果它們沒有內置一定數量的可編程邏輯,它們可能很快就會過時。


    “FPGA 或 eFPGA 保留了一定數量的可重新編程能力,但代價是比同等 ASIC 實現更高的功率和更低的性能,”Siemens EDA 的 Klein 說。


    與大多數設計一樣,可重用性降低了設計成本。在某些情況下,高達 80% 的芯片可能會在下一個版本中重復使用。對于推理設備,能夠重復使用 IP 或芯片的其他部分也可以顯著縮短上市時間,這很重要,因為算法幾乎在不斷更新。雖然通用芯片(例如 CPU)可用于通過不同的軟件或算法進行推理,但代價是性能較低。另一方面,除非實現非常相似的應用程序,否則 ASIC 的可重用性受到更多限制。中間是 FPGA 或 eFPGA,它具有最標準的邏輯,允許以最小的努力重新編程軟件。


    Arm 的 Parag 說:“使部分設計可重用于 AI 有很多考慮因素?!?“其中包括可擴展的硬件 AI/ML 加速器 IP(具有良好的仿真和建模工具)、支持可擴展硬件加速器 IP 上不同框架的軟件生態系統,以及涵蓋最廣泛用例的多框架支持模型?!?/p>


    其他人同意?!爸饕紤]的是如何快速映射新的 AI 模型拓撲,”Cadence 的 Mitra 說?!坝袝r我們會陷入從硬件中榨取每一盎司的壓力,但人工智能網絡變化如此之快,以至于優化每一行邏輯可能會產生反效果。對于可重用的設計,它應該能夠處理一個大而廣泛的數學繁重的函數,包括各種格式的卷積、激活函數等?!?/p>

    縮放因子

    今天的 AI/ML 推理加速器芯片設計面臨著將高性能處理、內存和多個 I/O 封裝在一個小封裝內的挑戰。但高性能處理會消耗更多功率并產生更多熱量,設計團隊必須在性能、功率和成本之間取得平衡。


    添加傳感器融合——例如音頻、視頻、光、雷達——這會變得更加復雜。但至少可以利用一些行業經驗。


    “解決視頻/圖像接口中傳感器融合問題的一個簡單方法是采用 MIPI 標準,”Mixel 營銷和銷售高級經理 Justin Endo 說?!白畛?,MIPI 用于移動行業。它現在已經擴展到涵蓋許多消費者和 AI/ML 邊緣應用程序。例如,推理處理器 Perceive Ergo 芯片具有 2 個 MIPI CSI-2 和 2 個 CPI 輸入以及一個 MIPI CSI-2 輸出,它們支持兩個同時圖像處理管道——一個使用 4 通道 MIPI D 的高性能 4K -PHY CSI-2 RX 實例,以及一個使用 2 通道 MIPI D-PHY CSI-2 RX 實例的 2K/FHD?!?/p>


    Perceive 的 Ergo 芯片是一種 ASIC,在視頻推理應用中能夠以 20mW 的速度實現 30 FPS。其他 AI/ML 芯片可能會消耗 2 到 5 瓦,具體取決于芯片架構。在家庭安全攝像頭等電池供電的設備中,低功耗很重要。低功耗使電池的使用壽命更長,在可穿戴應用中,它還有助于設備在較低的溫度下運行。


    “效率很重要,”Perceive 首席執行官 Steve Teig 說?!爱斝枰叩男阅軙r,功耗的差異會更加明顯。例如,如果視頻性能提高到 300 FPS,那么 Ergo 芯片的功耗將在 200 mW 左右,而其他芯片的功耗可能在 20W 到 50W 之間。這可能很重要?!?/p>


    然而,并非每個人都以相同的方式衡量性能和功率。推理永遠在線 ASIC 供應商Syntiant在由 tinyML 組織進行的推理 Tiny v0.7 測試中展示了其性能。在一項測試中,其產品的延遲時間分別為 1.8 和 4.3 毫秒,而其他產品的延遲時間為 19 到 97 毫秒。在能源/功耗類別中,Syntiant 的得分為 35 μJ 和 49 μJ,而其他公司的得分為 1,482 μJ 到 4,635 μJ。據 Syntiant 稱,這些芯片可以在 140uW 下運行全面的推理操作。


    但是在這些芯片之間進行比較是一個雷區。沒有可用于衡量 AI/ML 推理性能的通用標準。因此,對于用戶來說,重要的是要了解芯片在特定領域的實際工作負載下的性能,并將其置于對該終端市場重要的背景中。在某些應用程序中,性能可能比功耗問題更小,而在其他應用程序中可能正好相反。準確性與性能也是如此。為了實現更高的推理精度,需要更復雜的算法和更長的執行時間。

    結論

    平衡所有這些因素是 AI/ML 推理的一個持續挑戰。什么是正確的芯片或芯片組合取決于應用程序和用例。在某些情況下,它可能是完全定制的設計。在其他情況下,它可能是現成的標準部件和重復使用的 IP 的某種組合,它們拼湊在一起以滿足非常緊迫的期限。


    “人工智能算法變得越來越復雜,計算量和參數呈指數級增長,”西門子 EDA 的 Klein 說?!?計算需求遠遠超過芯片改進,促使許多設計人員在部署 AI 算法時采用某種形式的硬件加速。對于某些應用,商業加速器或神經網絡 IP 就足夠了。但要求最苛刻的應用程序需要自定義加速器,以將開發人員從 ML 框架快速帶入專門的 RTL。高級綜合 (HLS) 提供了從算法到面向 ASIC、FPGA 或 eFPGA 的硬件實現的最快路徑。HLS 減少了設計時間,或許更重要的是,它證明了 AI 算法已在硬件中正確實施,解決了許多驗證挑戰?!?/p>

    半導體氣柜配套專業供應商-梓鶴機械

    自慰喷水高清毛片AV性色|自慰丝袜一区二区三区四区|自慰无码免费一区二区三区 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>