好消息:企業(yè)越來越認識到,基礎設施在推動收入增長、降低成本和提高效率的生成式、智能體及其他智能應用中發(fā)揮著關鍵作用。
據(jù)IDC統(tǒng)計,到2025年,與去年同期相比,企業(yè)在AI部署的計算和存儲硬件基礎設施上的支出將增長97%,研究人員預測,全球在該領域的投資將從目前的1500億美元激增至2028年的2000億美元。
但“競爭優(yōu)勢并不屬于那些投入最多的企業(yè),”暢銷AI書籍作者兼The Hackett Group GenAI咨詢業(yè)務負責人John Thompson在接受采訪時表示,“而是屬于那些最明智地實現(xiàn)規(guī)模化的企業(yè)。”
忽視基礎設施和硬件,后果自負
其他專家也持相同觀點,認為如果沒有對處理器和加速器精細協(xié)調的網絡進行精心規(guī)劃和適配,以及升級電力和冷卻系統(tǒng),企業(yè)幾乎不可能擴展和工業(yè)化AI工作負載,這些專用硬件組件提供了處理從邊緣到本地再到云端前所未有的數(shù)據(jù)量、流動性和速度所需的速度、可用性、靈活性和可擴展性。
一項又一項的研究指出,與基礎設施相關的問題,如性能瓶頸、硬件不匹配和遺留系統(tǒng)集成不佳,以及數(shù)據(jù)問題,是導致試點項目失敗的主要原因。隨著對自主式AI的興趣和投資激增,技術、競爭和財務風險也隨之增加。
在科技公司中,這一行業(yè)的風向標顯示,近50%的公司已開展自主式AI項目,其余公司也將在24個月內跟進,它們將當前AI預算的一半或更多分配給智能體,許多公司還計劃在今年進一步增加投入。(這是好事,因為這些復雜的自主系統(tǒng)需要昂貴且稀缺的GPU和TPU來在多個平臺上獨立實時運行。)
從試點項目的經驗中,技術和業(yè)務領導者現(xiàn)在明白,AI工作負載的高要求——高速處理、網絡、存儲、編排和巨大電力需求——與他們以往大規(guī)模建設的任何東西都截然不同。
對許多企業(yè)來說,緊迫的問題是:“我們準備好這樣做了嗎?”誠實的回答將是:如果不進行持續(xù)的仔細分析、規(guī)劃和可能的重大IT升級,答案將是否定的。
他們已攀登AI高峰——傾聽他們的聲音
就像雪花和孩子一樣,我們被提醒,AI項目既相似又獨特。不同AI功能和類型(訓練與推理、機器學習與強化學習)之間的需求差異巨大。業(yè)務目標、預算、技術債務、供應商鎖定以及可用技能和能力之間也存在巨大差異。
因此,可以預見,沒有單一的“最佳”方法。根據(jù)情況,你可以選擇縱向擴展(增加功率以應對更大負載)、橫向擴展(升級現(xiàn)有硬件)或混合方式。
盡管如此,這些早期階段的心態(tài)、原則、建議、實踐、真實案例和節(jié)省成本的技巧可以幫助你保持努力的方向正確。
這是一個多層次的挑戰(zhàn),涉及數(shù)據(jù)、軟件、網絡、安全和存儲。我們將保持高層次視角,并提供相關深入鏈接。
現(xiàn)代化你的AI基礎設施愿景
最大的心態(tài)轉變是采用新的AI觀念,不是將其視為獨立或孤立的應用,而是將其視為嵌入業(yè)務流程、工作流和工具中的基礎能力或平臺。
為了實現(xiàn)這一點,基礎設施必須平衡兩個重要角色:提供穩(wěn)定、安全和合規(guī)的企業(yè)基礎,同時使快速可靠地部署專用AI工作負載和應用變得容易,這些工作負載和應用通常針對特定領域(如自然語言處理和強化學習)進行了硬件優(yōu)化。
本質上,這是一個重大的角色轉變,德勤首席創(chuàng)新官Deb Golden表示:“AI必須被視為一個操作系統(tǒng),基礎設施要適應它,而不是相反。”
她繼續(xù)說:“未來不僅僅關乎復雜的模型和算法,硬件不再是被動的。因此,從現(xiàn)在起,基礎設施從根本上說是關于協(xié)調智能硬件作為AI的操作系統(tǒng)。”
要以這種方式大規(guī)模且無浪費地運行,需要一種“流動架構”,Golden用這一術語來描述在每個平臺上實時適應的動態(tài)分配,從單個硅芯片到完整的工作負載。她的團隊發(fā)現(xiàn),這種方法可以削減30%至40%的成本,并降低15%至20%的延遲。“如果你的AI不能隨工作負載呼吸,它就會窒息。”
這是一個要求極高的挑戰(zhàn),這樣的AI基礎設施必須是多層的、云原生的、開放的、實時的、動態(tài)的、靈活的和模塊化的,它需要在邊緣和移動設備、本地數(shù)據(jù)中心、AI個人電腦和工作站以及混合和公有云環(huán)境中進行高度智能的協(xié)調。
這聽起來像是流行語大集合,但實際上代表了企業(yè)IT基礎設施在AI時代持續(xù)進化、重新定義和優(yōu)化的新紀元。主要元素是熟悉的:混合環(huán)境、快速增長的日益專業(yè)化的云服務、框架和平臺宇宙。
在這個新篇章中,擁抱架構模塊化是長期成功的關鍵,安永美洲技術增長負責人Ken Englund表示:“你集成不同工具、智能體、解決方案和平臺的能力將是至關重要的。模塊化為你的框架和架構創(chuàng)造了靈活性。”
解耦系統(tǒng)組件有助于以多種方式面向未來,包括供應商和技術無關性、即插即用模型增強以及持續(xù)創(chuàng)新和可擴展性。
為擴展AI進行基礎設施投資必須平衡謹慎與強大
尋求擴大企業(yè)AI使用的企業(yè)技術團隊面臨著一個更新的“金發(fā)姑娘挑戰(zhàn)”:找到能夠處理分布式、無處不在的AI快速增長和變化需求的新基礎設施和硬件的“恰到好處”的投資水平。
投資不足或堅持當前處理能力?你將面臨導致整個項目(和職業(yè)生涯)失敗的嚴重性能瓶頸和不佳的業(yè)務成果。
過度投資于閃亮的新AI基礎設施?你將面臨巨大的資本和持續(xù)運營支出、閑置資源和無人需要的操作復雜性。
與其他IT努力相比,經驗豐富的規(guī)模化實施者一致認為,簡單地通過增加處理能力來解決問題不是一種成功的策略,然而,這仍然是一種誘惑,即使不是完全故意的。
“那些AI需求極低的工作往往被路由到昂貴的GPU或TPU基礎設施上,”曾在財富500強公司領導企業(yè)AI部署并擔任一家大型全球咨詢公司AI卓越中心負責人的轉型資深人士Mine Bayrak Ozmen表示。
Ozmen也是AI平臺公司Riernio的聯(lián)合創(chuàng)始人,她表示:“諷刺的是,AI中心設計選擇已經超越了更經典的組織原則。”不幸的是,這些部署的長期成本低效可能會被硬件供應商提供的深度折扣所掩蓋,她表示。
通過適當范圍和分布來適配AI基礎設施,而非單純追求強大
那么,什么應該指導戰(zhàn)略和戰(zhàn)術選擇呢?專家一致認為,一個不應指導選擇的是一種看似矛盾但誤導性的推理:因為AI基礎設施必須提供超高性能,所以更強大的處理器和硬件必然更好。
“AI擴展不是關于蠻力計算,”領導過眾多大型全球AI項目并著有《通往AGI之路:人工智能通用智能:過去、現(xiàn)在和未來》(該書于二月出版)的Hackett的Thompson表示。他和他人強調,目標是在正確的時間、正確的地點擁有正確的硬件,而不是在所有地方都擁有最強大和最壞的硬件。
據(jù)Ozmen稱,成功的擴展者采用“一種為正確執(zhí)行而適配的方法”,這意味著“優(yōu)化工作負載放置(推理與訓練)、管理上下文局部性,并利用政策驅動的編排來減少冗余、提高可觀察性并推動持續(xù)增長。”
有時,分析和決策就像在餐巾紙上簡單勾勒一樣。“為200名員工服務的GenAI系統(tǒng)可能在一臺服務器上運行得很好,”Thompson說,但對于更復雜的倡議來說,情況就完全不同了。
以一個為全球數(shù)十萬用戶提供服務的AI賦能企業(yè)核心系統(tǒng)為例,該系統(tǒng)需要云原生故障轉移和嚴肅的擴展能力。在這些情況下,Thompson說,適配基礎設施需要嚴格的范圍界定、分配和擴展練習。否則就是魯莽的瀆職。
令人驚訝的是,這種基本的IT規(guī)劃紀律有時會被忽視。常常是那些急于獲得競爭優(yōu)勢的公司試圖通過將過大的基礎設施預算投入到關鍵AI項目上來加速進程。
新的Hackett研究挑戰(zhàn)了一些關于擴展AI所需基礎設施的基本假設,為進行嚴格的初步分析提供了更多理由。
Thompson自己的現(xiàn)實世界經驗很有啟發(fā)性。在構建一個擁有超過30萬用戶的AI客戶支持系統(tǒng)時,他的團隊很快意識到“全球覆蓋比在任何單一地點擁有巨大容量更重要”。因此,基礎設施分布在美國、歐洲和亞太地區(qū);用戶在全球范圍內動態(tài)路由。
實際的建議是什么?“設定界限。是30萬用戶還是200用戶?范圍決定基礎設施。”他說。
在正確的地點為正確的任務配備正確的硬件
現(xiàn)代多層AI基礎設施策略依賴于多功能處理器和加速器,這些處理器和加速器可以針對連續(xù)體中的各種角色進行優(yōu)化。
為AI擴展采購基礎設施:云服務成為大多數(shù)企業(yè)的首選
你現(xiàn)在對AI擴展基礎設施的可能性和應該是什么樣子有了清晰的認識,對投資的最佳點和范圍有了良好的了解,并且知道在哪里需要什么,現(xiàn)在是采購的時候了。
正如VentureBeat上一期特刊所指出的,對于大多數(shù)企業(yè)來說,最有效的策略將是繼續(xù)使用基于云的基礎設施和設備來擴展AI生產。
對大型組織的調查顯示,大多數(shù)已經從定制的本地數(shù)據(jù)中心過渡到公共云平臺和預構建的AI解決方案。對許多人來說,這代表了正在進行的現(xiàn)代化進程的下一步,該進程規(guī)避了巨大的前期資本支出和人才爭奪,同時為快速變化的需求提供了關鍵靈活性。
Gartner預測,未來三年內,50%的云計算資源將專用于AI工作負載,而目前這一比例不到10%。一些企業(yè)還在升級本地數(shù)據(jù)中心,配備加速計算、更快內存和高速網絡。
好消息是:Amazon、AWS、Microsoft、Google以及不斷壯大的專業(yè)提供商群體繼續(xù)在為AI構建和優(yōu)化的端到端產品上投入巨額資金,包括全棧基礎設施、平臺、處理(包括GPU云提供商)、HPC、存儲(超大規(guī)模提供商加上Dell、HPE、Hitachi Vantara)、框架和眾多其他托管服務。
特別是對于那些希望快速嘗試的企業(yè)來說,西北AI咨詢公司的首席AI顧問Wyatt Mayham表示,云服務提供了一個優(yōu)秀且低麻煩的選擇。
例如,在已經使用Microsoft的公司中,“Azure OpenAI是一個自然的擴展[需要很少的架構就能安全合規(guī)地運行],”他說,“它避免了構建自定義大語言模型基礎設施的復雜性,同時仍然為公司提供了所需的安全性和控制。這是一個很好的快速取勝的使用案例。”
然而,技術決策者面臨的眾多選擇也有另一面。選擇合適的服務可能令人望而生畏,特別是當更多企業(yè)選擇跨多個提供商的多云方法時。兼容性、一致的安全性、責任、服務水平和現(xiàn)場資源需求等問題可能迅速交織成一個復雜的網絡,減緩開發(fā)和部署速度。
為了簡化事情,企業(yè)可能決定堅持使用一兩個主要提供商。在這里,就像在AI前的云托管中一樣,供應商鎖定的危險隱現(xiàn)(盡管開放標準提供了選擇的可能性)。所有這些都籠罩在過去和最近嘗試遷移到付費云服務的陰影下,人們驚恐地發(fā)現(xiàn)成本遠遠超出了最初的預期。
所有這些都解釋了為什么專家說,在開始采購之前,盡可能清楚地了解邊緣、本地、云應用等各個地方所需的性能和容量是至關重要的IT 101紀律。
重新審視本地基礎設施
傳統(tǒng)觀點認為,內部處理基礎設施主要留給資金雄厚的企業(yè)和受高度監(jiān)管的行業(yè),然而,在這個新的AI篇章中,關鍵內部元素正在被重新評估,通常作為混合適配策略的一部分。
以Microblink為例,該公司為全球客戶提供AI驅動的文檔掃描和身份驗證服務。使用Google Cloud Platform(GCP)支持高吞吐量的機器學習工作負載和數(shù)據(jù)密集型應用時,該公司很快遇到了成本和可擴展性問題,工程經理Filip Suste表示。“GPU可用性有限、不可預測且昂貴。”他指出。
為了解決這些問題,Suste的團隊進行了戰(zhàn)略調整,將計算機工作負載和支持基礎設施轉移到本地。向混合模式轉變的關鍵是從MinIo引入的高性能、云原生對象存儲系統(tǒng)。
對Microblink來說,將關鍵基礎設施帶回內部取得了回報,這樣做削減了62%的相關成本,減少了閑置容量并提高了訓練效率,該公司表示。最重要的是,它重新獲得了對AI基礎設施的控制,從而提高了客戶安全性。
考慮專業(yè)AI平臺
日本計算機數(shù)控加工中心制造商Makino在40個國家開展業(yè)務,面臨著一個典型的技能差距問題。經驗較少的工程師完成維修可能需要長達30小時,而經驗豐富的工人只需8小時。
為了縮小差距并改善客戶服務,領導層決定將二十年的維護數(shù)據(jù)轉化為即時可用的專業(yè)知識。他們得出的最快且最具成本效益的解決方案是將現(xiàn)有服務管理系統(tǒng)與Aquant的專業(yè)服務人員AI平臺集成。
該公司表示,采取這種簡便的技術路徑取得了巨大成功。資源集中在標準化術語和開發(fā)流程和程序上,而不是費力地評估不同的基礎設施場景,Makino的客戶支持總監(jiān)Ken Creech解釋道。
遠程問題解決率提高了15%,解決方案時間縮短,客戶現(xiàn)在可以自助訪問系統(tǒng),Creech說。“現(xiàn)在,我們的工程師提出一個簡單語言問題,AI就能迅速找到答案。這是一個巨大的驚喜因素。”
采用有意識的成本規(guī)避技巧
在美國最大的食品和藥品連鎖店之一Albertsons,IT團隊采用了幾種簡單但有效的策略來優(yōu)化AI基礎設施,而無需添加新硬件,數(shù)據(jù)分析、工程和治理技術負責人Chandrakanth Puligundla表示。
例如,重力映射顯示了數(shù)據(jù)存儲的位置以及數(shù)據(jù)如何在邊緣設備、內部系統(tǒng)或多云系統(tǒng)上移動。Puligundla解釋說,這種知識不僅減少了出口成本和延遲,還指導了關于在哪里分配計算資源的更明智決策。
同樣,他說,使用專業(yè)AI工具進行語言處理或圖像識別占用的空間更少,通常比添加或更新更昂貴的服務器和通用計算機提供更好的性能和經濟性。
另一個成本規(guī)避技巧:跟蹤每推理或訓練小時的瓦數(shù)。超越速度和成本,關注能效指標優(yōu)先考慮了可持續(xù)性能,這對日益耗電的AI模型和硬件至關重要。
Puligundla總結道:“通過這種有意識的準備,我們真的可以提高效率。”
書寫你自己的結局
AI試點項目的成功已經將數(shù)百萬家公司帶入了下一個階段:將具有高商業(yè)價值的生成式和大語言模型、智能體和其他智能應用部署到更廣泛的生產中。
最新的AI篇章為那些能夠戰(zhàn)略性地構建基礎設施和硬件的企業(yè)承諾了豐厚回報,這些基礎設施和硬件在邊緣計算、本地系統(tǒng)和云環(huán)境中平衡了性能、成本、靈活性和可擴展性。
在接下來的幾個月里,隨著行業(yè)投資繼續(xù)涌入超大規(guī)模數(shù)據(jù)中心、邊緣芯片和硬件(AMD、Qualcomm、Huawei)、基于云的AI全棧基礎設施(如Canonical和Guru)、上下文感知內存、安全的本地即插即用設備(如Lemony)等等,擴展選項將進一步擴大。
IT和業(yè)務領導者如何明智地規(guī)劃和選擇擴展基礎設施,將決定公司故事中的英雄和那些注定要陷入試點困境或AI災難的不幸者。
企業(yè)網D1net(m.hfnxjk.com):
國內頭部to B IT門戶,旗下運營國內最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業(yè)網D1Net編譯,轉載需在文章開頭注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。