精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

蘋果的ToolSandbox揭示了嚴峻的現實:開源AI仍然落后于專有模型

責任編輯:cres

作者:Michael Nu?ez

2024-08-13 10:49:43

來源:企業網D1Net

原創

蘋果公司的研究團隊發布了ToolSandbox,這是一個專為評估AI助手在現實世界中能力的全新基準測試工具。

蘋果公司的研究人員發布了ToolSandbox,這是一個全新的基準測試工具,旨在比以往更全面地評估AI助手的實際能力,這項研究發表在arXiv上,解決了現有評估方法中對于使用外部工具完成任務的大型語言模型(LLMs)存在的關鍵缺陷。
 
ToolSandbox包括三個在其他基準測試中常常缺失的重要元素:狀態化交互、對話能力和動態評估,該研究的主要作者Jiarui Lu解釋道:“ToolSandbox包含狀態化的工具執行、工具之間的隱含狀態依賴性、支持策略內對話評估的內置用戶模擬器以及動態評估策略。”
 
這一新基準測試旨在更接近真實世界的場景。例如,它可以測試AI助手是否理解需要先啟用設備的蜂窩服務才能發送短信——這項任務要求AI能夠推理系統的當前狀態并進行適當的更改。
 
專有模型表現優于開源模型,但挑戰依然存在
 
研究人員使用ToolSandbox對一系列AI模型進行了測試,結果顯示專有模型和開源模型之間存在顯著的性能差距。
 
這一發現對近期有關開源AI迅速趕超專有系統的報告提出了質疑。就在上個月,初創公司Galileo發布了一項基準測試,顯示開源模型正在縮小與專有系統的差距,而Meta和Mistral則宣布推出了他們聲稱可以與頂級專有系統媲美的開源模型。
 
然而,蘋果的研究發現,即使是最先進的AI助手在處理涉及狀態依賴、標準化(將用戶輸入轉換為標準格式)以及信息不足的復雜任務時也表現不佳。
 
研究論文的作者指出:“我們展示了開源和專有模型之間存在顯著的性能差距,ToolSandbox定義的復雜任務如狀態依賴、標準化和信息不足,即使是最強大的SOTA LLMs也難以應對,為工具使用的LLM能力提供了全新的見解。”
 
有趣的是,研究發現,在某些情況下,較大的模型在涉及狀態依賴的任務中表現反而不如較小的模型,這表明,模型的規模并不總是與復雜的現實任務中的更好表現相關聯。
 
規模不是一切:AI性能的復雜性
 
ToolSandbox的引入可能對AI助手的發展和評估產生深遠影響。通過提供更現實的測試環境,它或許能夠幫助研究人員識別并解決當前AI系統中的關鍵限制,最終為用戶帶來更強大、更可靠的AI助手。
 
隨著AI繼續深入融入我們的日常生活,像ToolSandbox這樣的基準測試將發揮關鍵作用,確保這些系統能夠應對現實世界互動的復雜性和細微差別。
 
研究團隊已宣布,ToolSandbox評估框架即將發布在Github上,邀請更廣泛的AI社區在此基礎上進一步構建和改進這項重要工作。
 
盡管開源AI的最新發展激發了人們對尖端AI工具普及的期待,但蘋果的研究提醒我們,在創建能夠處理復雜現實任務的AI系統方面仍然存在重大挑戰。
 
隨著這一領域的快速發展,像ToolSandbox這樣嚴格的基準測試將對于區分炒作與現實至關重要,并引導真正有能力的AI助手的發展。
 
企業網D1net(m.hfnxjk.com):
 
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 彭山县| 鹤岗市| 鲁甸县| 五常市| 五河县| 织金县| 大冶市| 竹山县| 常山县| 文水县| 德兴市| 卢氏县| 佛山市| 宁城县| 太白县| 鄂托克前旗| 太仆寺旗| 女性| 波密县| 通道| 安徽省| 龙南县| 蒲城县| 保亭| 睢宁县| 辉南县| 开封县| 新乡县| 昭苏县| 龙川县| 江都市| 甘肃省| 邹城市| 本溪市| 五峰| 丰镇市| 平度市| 樟树市| 腾冲县| 永昌县| 靖边县|