精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

<dfn id="kecdj"><label id="kecdj"><code id="kecdj"></code></label></dfn>

<track id="kecdj"><abbr id="kecdj"></abbr></track>

<form id="kecdj"></form>

<menuitem id="kecdj"></menuitem>

蘋果的ToolSandbox揭示了嚴峻的現實：開源AI仍然落后于專有模型

責任編輯：cres

作者：Michael Nu?ez

2024-08-13 10:49:43

來源：企業網D1Net

原創

蘋果公司的研究團隊發布了ToolSandbox，這是一個專為評估AI助手在現實世界中能力的全新基準測試工具。

蘋果公司的研究人員發布了ToolSandbox，這是一個全新的基準測試工具，旨在比以往更全面地評估AI助手的實際能力，這項研究發表在arXiv上，解決了現有評估方法中對于使用外部工具完成任務的大型語言模型（LLMs）存在的關鍵缺陷。

ToolSandbox包括三個在其他基準測試中常常缺失的重要元素：狀態化交互、對話能力和動態評估，該研究的主要作者Jiarui Lu解釋道：“ToolSandbox包含狀態化的工具執行、工具之間的隱含狀態依賴性、支持策略內對話評估的內置用戶模擬器以及動態評估策略。”

這一新基準測試旨在更接近真實世界的場景。例如，它可以測試AI助手是否理解需要先啟用設備的蜂窩服務才能發送短信——這項任務要求AI能夠推理系統的當前狀態并進行適當的更改。

專有模型表現優于開源模型，但挑戰依然存在

研究人員使用ToolSandbox對一系列AI模型進行了測試，結果顯示專有模型和開源模型之間存在顯著的性能差距。

這一發現對近期有關開源AI迅速趕超專有系統的報告提出了質疑。就在上個月，初創公司Galileo發布了一項基準測試，顯示開源模型正在縮小與專有系統的差距，而Meta和Mistral則宣布推出了他們聲稱可以與頂級專有系統媲美的開源模型。

然而，蘋果的研究發現，即使是最先進的AI助手在處理涉及狀態依賴、標準化（將用戶輸入轉換為標準格式）以及信息不足的復雜任務時也表現不佳。

研究論文的作者指出：“我們展示了開源和專有模型之間存在顯著的性能差距，ToolSandbox定義的復雜任務如狀態依賴、標準化和信息不足，即使是最強大的SOTA LLMs也難以應對，為工具使用的LLM能力提供了全新的見解。”

有趣的是，研究發現，在某些情況下，較大的模型在涉及狀態依賴的任務中表現反而不如較小的模型，這表明，模型的規模并不總是與復雜的現實任務中的更好表現相關聯。

規模不是一切：AI性能的復雜性

ToolSandbox的引入可能對AI助手的發展和評估產生深遠影響。通過提供更現實的測試環境，它或許能夠幫助研究人員識別并解決當前AI系統中的關鍵限制，最終為用戶帶來更強大、更可靠的AI助手。

隨著AI繼續深入融入我們的日常生活，像ToolSandbox這樣的基準測試將發揮關鍵作用，確保這些系統能夠應對現實世界互動的復雜性和細微差別。

研究團隊已宣布，ToolSandbox評估框架即將發布在Github上，邀請更廣泛的AI社區在此基礎上進一步構建和改進這項重要工作。

盡管開源AI的最新發展激發了人們對尖端AI工具普及的期待，但蘋果的研究提醒我們，在創建能夠處理復雜現實任務的AI系統方面仍然存在重大挑戰。

隨著這一領域的快速發展，像ToolSandbox這樣嚴格的基準測試將對于區分炒作與現實至關重要，并引導真正有能力的AI助手的發展。

企業網D1net(m.hfnxjk.com)：

國內主流的to B IT門戶，旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。

版權聲明：本文為企業網D1Net編譯，轉載需在文章開頭注明出處為：企業網D1Net，如果不注明出處，企業網D1Net將保留追究其法律責任的權利。

AI 開源模型 AI模型

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內卷“出海”勢在必行數字化為全球業務保駕護航

破內卷“出海”勢在必行，數字化為全球業務保駕護航

邊緣創新數智向實

2023英特爾智能邊緣行業應用巡展·智慧協同站

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

中國國際醫藥衛生有限公司數智化中心總經理馮偉在接受企業網D1Net專訪時提到：“回過頭來看，數智化建設最難的是轉思維，必須打破信息化總想去建系統的固有思維，要以平臺化思維、站在運營和業務的角度思考問題。思維轉變后，很多問題將迎刃而解。”

創維集團信息總監寧江：數據治理是數字化轉型的必由之路

創維集團信息總監寧江在接受企業網D1Net采訪時提到：“如今，站在數字化轉型的全局之下回顧過去幾十年的信息化建設，似乎建了很多煙囪，系統之間、流程之間不能共享數據，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術總監高麗：云原生加速企業數字化轉型

海爾智家全球數字化平臺用到了哪些云原生技術產品?如何實現降本增效?在云原生技術應用方面有哪些實踐和探索?云原生技術發揮了哪些價值?在本期“云原生降本增效大咖說”中，企業網D1Net采訪了海爾智家全球數字化平臺技術總監高麗。

熱文推薦

相關文章

鏈接已復制，快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

<menuitem id="jw4sk"></menuitem>

<form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>

主站蜘蛛池模板：彭山县| 鹤岗市| 鲁甸县| 五常市| 五河县| 织金县| 大冶市| 竹山县| 常山县| 文水县| 德兴市| 卢氏县| 佛山市| 宁城县| 太白县| 鄂托克前旗| 太仆寺旗| 女性| 波密县| 通道| 安徽省| 龙南县| 蒲城县| 保亭| 睢宁县| 辉南县| 开封县| 新乡县| 昭苏县| 龙川县| 江都市| 甘肃省| 邹城市| 本溪市| 五峰| 丰镇市| 平度市| 樟树市| 腾冲县| 永昌县| 靖边县|

<menu id="k4fjz"><dl id="k4fjz"><dd id="k4fjz"></dd></dl></menu>