精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

合成數(shù)據(jù)創(chuàng)造商業(yè)價值的7種方式

責任編輯:cres

作者:Maria Korolov

2025-06-26 11:18:45

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

長期以來,合成數(shù)據(jù)一直被用于為AI創(chuàng)建更大的訓練集,同時保護隱私和敏感信息,但過去,其使用一直局限于能夠負擔得起數(shù)據(jù)科學家的公司,GenAI正在改變這一切。

今年,幾乎所有企業(yè)都在迅速采用AI,但大多數(shù)企業(yè)部署的都是與他人相同的平臺,這些平臺來自相同的供應商。

基于公司獨特需求創(chuàng)建定制化的AI解決方案需要數(shù)據(jù),不幸的是,公司手頭的數(shù)據(jù)可能存在重大缺口,在使用時可能涉及隱私或合規(guī)性問題,此外,數(shù)據(jù)量可能也不足。

合成數(shù)據(jù)可以填補這一缺口,幫助企業(yè)從其AI部署中找到真正的商業(yè)價值。

4月中旬,數(shù)字化轉(zhuǎn)型咨詢公司EPAM對7300多名大型企業(yè)的高管和IT專業(yè)人員進行了調(diào)查。所有受訪者都在嘗試或部署AI,其中14%剛剛起步,32%正在發(fā)展能力但尚未取得一致結果,然而,近一半的受訪者表示已經(jīng)取得成果,并利用這些成果變得更具有競爭力,但只有5%的人認為自己屬于顛覆者,在AI使用方面處于領先地位。

德勤還發(fā)現(xiàn),30%的高級管理人員表示,高質(zhì)量數(shù)據(jù)的短缺是采用GenAI的主要障礙之一,這就是合成數(shù)據(jù)的用武之地。

“擁有真實數(shù)據(jù)對任何企業(yè)都至關重要,”德勤咨詢的數(shù)據(jù)云和機器學習首席專家Chida Sadayappan表示,“但用合成數(shù)據(jù)進行補充是一個很好的商業(yè)差異化手段,使用這種合成數(shù)據(jù)生成的AI模型將使公司具有優(yōu)勢。”

據(jù)Gartner稱,到明年,75%的企業(yè)將使用GenAI來創(chuàng)建合成客戶數(shù)據(jù),而2023年這一比例還不到5%。

事實上,據(jù)Forrester稱,大多數(shù)全球企業(yè)已經(jīng)在開展涉及合成數(shù)據(jù)的項目,更具體地說,報告顯示,14%的企業(yè)已經(jīng)在企業(yè)范圍內(nèi)部署了多個用例,22%在部門范圍內(nèi)進行了部署,還有22%正在進行初始生產(chǎn)實施,此外,15%的企業(yè)處于試點階段,同樣數(shù)量的企業(yè)處于后期研究和概念驗證階段。

那么,合成數(shù)據(jù)如何幫助企業(yè)創(chuàng)造商業(yè)價值呢?以下是主要途徑。

1. 構建真正理解你業(yè)務的AI

大型AI公司的AI模型本質(zhì)上是通用的。

“當主要AI供應商在相同的公開可用數(shù)據(jù)集上訓練模型時,結果往往是同質(zhì)化的AI輸出,”數(shù)據(jù)服務公司Data Axle的CEO Andy Frawley表示,“這限制了差異化。此外,這些數(shù)據(jù)集可能會延續(xù)長期嵌入的錯誤,降低AI驅(qū)動決策的可靠性。”他補充道。可靠性還可能受到影響,因為大型商業(yè)模型可獲得的信息可能無法涵蓋特定客戶群體的細微差別。

公司可以通過使用自己的數(shù)據(jù)或購買的數(shù)據(jù)對現(xiàn)有AI模型進行微調(diào)或增強,或構建小型定制模型來解決這一差距。當這些還不夠時,他們可以通過創(chuàng)建新的合成數(shù)據(jù)來解決。

庫存管理公司Nextuple使用合成數(shù)據(jù)創(chuàng)建定制的AI和機器學習(ML)模型,以理解庫存管理挑戰(zhàn)。例如,當一大批庫存進入中央倉庫時,“我們需要決定將其發(fā)送到哪里,”該公司的聯(lián)合創(chuàng)始人兼CEO Darpan Seth表示,“這是一個在那時做出的高價值決策。做出這樣的決策需要考慮許多物流和優(yōu)化因素,這些因素對每個公司來說都是獨特的,而使用合成數(shù)據(jù)多年來對構建和測試這一決策至關重要。

“所以這并不新鮮,”Seth表示,“但現(xiàn)在使用合成數(shù)據(jù)的方式——可能性比以往任何時候都要大。”

Nextuple不僅使用合成數(shù)據(jù)來幫助訓練ML和AI模型,他還表示,GenAI現(xiàn)在也被用于創(chuàng)建合成數(shù)據(jù),使這一過程比以往更快、更容易、更靈活、更智能。

“我們向它輸入了我們在所有客戶中看到的許多要求,”Seth表示,“它擁有所有這些數(shù)據(jù),現(xiàn)在你可以要求它生成用戶故事、測試用例、測試數(shù)據(jù)——以及測試自動化。”

在過去,生成這種合成數(shù)據(jù)將是一個高度手動的過程。例如,可以創(chuàng)建一個包含三個項目的訂單,然后創(chuàng)建另一個包含10個項目的訂單,以此類推,并進行一些小的變化。“如今,這一切都非常迅速,因為你可以使用GenAI來完成。”Seth表示。

GenAI還使整個過程民主化了。

“去年年底,我們?yōu)閳F隊中的每個人提供了AI工具,”他表示,“這是任何人都可以使用的。”

由于他們的業(yè)務客戶使用各種平臺,Nextuple構建的系統(tǒng)是模型無關的。

“我們使用從OpenAI和Claude到Llama和Gemini的一切,”Seth表示,“AWS有Bedrock,還有Azure,所有這些供應商都提供了一系列模型,有超過75到80家公司提供了一系列不同的模型。”

因此,Nextuple構建了其技術,以使后端AI可以互換。“此外,明天你可能會發(fā)現(xiàn)一個更好的模型,或者成本更低的模型。”他表示。

由于Nextuple必須與所有主要的云提供商和AI平臺合作,它沒有使用任何特定供應商的AI技術棧,而是使用開源組件構建了自己的技術棧,包括LangChain、LangGraph、LangFlow以及用于RAG嵌入的向量數(shù)據(jù)庫,如PostgreSQL的Pgvector。

“還有一些新的范式正在出現(xiàn),比如模型上下文協(xié)議,”他表示,“事情變化得非常快。”

2. 填補數(shù)據(jù)缺口

實際數(shù)據(jù)很少是完整的,有時,缺口是由于行為變化造成的。例如,歷史購物數(shù)據(jù)可能顯示黑色星期五的銷售高峰,但如今,每個人都可能在網(wǎng)上購物,一天的銷售高峰可能會延長到一周。有時,缺口出現(xiàn)是因為某些情況非常罕見,因此沒有足夠的例子。對于某些企業(yè)來說,這些缺口可能是至關重要的。

“我做了很多交通管理工作,”IEEE院士兼塔夫茨大學研究生工程院長Karen Panetta表示。她表示,從各種攝像機中可以獲得大量數(shù)據(jù),但一些最關鍵的數(shù)據(jù),比如某些類型的交通事故,也是最罕見的。

“我們沒有足夠的翻車視頻,”她表示,“所以我們使用合成數(shù)據(jù)來生成這些數(shù)據(jù)。”然后是面部識別,有許多數(shù)據(jù)庫包含在良好光線下拍攝的直視照片,僅使用這種數(shù)據(jù)進行訓練會導致系統(tǒng)在某些情況下無法正常工作,甚至如果用于安全目的還可能很危險。

“你一轉(zhuǎn)頭、戴上眼鏡、微笑或戴上口罩,它就識別不出來了。”她表示。

圖像生成器可以用于創(chuàng)建模擬不同光照條件或角度的照片變體,但使用當前技術可以做的程度有限。

“我們嘗試為戴口罩的人生成一些合成數(shù)據(jù),但它與人體解剖學的匹配度非常差,”Panetta表示,“那些輪廓很重要,所以它失敗了,但如果合成數(shù)據(jù)確實展現(xiàn)出你想要匹配的行為,那么它是一個很好的工具。”

3. 在最大化數(shù)據(jù)價值的同時保護隱私

許多公司都有現(xiàn)成模型無法很好覆蓋的特定用例,這不僅僅是專門的庫存管理應用或自動駕駛汽車,它還可能簡單到為潛在客戶生成電子郵件或幻燈片。

“關于如何起草給客戶的電子郵件,沒有客觀答案,”Dynamo AI(一家專注于AI護欄和合規(guī)性的公司)的應用AI副總裁Eric Lin表示,“這是因為公司有自己的風格、語言,當然還有獨特的產(chǎn)品信息。產(chǎn)品信息缺口可以通過在推理時將AI指向向量數(shù)據(jù)庫,通過RAG嵌入來填補,但使用實際客戶電子郵件來訓練AI可能會違反他們的隱私,無論是通過微調(diào)還是RAG嵌入。你不希望AI將一個客戶的敏感信息包含到另一個客戶的郵件中。

“由于隱私和安全方面的擔憂,我們一直不敢利用這些數(shù)據(jù),”Lin補充道,但合成數(shù)據(jù)可以剝離所有敏感的私人信息,使其不會進入AI的知識庫,并使企業(yè)能夠創(chuàng)建能夠精確撰寫所需電子郵件和幻燈片的模型,而且這不僅僅適用于營銷應用。

“例如,對于醫(yī)療保健行業(yè)的公司來說,合成數(shù)據(jù)有助于模擬患者數(shù)據(jù)和臨床場景,確保在創(chuàng)建多樣化訓練集的同時遵守隱私法。”Kearney的數(shù)字和分析實踐合伙人Bharath Thota表示。

通過使用合成數(shù)據(jù),醫(yī)療保健公司可以獲得更好的準確性或創(chuàng)建創(chuàng)新的新產(chǎn)品,他表示,即使這個領域受到高度監(jiān)管。

4. 加速產(chǎn)品開發(fā)和研發(fā)

說到創(chuàng)建產(chǎn)品,如果公司正在開發(fā)新產(chǎn)品,問題可能不是隱私,而是可能沒有歷史數(shù)據(jù)可供使用。當Nextuple想要構建一個新的庫存管理應用時,就發(fā)生了這種情況。

“我們想要模擬一家公司在其分銷中心和商店網(wǎng)絡中,基于典型需求因素,庫存是如何被消耗的,”Nextuple的Seth表示,“沒有實際數(shù)據(jù),就無法測試它是否在現(xiàn)實場景中有效。”

他們創(chuàng)建的合成數(shù)據(jù)包括跨商店和倉庫網(wǎng)絡的庫存位置,以及模擬的訂單和它們的到達時間。

“我們使用模擬來理解,例如,在感恩節(jié)期間,銷售會有一定的激增,了解這些現(xiàn)實情況后,我們創(chuàng)建了合成數(shù)據(jù),”他表示,“然后我們有幸與一位潛在客戶進行了測試,驗證了我們的假設。”

使用合成數(shù)據(jù)進行產(chǎn)品開發(fā)的另一個例子?建造機器人。

“我們?nèi)缃窨吹綑C器人技術有了如此多的改進,”軟件開發(fā)公司Globant的數(shù)字創(chuàng)新高級副總裁Agustin Huerta表示。有虛擬環(huán)境,比如Nvidia Omniverse,模擬的機器人可以在其中與模擬的物體交互,創(chuàng)建大量訓練數(shù)據(jù)來快速啟動機器人導航空間或處理產(chǎn)品的能力。

“如果你談論的是用于訓練自動駕駛解決方案的計算機視覺數(shù)據(jù),我們需要合成數(shù)據(jù)——沒有其他方法可以做到,”他表示,“否則,我們需要讓汽車發(fā)生碰撞。”

5. 在沒有歷史數(shù)據(jù)的情況下探索新市場

合成數(shù)據(jù)的另一個用例是當公司有產(chǎn)品,但想要在新市場銷售時。企業(yè)可以模擬消費者可能的行為、偏好以及他們可能對新產(chǎn)品或服務的反應,Thota表示,他們還可以使用模擬數(shù)據(jù)來幫助完善功能和營銷策略。

“想要進入新地區(qū)的銀行可以使用合成數(shù)據(jù)來模擬當?shù)氐慕?jīng)濟條件、消費習慣以及人們可能如何采用他們的金融產(chǎn)品。”他補充道。

卡內(nèi)基梅隆大學的AI教授Anand Rao曾與一家想要擴展到新市場的拼車公司合作過,但使用相同的策略在所有地方都不會非常有效,因為條件因地而異。

“在紐約市,你需要5到10分鐘的響應時間,”Rao表示,“他們對預測不準確不太容忍,比如如果顯示8分鐘但實際上12分鐘車才到,但在密歇根州的安娜堡,如果晚幾分鐘,他們可以接受。”

這意味著優(yōu)化策略需要不同,而合成數(shù)據(jù)有助于完善這些策略。

“我們?yōu)槭畟€城市準備了超過20萬個進入市場的場景,”他補充道,“這為高管們提供了如何適應新市場的真實見解。”

6. 構建數(shù)字孿生

歷史上,數(shù)字孿生一直被用于模擬噴氣發(fā)動機、幫助公司進行預測性維護或設計和管理工廠等復雜物理設施。如今,數(shù)字孿生的定義正在擴展,包括軟件系統(tǒng)、業(yè)務流程甚至人員。

公司正在模擬客戶、他們的行為、購物旅程、購買模式以及他們對特定促銷的反應方式,安永美洲消費者AI負責人Tom Edwards表示,他們通過創(chuàng)建合成客戶檔案來實現(xiàn)這一點。“這有助于我們理解不同人口統(tǒng)計群體將如何對不同產(chǎn)品定位做出反應,”他表示,“而我們得到的是更好的需求預測和更好的定位。”

而且他看到公司正在使用合成角色代替焦點小組。

“你可以創(chuàng)建數(shù)百個角色并測試不同的信息,”他表示,“合成數(shù)據(jù)允許你填補心理細節(jié)。”

這些模擬的角色還可以用于改進電子商務個性化。

“我可以運行數(shù)百萬種不同的組合,當你購物時,我可以立即根據(jù)你的一個預配置角色進行匹配,這個角色是基于合成數(shù)據(jù)構建的,”他補充道,“我比你更了解你,因為我已經(jīng)推斷了數(shù)百萬種可能的未來路徑。”

這里的商業(yè)價值可能達到數(shù)百萬美元,他表示,因為它解鎖了一種與消費者無縫對齊并提供他們以前未見過的推薦產(chǎn)品的方式,公司還可以創(chuàng)建員工的數(shù)字孿生。

“在內(nèi)部,我們正在關注的是人員配備和技能,”管理咨詢公司SSA & Company的應用解決方案負責人Nick Kramer表示。

“我們有關于顧問的歷史數(shù)據(jù),以及關于技能和能力的不可靠數(shù)據(jù),”他表示,“但我們有豐富的項目數(shù)據(jù),從這些數(shù)據(jù)中,我們得到了我們的‘素材’,并一直在嘗試不同的方法來合成數(shù)據(jù)。”

這些合成角色可以是人、項目角色或特定頭銜,他表示,它們被組合成模擬的項目團隊,進而創(chuàng)建對人員配備可能情況以及如何根據(jù)技能和工具進行平衡,以及如何優(yōu)化結果、速度、收入和利潤的看法。

7. 為自主式AI做準備

隨著AI的發(fā)展,使用合成數(shù)據(jù)的機會也在增加。例如,今年,一切都與自主式AI有關。

根據(jù)4月Cloudera的一項調(diào)查,96%的企業(yè)IT領導者表示,他們計劃在未來12個月內(nèi)擴大對智能體的使用,而且,盡管57%的人表示已經(jīng)實施了智能體,但最大的單一障礙是數(shù)據(jù)隱私,53%的人表示這正在減緩采用速度,但在訓練智能體時,這不僅僅是關于保護隱私。

“合成數(shù)據(jù)是加速這些智能體學習并映射復雜場景的一個很好的方法,”安永的Edwards表示,它還可以用于確保智能體能夠處理任何被拋給它們的情況。

“如果你能夠基于復雜交互運行數(shù)百萬種不同的場景,那么這將成為一個非常有價值的工具,”他表示,“它將成為你在企業(yè)內(nèi)部署智能體的一個基礎方面。”

現(xiàn)實檢查:過度依賴合成數(shù)據(jù)的風險

過度使用合成數(shù)據(jù)也存在危險。正如Panetta在嘗試創(chuàng)建戴口罩的人的合成圖像時發(fā)現(xiàn)的那樣,它有其局限性。

“如果濫用,你可能會面臨類似于過度擬合的問題,即輸出變得高度重復,”Mendix(一家AI平臺公司)的戰(zhàn)略高級副總裁Gordon Van Huizen表示,“然后,如果輸入一個超出訓練數(shù)據(jù)的提示,可能會導致隨機或奇怪的結果,因為系統(tǒng)難以解釋新的模式。”

不過,有方法可以解決這個問題,公司可以創(chuàng)建更多樣化的數(shù)據(jù)集、將合成數(shù)據(jù)與真實數(shù)據(jù)混合,或向數(shù)據(jù)中添加噪聲以創(chuàng)建異常值。

“但利用合成數(shù)據(jù)的關鍵是盡可能始終包含人類驗證協(xié)議。”他表示。

企業(yè)網(wǎng)D1net(m.hfnxjk.com):

國內(nèi)頭部to B IT門戶,旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)。

版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2025 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 淅川县| 高台县| 神农架林区| 若尔盖县| 和硕县| 阳泉市| 南漳县| 宁乡县| 革吉县| 聂荣县| 洱源县| 灵璧县| 黔江区| 彰化市| 新泰市| 珠海市| 辽阳县| 左云县| 新巴尔虎左旗| 隆昌县| 绵竹市| 芜湖县| 定襄县| 曲阳县| 拉萨市| 津市市| 大丰市| 博乐市| 扶沟县| 金溪县| 宣化县| 贵溪市| 安多县| 绥棱县| 威海市| 界首市| 扎鲁特旗| 龙川县| 滨海县| 全南县| 延吉市|