大數據對于企業的重要性已經不言而喻了,現在企業都在積極收集結構化和非結構化數據進行實時處理和分析,并希望從中尋找到新的業務機會。隨著技術的發展,數據的開源也漸漸變得多樣化,例如,傳感器、物聯網、社交等等,企業也在積極投資大數據項目,如從數據湖、處理框架到分析工具再到英特爾硬件等等。
當大量的數據涌入到系統中,如何采集和管理信息就變成了關鍵。
用戶可以利用由x86處理器橫向擴展配置所提供的增加的分析計算能力,但并不是所有的公司都對數據質量很挑剔。
新時代,不準確的數據可能會導致很嚴重的后果,所以數據需要更可靠的技術。例如一家金融服務公司,是根據客戶位置信息和購物數據來銷售保險的,如果數據在創建、傳輸、存儲和分析等環節中出錯,那么很可能會有很多不好的結果產生。
Melanie Mecca表示有償的數據并沒有獲得足夠的重視,它被視為功能,技術和自動化功能管中的牙膏,而本身從未被視為組織業務的基礎和生命之源。
大數據標準應該是什么樣?
國家物理實驗室(NPL)試圖解決這個問題,不良資產正在努力通過引入一種系統的方法來創造數據可信度。NPL院士Alistair Forbes表示:"我們試圖將我們的思維方式應用到測量領域,思考它如何應用到數字領域。
在考慮大數據質量時,NPL將著眼于四個方面:收集,連接,理解和信心。
收集意味著驗證數據的來源并評估其可信度和準確性。從一個未經驗證的數據源獲取數據而沒有測量數據質量是一個隱患很多的舉動。
連接之后如何傳輸數據以及在干擾情況下是否進行了適當的糾錯。
理解意味著確保數據"正確"。當我們使用來自多個來源的數據進行分析時,我們如何確保通過這些數據源的不確定性傳播得到正確理解。現在傳播建模的最佳工具是由NPL和國際社會開發的"測量不確定度指南"(GUM)。它描述了不確定性如何在不同的傳感器和數據源之間傳播,以及決策的意義。
Stansfield 表示"如果你試圖引導人們收集信息,并放在一起使用,這就是不確定性的流動。所以你在進行系統級的設計時就要考慮好這個問題。
Forbes將其描述為一個相對較窄的指南,而不良貸款研究機構正在進行這項研究,將其擴展到不確定性傳播的范圍。我們正在從不確定性傳播范式轉變為不確定性量化范式,這是對不確定性來源的全面評估,并試圖使用更好的統計工具對其進行解釋。
今天,我們通過建模來確定事物的確定性,但隨著模型變得越來越復雜,這種方式也會變得越來越困難。NPL正在開發一種方法來量化與模型相關的不確定性,它主要是針對工程領域,衛星成像以及生命科學的其他領域。除此之外,NPL還在探索如何將有質量的數據存儲為機器可讀,使這些數據更易于訪問。
當然,除了NPL在對數據源提供信心,還有很多其他組織也在積極努力。例如,英特爾與美國能源部的國家能源研究科學計算中心(NERSC)和五個英特爾并行計算中心(IPCC)合作建立了一個大數據中心(BDC),為創建用于數據管理的強大基礎架構而努力。
同時針對于特定行業的解決方案也逐漸成形,今年夏天,英特爾與汽車制造商豐田(Toyota)等公司宣布建立汽車邊緣計算聯盟(Automotive Edge Computing Consortium)。該小組將致力于汽車行業新興移動技術的標準,最佳實踐和體系結構。
進一步看大數據標準
英特爾也一直努力在大數據方面尋求突破,例如調整英特爾架構上的數據處理平臺,與開源企業數據管理方面Hadoop專家Cloudera合作。Hadoop正在逐步成為行業標準的大數據處理平臺,而英特爾在全球數據中心市場的份額超過90%,這意味著兩者之間可能存在重疊的部分。英特爾和Hortonworks正在制定聯合路線圖,以加速加密和解密,數據壓縮和解壓縮,緩存和I / O密集型工作負載的性能。
與此同時,SAS正在制定可以幫助改善大數據環境質量管理的指標。其數據產品管理總監Ron Agresta表示,在客戶互動中經常使用的指標包括完整性,一致性和準確性。很多企業都會積極做檢查分類,以便及時有效的匯總起來,并反映到儀表盤上。當然,每個客戶對于指標以及數據使用的要求都有所不同。
SAS數據管理高級產品營銷經理Todd Wright表示:"我認為在當前的環境中看不到任何標準的數據管理方式。大數據質量的標準只在醫療保健等嚴格管理的領域得到了具體部門的處理。即使在同一行業,每個組織都面臨著各種各樣的問題,尤其是在供應商中,沒有一個標準的方式來解決大數據的這些問題。
數據質量和治理框架應該放在更高的層面上。Mecca企業發起了數據管理成熟度(DMM)。它側重于我們管理堆棧的上層,查看人們用來確保數據質量和一致性的技術。
這是我們必須要做的事情,這個組織并不是從技術角度出發,而是側重于數據決策,是一個人員流程。DMM著眼于數據管理(為數據和元數據存儲庫創建業務詞匯表),數據治理和數據質量等領域。
EDM委員會也有自己有效管理大數據的框架,稱為數據管理能力評估模型(DCAM)。EDM委員會的語義和標準主管Mike Bennett表示:他們可以提供一個包含數據質量各個方面的圓形圖表。
大數據為更多的洞察力和新業務提供了巨大的潛力,但隨著更多的設備連接和數據合并在一起,潛在錯誤明顯增加,而缺少對數據管理的統一標準或共識將使這種情況加劇。
隨著供應商和研究人員應用更多的專業知識幫助客戶提高數據的質量和管理水平,達成大數據管理共識將是可實現的現實。如果數據是新石油,那么一種新的經營方式就變得至關重要,不僅要識別數據中的錯誤,而且要能夠追溯到原來的數據。