您好,登錄后才能下訂單哦!
作者 | Just
出品 | AI科技大本營(ID:rgznai100)
毋庸置疑,在業界對人工智能(AI)應用落地備受期待的時期,數據這一重要支點卻越來越成為一個“卡脖子”的難題。
AI落地需要數據來優化模型效果,但大部分企業不會輕易把數據無條件提供給AI公司使用,因為數據某種程度上是它們賴以生存的底牌,這也導致少數巨頭公司壟斷大量數據,而小公司很難獲得數據的局面,另一方面,由于法律法規對數據隱私保護的規定,數據融合難上加難。數據孤島問題似乎成了無法解開的死結,人工智能落地進程嚴重受阻。
此時,Google 于 2016 年提出的聯邦學習(Federated Learning)技術開始在業內被寄予厚望,國內以微眾銀行、平安科技、百度為代表的公司成為新技術的“嘗鮮者”,希望它成為打通數據孤島的橋梁。
Google 率先建立建立聯邦學習系統來解決用戶個人終端設備的數據隱私問題,在安卓系統的手機用戶中,首先將初始化模型下載到各終端,然后根據其本身的數據更新模型參數,不同終端隨之產生不同的更新結果送到云端進行聚合,匯總后的模型參數將作為下一次更新的初始參數,一直迭代直到收斂。
用這樣的方法既能保證數據不共享,保護用戶隱私,同時又能共享一個通用模型,利用群體智能在云端不斷更新,這就是聯邦學習技術,而以該技術為核心的相關技術統稱為聯邦智能,平安科技副總工程師、聯邦學習團隊負責人王健宗博士首度提出了這一概念。他在近期接受 AI科技大本營(ID:rgznai100)等媒體采訪時稱, 聯邦學習之于聯邦智能,猶如深度學習之于人工智能,不過聯邦智能仍屬人工智能范疇,其最終目標是為了實現人工智能。
破局數據孤島,聯邦學習的應用實踐
作為聯邦學習技術的早期使用者,Google 在今年 2 月開源了聯邦學習框架 TensorFlow Federated,可用于去中心化數據的機器學習及運算實驗。國內,微眾銀行 AI 團隊對外開源了自研的“聯邦學習 FATE(Federated AI Technology Enabler)” 學習框架,并推動其在信貸風控、監管科技等領域的應用落地。
平安科技同樣自主了蜂巢聯邦學習平臺,并有了相對成熟的落地案例。王健宗提到,基于平安科技的金融、保險業務數據,他們通過聯邦學習技術對此前無法獲取的數據進行聯合建模,從而準確預測用戶貸款或者信用卡的逾期違約率以及預測跨域產品購買行為,以及通過銀行客戶去預測買保險客戶等應用,除了金融、保險領域,他們還在醫療、智能語音以及車聯網等多個領域進行了實踐應用。
這些應用的共通之處在于,聯邦智能解決方案要求數據在傳輸過程當中能夠實現實時的加解密,在此基礎上還要高效實現,比如做深度學習訓練時,要做到幾千萬甚至上億參數的交換、同步、異步處理。基于此,新方案還要保證多源數據在AI 模型調優過程中的安全性,同時也要有效地評估各數據源對于最終優化結果的貢獻度。
總之,要在分布式環境下實現聯合建模,自然會對硬件支持提出相應要求,而平安科技與英特爾的合作為上述問題的初步解決提供了有效方案。
硬件層面上,雙方形容在聯邦學習技術層面的合作是“一拍即合”。英特爾一直都想做一個可信計算數據分析的執行環境,希望能有效地防止外界觸達和攻擊敏感的數據和應用。英特爾最新發布的 SGX(軟件防護擴展)技術實現了這一點,其通過處理器指令,在不同數據源中創建可信區域來用于數據訪問,這正好符合目前聯邦學習運算的需求。
王健宗稱,SGX 一開始的配置并不是為聯邦學習而生,但這個硬件可信平臺后期陸續開放了一些專用接口,如此可以直接封裝接口,從而在信息傳遞加解密過程當中更快、更高效,這種把可信計算環境“硬化”的方法能夠加快迭代訓練,也符合當下軟件硬化,硬件軟化的趨勢。
對比傳統軟加密的方式,比如在傳統的深度學習框架 TensorFlow, PyTortch , Caffe, MxNet 上進行改造,其在信息處理傳輸中的加解密過程會消耗太多時間。
英特爾? SGX 技術以可信“飛地”來增強數據安全防護
具體來說,英特爾? SGX 技術可通過在特定硬件(例如內存)中構造出一個可信的“飛地”(Enclave), 用于中間參數的交互和傳輸,以幫助防止內外部攻擊,使數據和應用程序的安全邊界僅限于“飛地”本身以及處理器,同時其運行過程也不依賴于其他軟硬件設備。這意味著數據的安全保護是獨立于軟件操作系統或硬件配置之外,即使硬件驅動程序、虛擬機乃至操作系統均受到攻擊和破壞,能更有效防止數據泄露。
英特爾? SGX技術的聯邦學習方案
基于英特爾?SGX 技術所具備的特性,聯邦學習團隊與英特爾一起,在其聯邦學習方案中設計了 1+N 式的多源數據 AI 模型訓練方法,有助于精確地評估各節點數據對于 AI 模型訓練的貢獻度,方便用戶對方案進行調整。
以聯邦學習在保險行業的應用為例,以往用戶在投保時,業務人員只能根據用戶的年齡、性別等基本信息來確定保費金額,但隨著信息社會的不斷發展,用戶數據的數量和特征維度得到大幅增加,比如對于健康類險種來說,業務系統如果能夠利用海量的病歷、家族病史數據等進行 AI 預測,并得到更加細分的健康評估類別,有望提升投保人健康評估結果的準確度。
其中,病歷、病史等無疑是各個健康醫療機構中需要絕對確保隱私的數據,不僅不可能予以公開,更需要提升安全等級予以保護。現在聯邦學習方案的引入,保險企業可以在不觸及用戶數據的情況下開展保險定價模型的 AI 訓練,從目前的效果來看,聯邦學習 1+N 式解決方案使保險個性化定價效果得到了明顯提升。
當然新技術的應用總是伴隨著新挑戰,聯邦學習自有其目前無法解決的短板。王健宗指出,聯邦學習目前是用不同算法來改造模型以進行聯合建模,并沒有一個工具或者方法論,能夠解決所有的深度學習算法聯邦化的問題。
同時,不同于區塊鏈的去中心化機制,聯邦學習形成的是有中心化的聯邦 政府。在“聯邦 政府”里只有一個共同模型負責分發,所以還要解決“兩個信任”問題:一是確保有一個各參與方都信任的聯邦 政府,二是聯邦 政府的運作信息要透明。
不過各項新技術都在不斷演進,王健宗認為,只要有更多企業和從業者加入到使用聯邦學習的隊伍中來,這些問題將逐步得到解決。
他類比十幾年前做信息系統時面臨的困境,當時每個信息系統的開發語言都不同,但現在已經完全解決;面臨的數據孤島問題依然存在,但后來云計算的出現讓上百個系統數據互不相通的狀況一去不返,所以這也讓他樂觀看待聯邦學習在未來的發展前景。
聯邦智能,引領 AI 革新的新曙光?
聯邦學習技術這盤更大的棋在于各參與方共同打造聯邦學習生態,但王健宗表示,當下最重要的是搶占先機,提出聯邦學習應用于未來趨勢的生態與解決方案。
生態離不開系統架構的布局。硬件層面,目前英特爾與平安科技的雙方合作尚處第一階段,只是拿出了一個硬體加密盒,解決了數據訓練的其中一個環節。平安科技聯邦學習團隊將與英特爾進一步開展技術合作,以更多、更先進的技術驅動數據資源在聯邦學習中的安全運轉和高效轉化,王健宗希望后續硬體加解密環境更多的改造成為聯邦智能服務,同時在信息傳輸標準、知識訓練接口規范等方面,英特爾可以通過業界標準渠道來打造生態,推動聯邦學習在各行各業中的快速發展和應用。
英特爾還可能開發訓練框架以支持聯邦學習,同時其相關存儲技術,比如SSD(固態硬盤)等也會做出相應行業解決方案,以點蓋面進一步深化聯邦學習解決方案。
在網絡層,王健宗認為 5G 技術的到來會給聯邦學習提供很好的機會,比如一定程度上解決參數交換瓶頸,這就需要在網絡通訊層、編碼層、存儲層要為聯邦智能定制相應技術規范,他還稱平安科技在做相關聯邦芯片的研究工作,也在考慮未來是否要設計聯邦操作系統。
不過,要想落地相關應用,系統化實現聯邦智能生態,還要依靠更多前線的人工智能從業者,他們希望這套聯邦學習解決方案科技能夠支持更多公司和行業,對以聯邦學習為基礎的技術進行深入探索,做一些實在的落地應用研究。
聯邦學習技術目前更多應用于 AI 訓練過程,其目標是形成聯邦生態,不過王健宗更希望基于聯邦學習技術,通過聯邦數據庫、聯邦數據中心、聯邦可視化來共同實現聯邦智能。他堅信,新技術和新需求衍生的新一輪革新會助力AI產業實現騰飛,而聯邦智能無疑是引領 AI 革新的新曙光。
https://www.toutiao.com/a6741933088483312140/
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。