來源:PermaDAO
FirstBatch 是 Dria 的母公司。Dria 是一個存儲在 Arweave 上的开源知識聚合平台,旨在建立人類與機器之間的知識交流,被 FirstBatch 稱爲 “AI 版的維基百科”。最近 FirstBatch 开啓了一個研究去中心化 AI 的研報系列,聚焦數據聚合問題與去中心化的結合點。這篇報道中我們將導讀第一篇研報《數據採集:質量、版權與所有權》的內容,我們會關注去中心化是如何爲數據採集問題提供解決方案的,以及去中心化方案存在的風險和挑战。
目前的 AI 團隊和开發者在數據採集中會遇到的問題:
1. 無法收集足量的數據
2. 無法收集到優質的數據
3. 存儲問題
4. 隱私控制
5. 版權問題
我們將逐一來看去中心化是如何爲這些問題提供解決方案的。
在收集數據量方面,Meta 的首席 AI 科學家指出,盡管現在 LLM 有非常大的進展,用於訓練 AI 模型的數據仍然比不上一個 4 歲小孩獲取到的信息量。目前,數據的類型和來源局限於文字和某些垂直領域。FirstBatch 暢想的是可以通過社交或者經濟激勵來鼓勵團隊或者個人來做數據的審編和篩選的工作,這樣可以將大大提高引入新的數據種類的速度,也可以增加多種數據源。
現在,AI 开發者們面臨的挑战是無法收集到優質數據以及很難檢測收集到的數據的質量,因爲數據源中有很多重復和過時的數據,並且當下自動檢測的方式降低了數據的准確性和質量。FirstBatch 從开放數據平台如 Hugging Face、Kaggle 和維基百科提高數據質量的經驗中得到靈感,FirstBatch 提出了可以建立去中心化开放數據中心,讓所有的人都可以參與數據的篩選、審核和評價過程。這樣做既可以減輕專門保證數據集質量的小團隊的處理壓力,也可以防止數據被單一組織操縱或幹預。如果實行合適的激勵機制,這些去中心化的數據开放中心和社區化數據審核流程可以在高速和大量數據流入時,確保數據的質量。目前 FirstBatch 旗下的產品 Dria 正在構建這樣的去中心化全球知識中心。
存儲上 AI 項目遇到的問題是成本和維護問題。面臨不斷增長的數據量,和隨之而來的訂閱費用的上漲,這些使用者也想過提前購买更大的空間來獲取折扣,但這樣在經濟和技術角度上同樣是種浪費。FirstBatch 選擇將數據存儲在可以永久存儲數據的 Arweave 上,這樣可以免受數據丟失的風險。不僅如此,還可以在上面創建共享數據池來讓大家存儲不同的數據,這樣不同的數據就可以存儲在同一個地方,解決了在不同的地方存儲相同數據,造成空間浪費和存儲費用浪費的問題。
數據中會存在一些識別個人身份的數據,這些數據具有隱私性,將這些數據的篩查公开給協作平台讓成千上萬人審查會違背一些隱私條例。FirstBatch 提出可以在這些隱私數據進入公开的數據篩選平台之前,利用零知識證明或者 DID 的技術,讓未來的线上活動數據都可以在隱私保護的模式下進行。
許多在线平台和媒體機構對 AI 公司使用受版權保護的材料提出質疑,稱 AI 模型的訓練和使用對原始內容造成侵權。NFT 由於鏈上行爲的透明性和不可更改性,使創意/知識產權材料的所有權非常清晰和透明。這些代幣可以用於驗證和識別哪些材料受到何種類型的程序的約束,從而使數據清理過程和應對訴訟更加容易。
去中心化方案雖好,但仍然存在的問題是用戶的匿名性帶來的風險。例如,當涉及到版權或有害內容的相關法規問題時,匿名的違法行爲可能會引發更大的問題,將平台置於風險之中。將數據永久存儲在去中心化網絡上的情況下,上傳的數據中可能依舊包含有害內容,即使有大衆的數據審查,仍然避免不了漏網之魚。
目前存在的一大挑战是如何分配數據量和質量激勵的權重。因爲無論平台如何架構,總會有人上傳更多質量較低的數據或質量較高但數量較少的數據。
隨着去中心化 AI 數據採集平台的進一步發展,將會有更多機會促進更好的協調範式,以實現更順暢的數據收集流程。我們也期待 FirstBatch 的 Dria 能帶來更多有關於提高數據的數量和質量方面的好消息。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。