FirstBatch去中心化AI研報：數據採集...

FirstBatch去中心化AI研報：數據採集——質量、版權與所有權

# 財經商業 2024-02-19 14:12 15 來源： PermaDAO

來源：PermaDAO

FirstBatch 是 Dria 的母公司。Dria 是一個存儲在 Arweave 上的开源知識聚合平台，旨在建立人類與機器之間的知識交流，被 FirstBatch 稱爲 “AI 版的維基百科”。最近 FirstBatch 开啓了一個研究去中心化 AI 的研報系列，聚焦數據聚合問題與去中心化的結合點。這篇報道中我們將導讀第一篇研報《數據採集：質量、版權與所有權》的內容，我們會關注去中心化是如何爲數據採集問題提供解決方案的，以及去中心化方案存在的風險和挑战。

去中心化如何解決數據採集中遇到的問題

目前的 AI 團隊和开發者在數據採集中會遇到的問題：

1. 無法收集足量的數據

2. 無法收集到優質的數據

3. 存儲問題

4. 隱私控制

5. 版權問題

我們將逐一來看去中心化是如何爲這些問題提供解決方案的。

在收集數據量方面，Meta 的首席 AI 科學家指出，盡管現在 LLM 有非常大的進展，用於訓練 AI 模型的數據仍然比不上一個 4 歲小孩獲取到的信息量。目前，數據的類型和來源局限於文字和某些垂直領域。FirstBatch 暢想的是可以通過社交或者經濟激勵來鼓勵團隊或者個人來做數據的審編和篩選的工作，這樣可以將大大提高引入新的數據種類的速度，也可以增加多種數據源。

現在，AI 开發者們面臨的挑战是無法收集到優質數據以及很難檢測收集到的數據的質量，因爲數據源中有很多重復和過時的數據，並且當下自動檢測的方式降低了數據的准確性和質量。FirstBatch 從开放數據平台如 Hugging Face、Kaggle 和維基百科提高數據質量的經驗中得到靈感，FirstBatch 提出了可以建立去中心化开放數據中心，讓所有的人都可以參與數據的篩選、審核和評價過程。這樣做既可以減輕專門保證數據集質量的小團隊的處理壓力，也可以防止數據被單一組織操縱或幹預。如果實行合適的激勵機制，這些去中心化的數據开放中心和社區化數據審核流程可以在高速和大量數據流入時，確保數據的質量。目前 FirstBatch 旗下的產品 Dria 正在構建這樣的去中心化全球知識中心。

存儲上 AI 項目遇到的問題是成本和維護問題。面臨不斷增長的數據量，和隨之而來的訂閱費用的上漲，這些使用者也想過提前購买更大的空間來獲取折扣，但這樣在經濟和技術角度上同樣是種浪費。FirstBatch 選擇將數據存儲在可以永久存儲數據的 Arweave 上，這樣可以免受數據丟失的風險。不僅如此，還可以在上面創建共享數據池來讓大家存儲不同的數據，這樣不同的數據就可以存儲在同一個地方，解決了在不同的地方存儲相同數據，造成空間浪費和存儲費用浪費的問題。

數據中會存在一些識別個人身份的數據，這些數據具有隱私性，將這些數據的篩查公开給協作平台讓成千上萬人審查會違背一些隱私條例。FirstBatch 提出可以在這些隱私數據進入公开的數據篩選平台之前，利用零知識證明或者 DID 的技術，讓未來的线上活動數據都可以在隱私保護的模式下進行。

許多在线平台和媒體機構對 AI 公司使用受版權保護的材料提出質疑，稱 AI 模型的訓練和使用對原始內容造成侵權。NFT 由於鏈上行爲的透明性和不可更改性，使創意/知識產權材料的所有權非常清晰和透明。這些代幣可以用於驗證和識別哪些材料受到何種類型的程序的約束，從而使數據清理過程和應對訴訟更加容易。