, ,

《LLM(大型語言模型)是否可能受到歐盟資料庫指令(Directive 96/9/EC)保護?》

(我與大模型進行多輪對話後組合生成的答案) 歐盟的 《資料庫指令》(Database Directive, 9…

By.

min read

(我與大模型進行多輪對話後組合生成的答案)

歐盟的 《資料庫指令》(Database Directive, 96/9/EC) 為歐盟範圍內的資料庫提供 Sui Generis 保護,允許資料庫建立者對其投資進行保護,即使其中的數據本身沒有著作權(例如公共領域資料)。考慮到 GPT-4o、Gemini 等 LLM(大型語言模型) 的性質,是否可能受到此指令的保護,需要分析以下幾點:

1. 歐盟資料庫指令的核心要素

根據 《資料庫指令》第7條,Sui Generis 保護適用於滿足以下條件的資料庫:

1. 「資料的系統化或有系統的排列」(Systematic or methodical arrangement of data)。

2. 「資料的獨立檢索」(Individual retrieval of data must be possible)。

3. 「創建資料庫的投入必須具有實質性」(Substantial investment in obtaining, verifying, or presenting the content)。

換言之,資料庫的建立者可就資料庫的結構與投資享有保護,而非資料本身。

2. LLM(大型語言模型)的特性

目前的 GPT-4o、Gemini、Claude 等大型語言模型(LLM)是基於龐大的訓練數據集進行預訓練,而這些數據集來自:

• 公開網路數據

• 授權數據(例如與新聞機構、出版商簽約獲取的資料)

• 付費資料集

• 自行產生或標註的訓練數據

儘管這些 LLM 使用了大量的數據來進行訓練,但其運作方式並非典型的「資料庫」,因為:

• LLM 不是一個「可檢索的資料庫」,而是一種預測下一個 token 的機制。

• 訓練後的模型不存儲原始數據,而是以權重的形式壓縮信息。

• 使用者無法直接檢索特定資料,而只能根據提示獲取類似結果。

這與資料庫的傳統定義有所不同,因此 LLM 可能難以完全適用 《資料庫指令》 的保護。

3. LLM 是否可能適用 Sui Generis 資料庫權?

有兩種可能的角度來看:

(1)LLM 訓練數據集的組織方式

如果某家公司(例如 OpenAI、Google、Anthropic)花費大量資源來建立有系統的訓練數據集,並且這些數據集:

• 有組織地進行分類、存儲、標記和驗證

• 可供內部檢索或分析

• 需要大量的經濟與人力投入

那麼,這個「訓練數據庫」可能符合 《資料庫指令》 的 Sui Generis 保護,並可防止他人未經授權的大規模擷取或重建。

但這種保護的重點將是訓練數據庫本身,而非 LLM 生成的結果。

(2)LLM 生成結果的保護

歐盟 《資料庫指令》 主要保護的是 「數據庫」,而非 AI 生成的輸出結果。這意味著:

• LLM 生成的文本、圖片、代碼等內容,本身無法受到《資料庫指令》的 Sui Generis 保護。

• 但如果 LLM 訓練過程涉及到大量的專門整理數據,則這些訓練數據庫可能受保護。

4. 相關法律挑戰與未來發展

目前歐盟並沒有明確規範 LLM 是否適用 《資料庫指令》,但有以下法律動向值得關注:

(1)歐盟 AI 法規(AI Act)

• 歐盟 AI 法案對 高風險 AI 進行了規範,但並未將 LLM 訓練數據視為資料庫。

• 但如果 AI 訓練數據被視為具有經濟價值的知識產權,可能會影響 Sui Generis 權利的適用範圍。

(2)歐盟法院的解釋

歐盟法院(CJEU)對《資料庫指令》的適用性持狹義解釋,曾在 British Horseracing Board Ltd v. William Hill Organization Ltd(C-203/02)一案中裁定:

• 「僅憑數據的收集,不構成受保護的資料庫」,而數據的組織和檢索方式才是保護的關鍵。

• 如果未來有企業主張 LLM 訓練數據受《資料庫指令》保護,可能需要證明其具有明確的「系統性」與「檢索功能」。

(3)資料抓取與競爭法

• 許多 LLM(如 OpenAI、Google DeepMind)在訓練過程中使用了 網路爬蟲(web scraping),但部分內容可能來自受 Sui Generis 保護的資料庫(如新聞機構、學術論文庫)。

• 未來爭議可能聚焦於:

• LLM 取用的資料是否侵犯資料庫權?

• LLM 模型的開發是否應支付「資料庫使用費」?

5. 結論:LLM 受《資料庫指令》保護的可能性

分析面向 適用可能性

LLM 訓練數據集 有可能受《資料庫指令》保護,但需證明其系統性組織與投資規模。

LLM 本身(參數與權重) 不受保護,因為 LLM 不符合資料庫的「檢索」與「系統排列」標準。

LLM 生成內容 不受保護,因為它不是資料庫的一部分,而是模型的推論結果。

整體來看,LLM 不太可能 直接受到 《資料庫指令》的 Sui Generis 保護,但其訓練數據庫可能受到一定程度的保護。然而,由於 LLM 不儲存原始數據,且 生成的內容是基於參數推理,因此較難納入傳統的「資料庫」概念。

未來趨勢

1. 歐盟是否會擴展《資料庫指令》?

• 可能會修改規範,使 AI 訓練數據庫受到更明確的保護。

2. AI 產業是否會建立類似 Sui Generis 權利?

• 如同「資料庫權」或「植物品種權」,未來可能會針對 AI 訓練數建立一種新的 Sui Generis 保護制度。

3. 數據提供者的反制措施

• 新聞機構、資料提供商 可能會要求 LLM 企業支付授權費,類似於 Google 與新聞機構之間的版稅爭議。

最終結論

目前來看,GPT-4o、Gemini 等大型語言模型本身 不受《資料庫指令》的 Sui Generis 保護,但 LLM 訓練數據庫可能符合部分條件,尤其是在數據經過系統化整理與驗證的情況下。然而,這仍需歐盟法院的最終解釋,以及未來 AI 產業的法律發展。