付丽霞：AI语料库获取作品数据行为的版权规制：现实争议与路径抉择

发布者：吕品发布时间：2026-04-24浏览次数：10

摘要：人工智能（AI）语料库作为大模型数据训练的核心资源，需要海量“数据投喂”以保障语料的真实性与准确性。由于作品与数据的二元重叠，AI语料库获取的数据中不乏版权法所保护的作品数据。实践中，各国对于AI语料库作品数据获取行为的版权规制方案未达成一致，市场调节或制度调适的路径抉择仍存在争议。有鉴于此，有必要借助利益平衡理论，系统分析以一般许可为核心的市场调节路径和以合理使用为核心的制度调适路径，从宏观的国家文化安全与创新战略，以及微观的产业发展与权益保护等多视角出发，开展本土化的版权分类治理。首先对AI语料库获取作品数据的行为进行目的区分，在公益目的下AI语料库获取作品数据的行为可适用现有合理使用规则；而在非公益目的下，则应进一步区分AI通用语料库与AI专业语料库，对其获取作品数据行为分别优化适用法定许可规则与一般许可规则。

关键词：人工智能（AI）语料库；作品数据；合理使用；版权分类治理

目录：

一、AI语料库获取作品数据行为版权规制的问题缘起

二、AI语料库获取作品数据行为版权规制的实践探索

1.市场调节：以一般许可使用为基础的作品数据获取

2.制度调适：以版权合理使用为核心的作品数据获取

三、AI语料库获取作品数据行为版权规制的分类治理进路

（一）AI语料库获取作品数据行为版权分类治理的理论根基

1.版权分类治理的正当性：多层级利益主体平衡的最佳策略

2.版权分类治理的可行性：差异化作品数据获取行为的有效规制

（二）AI语料库获取作品数据行为版权分类治理的规则设计

1.公益目的下AI语料库获取作品数据合理使用规则的有限适用

2.非公益目的AI通用语料库获取作品数据法定许可规则的引入

3.非公益目的AI专业语料库获取作品数据一般许可规则的优化

四、结语

本文原载于《清华大学学报(哲学社会科学版)》2026年第2期（第193-203,260页）。注释和参考文献从略，详情请参考原文。本文作者付丽霞系中南财经政法大学知识产权研究中心讲师。

如需查看或引用原文，请参考以下信息：付丽霞. AI语料库获取作品数据行为的版权规制：现实争议与路径抉择[J].清华大学学报(哲学社会科学版), 2026,41(02):193-203+260.