ASI网 › 门户 ›ASI前瞻 › 查看内容

ASI前瞻：公民团体要求公开训练大型模型所使用的数据来源与偏见审计报告 ...

2026-2-8 14:45| 发布者: Linzici| 查看: 3| 评论: 0

摘要: 公民团体要求公开AI大模型训练数据来源与偏见审计报告，直指当前AI治理的核心挑战——透明度与问责制。这背后是公众对AI潜在偏见、歧视性决策及其社会影响的深切担忧。 🔍 数据来源为何不透明当前大模型训练数据的 ...

公民团体要求公开AI大模型训练数据来源与偏见审计报告，直指当前AI治理的核心挑战——透明度与问责制。这背后是公众对AI潜在偏见、歧视性决策及其社会影响的深切担忧。

当前大模型训练数据的来源高度不透明，这主要源于三方面。

商业竞争与版权争议是首要障碍。科技公司通常将训练数据视为核心商业机密，担心披露具体来源会让竞争对手轻易复制其模型能力。同时，模型训练大量使用了可能受版权保护的内容（如文本、图片、视频），主动披露可能引发更多的法律纠纷，因此企业倾向于模糊处理。
数据获取的实践存在灰色地带。为了获取海量数据，一些公司可能采取绕过平台防护机制等方式进行数据抓取。即便公司高层有时也可能无法完全清楚具体的数据来源，这使得系统性的披露变得困难。
数据源的构成存在严重失衡。用于训练的数据严重偏向西方世界，超过90%的数据来自欧洲和北美，而非洲的数据占比不足4%。英语内容在互联网和训练数据中占据绝对主导，这导致模型难以理解和代表非西方文化及非英语语境。此外，视频数据来源高度集中，例如超过70%的视频数据可能来自单一平台如YouTube，这使得数据多样性受限，权力过于集中。

公开数据来源和进行独立的偏见审计，对于构建可信的AI生态系统至关重要。

增强模型可信度与社会公平：通过公开数据来源，外部研究人员能够评估数据集的代表性和广泛性，从而判断模型可能存在的盲点或偏见。独立的偏见审计能够评估AI系统在敏感领域（如招聘、信贷）是否产生歧视性决策，促进技术应用的公平性。
助力监管合规与风险防范：欧盟的《人工智能法案》等法规已要求披露是否使用受版权保护的材料进行训练。提前做好数据来源管理和审计准备，有助于企业应对未来更严格的监管要求。透明的数据实践也能帮助更快地追溯和解决模型生成虚假信息、侵权内容等问题。
推动技术改进与公众监督：详细的数据来源信息能帮助开发者和研究者更好地理解模型输出结果的局限性，从而有针对性地优化模型。透明度是公众信任的基石。当公众能够了解AI的“食谱”（数据来源）和“体检报告”（偏见审计），他们才能更有效地参与监督和讨论AI技术的发展边界。

要实现有意义的透明度，需要多方共同努力，并克服以下挑战。

实现路径：
- 分级分类披露：一种可行的方式是推行分级披露机制。对公众和研究人员披露数据的大类来源、地域分布、语种比例等宏观信息；对监管机构则可能需要在审计或特定法律程序下提供更详细的信息。
- 强化第三方审计：建立独立的、受到认可的第三方审计框架和标准至关重要。审计方需要具备相应的技术能力，并确保其独立性和公正性。
- 发展技术工具：鼓励开发和应用可解释AI（XAI）技术、数据溯源技术等，从技术层面提升模型可解释性和数据追溯能力。
- 鼓励公众参与：通过建立线上平台、举办听证会、推广AI素养教育等方式，促进公众与专家、业界的交流，形成社会共识，共同推动治理。
面临的挑战：
- 商业机密与透明的平衡：如何在保护企业核心知识产权与满足透明度要求之间找到平衡点，是一大挑战。
- 审计标准与成本：建立全球或行业公认的审计标准需要时间。同时，严谨的审计成本不菲，这可能成为中小企业的一道门槛。
- 数据的动态性：大模型通常会持续学习和更新，其训练数据池也是动态变化的，这给持续性的监督和审计带来了复杂性。