新闻资讯，AI大模型“爆发”须防范数据法律风险

新闻资讯：AI大模型“爆发”须防范数据法律风险

2025-3-21 点击关注我们

在科技飞速发展的当下，AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域，深度融入人们的生活与工作，为社会带来了前所未有的便利与效益。

然而，繁荣背后潜藏危机，AI大模型在训练和应用过程中，面临着一系列复杂的数据法律风险。这些风险不仅关乎个人隐私、企业核心利益，更对社会的安全稳定和长远发展构成威胁。深入剖析并妥善应对这些风险，已成为推动AI大模型技术长远发展的关键所在。

一、AI大模型训练环节的数据法律风险

AI大模型训练需要海量数据(15.890, -0.14, -0.87%)的支撑，数据来源广泛，涵盖公开数据集、网络爬取数据、用户生成内容等多个渠道。但这种多元的数据来源，也为AI大模型带来了侵权风险、数据偏差风险以及信息泄露等法律风险。

AI大模型训练所依赖的数据量极为庞大，其中包含了大量受著作权保护的作品。在获取和使用这些数据时，开发者稍有疏忽，就可能陷入著作权侵权的困境。近年来，相关法律纠纷不断涌现。《纽约时报》起诉OpenAI公司，指控其非法复制数百万篇文章用于ChatGPT大模型训练，索赔金额高达数十亿美元；三位美国作者对Anthropic PBC发起诉讼，称其未经授权使用大量书籍训练Claude大模型；2023年美国作家协会起诉Meta非法使用书籍数据。这些案例充分表明，大模型训练中的著作权侵权问题已不容忽视。

与此同时，大模型预训练数据中往往包含大量个人信息，未经用户同意收集和使用其数据，也会违反个人信息保护相关规则。但是依据《个人信息保护法》，处理个人信息有着严格规范。大模型开发者获取海量个人信息数据用于训练的成本极高，几乎不可能获得每位信息主体的同意。在当前大模型的技术环境下，对于已公开的个人信息“合理范围”的界定也极为模糊。以ChatGPT为例，其采用“机器学习即服务”（MLaaS）的运营模式，用户输入的数据信息会被开发者获取，也意味着用户的个人信息时刻处于风险之中。

训练数据质量直接决定了AI大模型的性能和输出结果，低质量的数据可能导致模型产生错误的预测和决策，甚至可能引发严重的安全事故。数据偏差风险主要体现在价值性偏差、时效性偏差和真实性偏差三个方面。若训练数据中存在歧视、暴力、情色等不良内容，大模型学习后输出的信息也可能带有价值偏差。GPT类大模型训练时常用超大规模无人工标注数据，虽然扩大了训练数据规模，但这些数据质量参差不齐，包含大量价值偏差内容。尽管开发者尝试通过微调、基于人类反馈的强化学习等技术手段来减少此类风险，但是由于大模型机器学习过程存在技术黑箱特性，这些方法难以彻底避免价值性偏差信息的输出。

同时，各类AI大模型的训练数据存在时效滞后问题，无法及时融入最新数据。这决定了大模型无法像搜索引擎那样即时获取最新的信息。比如ChatGPT刚推出时，其基于的GPT-3.5预训练数据截至2021年12月，这就造成答案可能滞后或不准确。即便部分模型提供联网检索功能，也未能从根本上解决训练数据时效性偏差的问题。

此外，AI大模型训练数据不够，会导致输出的信息与真实情况不符，也就是所谓的“幻觉”现象，例如利用一些AI大模型搜集法律案例，结果输出一些并不存在的司法案例。特别是由于存在错误数据信息注入、偏见强化、恶意内容嵌入等问题，可能导致模型生成误导性内容，也会带来难以估量的社会风险。例如，科大讯飞(51.850, -0.30, -0.58%)AI学习机就曾因内容审核不严格，导致不当内容被用于数据训练，引发舆情事件致使市值蒸发百亿元。

AI大模型训练过程涉及大量敏感数据，如个人隐私数据、商业机密数据等，一旦这些数据在训练过程中泄露，将给个人和企业带来巨大损失。数据泄露风险主要来源于数据存储和传输过程中的安全漏洞，以及数据访问和使用的权限管理不当。用户使用时输入的数据可能被用于模型升级迭代，若这些数据包含商业秘密或个人隐私，无疑增加了用户数据泄露的风险。例如，2023年韩国三星电子员工因违规使用ChatGPT，导致半导体机密资料外泄，给企业造成了严重的经济损失。此外，对GPT-2的研究发现，能够通过技术手段抽取其预训练时的训练数据，还可通过特定提示词诱导大模型输出其他用户输入的外部数据。

二、AI大模型应用场景中的数据风险类型

在AI大模型的实际应用过程中，同样存在着多种数据风险。这些风险不仅影响用户体验，还可能对社会秩序和公共利益造成损害。从知识产权角度看，AI生成的图像或文本可能未经授权使用了他人的作品或形象，就构成侵权。例如，一些AI绘画作品可能因借鉴了他人的创作元素而引发著作权纠纷。AI生成内容若涉及对他人肖像权、名誉权的侵害，同样会引发人格权法律纠纷。此外，AI生成的内容还可能包含虚假信息、误导性内容或有害内容，这些内容可能对社会秩序和公共利益造成损害，扰乱正常的社会舆论环境。

AI大模型还存在被恶意利用的风险。其中，模型越狱（Jailbreaking）是较为突出的问题。模型越狱主要是用户利用一些巧妙设计的指令，逃避AI大模型预先设置的安全防护规则，让模型生成不符合伦理道德、违法内容。一些用户可能利用模型越狱技术获取模型的敏感信息（如训练数据、模型参数等），或者是让模型生成有害内容（如恶意软件代码、煽动性言论等）。基于此，耶鲁大学计算机科学教授阿明·卡巴西指出，“大模型驱动的机器人(20.800, -0.19, -0.91%)在现实世界中的越狱威胁将达到全新的高度”。不法分子如果绕过AI大模型的安全防护，操控机器人执行破坏性的任务，比如控制自动驾驶汽车撞向行人，或是将机器狗引导到敏感地点实施爆炸任务，这将严重威胁人类社会的安全稳定。

随着AI大模型的广泛应用，大模型的网络安全日益重要。2025年1月，DeepSeek连续遭遇HailBot和RapperBot僵尸网络的TB级DDoS攻击，导致大模型服务多次中断，给用户带来极大不便。AI在数据授权方面，企业未对数据进行合法授权的二次使用，可能构成不正当竞争行为。因此，AI大模型的数据使用不合规，不仅影响AI模型的性能，还可能涉及数据提供者、模型开发者和使用者之间的复杂法律责任问题。此外，在数据跨境传输方面，AIGC服务提供者将数据传输至境外时，若不符合相关规定，会触发数据出境合规义务要求。

三、应对AI大模型数据法律风险的策略

面对AI大模型数据法律风险，必须积极采取有效策略加以应对。通过完善法律规制体系、运用技术手段以及强化保障措施等多方面努力，为AI大模型的健康发展保驾护航。

第一，需要完善AI大模型数据法律规则体系。在著作权方面，可考虑将使用作品类数据进行AI大模型预训练设定为著作权的合理使用方式之一，但要平衡好著作权人与开发者的利益。允许著作权人明确表示不同意作品用于AI大模型预训练，同时通过征收著作权补偿金成立公益性基金会，激励文化艺术创作。

在个人信息保护方面，调整《个人信息保护法》相关规定。对于普通个人信息，设定“默示同意”规则，只要信息主体未特别声明，默认同意其普通个人信息被用于大模型预训练；对于敏感个人信息，坚持“明示同意”规则。笔者建议，可将AI大模型开发者处理已公开个人信息的“合理范围”，界定在不侵害信息主体人格权的底线之上。可以通过设定具体法律责任，督促大模型开发者防范数据偏差风险。对于AI大模型输出价值偏差信息的情况，明确开发者应承担的行政法律责任，避免民事法律责任约束不足和刑事法律责任过重的问题。对于AI大模型数据泄露风险，明确开发者在数据安全保护方面的义务和责任，对违规行为进行严厉处罚。

第二，需要运用多种技术手段，构建AI大模型安全防护闭环，提升数据安全性和准确性。在AI大模型训练过程中，为了保持模型性能，有必要根据训练进度自动调整数据保护强度，既不让隐私泄露又能保持模型准确性。通过同态加密技术让AI在加密数据上进行计算，可以确保数据在计算过程中的安全性，并且在不影响数据分析准确性的前提下，可以向查询结果添加噪声，或者是采用分布式协作让万千台设备合作完成大模型训练，以全面提升AI大模型的数据保护能级。

在AI大模型应用过程中，可以通过多模态交叉验证、知识图谱、混合防御等技术，加强数据验证和污染检测，不断优化模型数据防护系统。具体技术上，多模态交叉验证系统就像给AI配备了“火眼金睛”，能同时核对文字、图片、视频之间的关联性，清除生成结果中的虚假描述。知识图谱系统则相当于内置的“核查员”，每秒能比对数百万条信息，确保AI不会生成出自相矛盾的内容。混合防御更是让AI大模型在具体应用场景中拥有“自我净化”能力，采用“基线对抗训练+实时动态防护”的混合防御模式，可延长大模型在真实复杂应用场景中的安全生命周期。

第三，应强化数据安全保障措施，建立数据监测和预警机制。为防范AI大模型可能出现的越狱风险、侵权风险，需要将AI技术与伦理和行为建模深入结合，在模型设计和开发阶段，应采用先进的安全技术和算法，提高AI大模型的安全性；在AI大模型部署和应用阶段，应进行严格的安全测试和评估，持续进化融合确保适应不同场景的需求，找到数据保护和模型性能之间最佳的平衡点。

同时，应建立健全AI大模型安全管理制度，对企业员工展开数据合规培训，提高员工的数据安全意识和合规操作技能。在AI大模型数据采集、存储、使用、共享等各个环节，通过解析模型内部推导过程，实时监控数据的使用和传输情况，及时发现和处理数据安全隐患，确保AI大模型服务的稳定运行。

总而言之，AI大模型是科技迭代更新的重要推动者，应用场景已经扩展到金融、医疗、制造等多个领域，但也伴随着诸多数据法律风险，以及还可能引发就业、人机矛盾等社会问题。为确保AI大模型的可持续发展，我们必须高度重视这些法律风险，多举措完善AI大模型的数据风险规制机制，进一步实现智能化科技创新与社会公共利益的动态平衡。

（作者孙伯龙为杭州师范大学副教授、财税法研究中心主任，译有泽维尔·奥伯森所著《对机器人征税：如何使数字经济适应AI？》）

阅读：39