新闻资讯
关于我们 产品中心 解决方案 新闻资讯 客户案例 知识专区 售后服务 联系我们
新闻资讯:AI大模型“爆发”须防范数据法律风险
2025-3-21    点击关注我们

在科技飞速发展的当下,AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域,深度融入人们的生活与工作,为社会带来了前所未有的便利与效益。

然而,繁荣背后潜藏危机,AI大模型在训练和应用过程中,面临着一系列复杂的数据法律风险。这些风险不仅关乎个人隐私、企业核心利益,更对社会的安全稳定和长远发展构成威胁。深入剖析并妥善应对这些风险,已成为推动AI大模型技术长远发展的关键所在。

一、AI大模型训练环节的数据法律风险

AI大模型训练需要海量数据(15.890, -0.14, -0.87%)的支撑,数据来源广泛,涵盖公开数据集、网络爬取数据、用户生成内容等多个渠道。但这种多元的数据来源,也为AI大模型带来了侵权风险、数据偏差风险以及信息泄露等法律风险。

AI大模型训练所依赖的数据量极为庞大,其中包含了大量受著作权保护的作品。在获取和使用这些数据时,开发者稍有疏忽,就可能陷入著作权侵权的困境。近年来,相关法律纠纷不断涌现。《纽约时报》起诉OpenAI公司,指控其非法复制数百万篇文章用于ChatGPT大模型训练,索赔金额高达数十亿美元;三位美国作者对Anthropic PBC发起诉讼,称其未经授权使用大量书籍训练Claude大模型;2023年美国作家协会起诉Meta非法使用书籍数据。这些案例充分表明,大模型训练中的著作权侵权问题已不容忽视。

与此同时,大模型预训练数据中往往包含大量个人信息,未经用户同意收集和使用其数据,也会违反个人信息保护相关规则。但是依据《个人信息保护法》,处理个人信息有着严格规范。大模型开发者获取海量个人信息数据用于训练的成本极高,几乎不可能获得每位信息主体的同意。在当前大模型的技术环境下,对于已公开的个人信息“合理范围”的界定也极为模糊。以ChatGPT为例,其采用“机器学习即服务”(MLaaS)的运营模式,用户输入的数据信息会被开发者获取,也意味着用户的个人信息时刻处于风险之中。

训练数据质量直接决定了AI大模型的性能和输出结果,低质量的数据可能导致模型产生错误的预测和决策,甚至可能引发严重的安全事故。数据偏差风险主要体现在价值性偏差、时效性偏差和真实性偏差三个方面。若训练数据中存在歧视、暴力、情色等不良内容,大模型学习后输出的信息也可能带有价值偏差。GPT类大模型训练时常用超大规模无人工标注数据,虽然扩大了训练数据规模,但这些数据质量参差不齐,包含大量价值偏差内容。尽管开发者尝试通过微调、基于人类反馈的强化学习等技术手段来减少此类风险,但是由于大模型机器学习过程存在技术黑箱特性,这些方法难以彻底避免价值性偏差信息的输出。

同时,各类AI大模型的训练数据存在时效滞后问题,无法及时融入最新数据。这决定了大模型无法像搜索引擎那样即时获取最新的信息。比如ChatGPT刚推出时,其基于的GPT-3.5预训练数据截至2021年12月,这就造成答案可能滞后或不准确。即便部分模型提供联网检索功能,也未能从根本上解决训练数据时效性偏差的问题。

此外,AI大模型训练数据不够,会导致输出的信息与真实情况不符,也就是所谓的“幻觉”现象,例如利用一些AI大模型搜集法律案例,结果输出一些并不存在的司法案例。特别是由于存在错误数据信息注入、偏见强化、恶意内容嵌入等问题,可能导致模型生成误导性内容,也会带来难以估量的社会风险。例如,科大讯飞(51.850, -0.30, -0.58%)AI学习机就曾因内容审核不严格,导致不当内容被用于数据训练,引发舆情事件致使市值蒸发百亿元。

AI大模型训练过程涉及大量敏感数据,如个人隐私数据、商业机密数据等,一旦这些数据在训练过程中泄露,将给个人和企业带来巨大损失。数据泄露风险主要来源于数据存储和传输过程中的安全漏洞,以及数据访问和使用的权限管理不当。用户使用时输入的数据可能被用于模型升级迭代,若这些数据包含商业秘密或个人隐私,无疑增加了用户数据泄露的风险。例如,2023年韩国三星电子员工因违规使用ChatGPT,导致半导体机密资料外泄,给企业造成了严重的经济损失。此外,对GPT-2的研究发现,能够通过技术手段抽取其预训练时的训练数据,还可通过特定提示词诱导大模型输出其他用户输入的外部数据。

二、AI大模型应用场景中的数据风险类型

在AI大模型的实际应用过程中,同样存在着多种数据风险。这些风险不仅影响用户体验,还可能对社会秩序和公共利益造成损害。从知识产权角度看,AI生成的图像或文本可能未经授权使用了他人的作品或形象,就构成侵权。例如,一些AI绘画作品可能因借鉴了他人的创作元素而引发著作权纠纷。AI生成内容若涉及对他人肖像权、名誉权的侵害,同样会引发人格权法律纠纷。此外,AI生成的内容还可能包含虚假信息、误导性内容或有害内容,这些内容可能对社会秩序和公共利益造成损害,扰乱正常的社会舆论环境。

AI大模型还存在被恶意利用的风险。其中,模型越狱(Jailbreaking)是较为突出的问题。模型越狱主要是用户利用一些巧妙设计的指令,逃避AI大模型预先设置的安全防护规则,让模型生成不符合伦理道德、违法内容。一些用户可能利用模型越狱技术获取模型的敏感信息(如训练数据、模型参数等),或者是让模型生成有害内容(如恶意软件代码、煽动性言论等)。基于此,耶鲁大学计算机科学教授阿明·卡巴西指出,“大模型驱动的机器人(20.800, -0.19, -0.91%)在现实世界中的越狱威胁将达到全新的高度”。不法分子如果绕过AI大模型的安全防护,操控机器人执行破坏性的任务,比如控制自动驾驶汽车撞向行人,或是将机器狗引导到敏感地点实施爆炸任务,这将严重威胁人类社会的安全稳定。

随着AI大模型的广泛应用,大模型的网络安全日益重要。2025年1月,DeepSeek连续遭遇HailBot和RapperBot僵尸网络的TB级DDoS攻击,导致大模型服务多次中断,给用户带来极大不便。AI在数据授权方面,企业未对数据进行合法授权的二次使用,可能构成不正当竞争行为。因此,AI大模型的数据使用不合规,不仅影响AI模型的性能,还可能涉及数据提供者、模型开发者和使用者之间的复杂法律责任问题。此外,在数据跨境传输方面,AIGC服务提供者将数据传输至境外时,若不符合相关规定,会触发数据出境合规义务要求。

三、应对AI大模型数据法律风险的策略

面对AI大模型数据法律风险,必须积极采取有效策略加以应对。通过完善法律规制体系、运用技术手段以及强化保障措施等多方面努力,为AI大模型的健康发展保驾护航。

第一,需要完善AI大模型数据法律规则体系。在著作权方面,可考虑将使用作品类数据进行AI大模型预训练设定为著作权的合理使用方式之一,但要平衡好著作权人与开发者的利益。允许著作权人明确表示不同意作品用于AI大模型预训练,同时通过征收著作权补偿金成立公益性基金会,激励文化艺术创作。

在个人信息保护方面,调整《个人信息保护法》相关规定。对于普通个人信息,设定“默示同意”规则,只要信息主体未特别声明,默认同意其普通个人信息被用于大模型预训练;对于敏感个人信息,坚持“明示同意”规则。笔者建议,可将AI大模型开发者处理已公开个人信息的“合理范围”,界定在不侵害信息主体人格权的底线之上。可以通过设定具体法律责任,督促大模型开发者防范数据偏差风险。对于AI大模型输出价值偏差信息的情况,明确开发者应承担的行政法律责任,避免民事法律责任约束不足和刑事法律责任过重的问题。对于AI大模型数据泄露风险,明确开发者在数据安全保护方面的义务和责任,对违规行为进行严厉处罚。

第二,需要运用多种技术手段,构建AI大模型安全防护闭环,提升数据安全性和准确性。在AI大模型训练过程中,为了保持模型性能,有必要根据训练进度自动调整数据保护强度,既不让隐私泄露又能保持模型准确性。通过同态加密技术让AI在加密数据上进行计算,可以确保数据在计算过程中的安全性,并且在不影响数据分析准确性的前提下,可以向查询结果添加噪声,或者是采用分布式协作让万千台设备合作完成大模型训练,以全面提升AI大模型的数据保护能级。

在AI大模型应用过程中,可以通过多模态交叉验证、知识图谱、混合防御等技术,加强数据验证和污染检测,不断优化模型数据防护系统。具体技术上,多模态交叉验证系统就像给AI配备了“火眼金睛”,能同时核对文字、图片、视频之间的关联性,清除生成结果中的虚假描述。知识图谱系统则相当于内置的“核查员”,每秒能比对数百万条信息,确保AI不会生成出自相矛盾的内容。混合防御更是让AI大模型在具体应用场景中拥有“自我净化”能力,采用“基线对抗训练+实时动态防护”的混合防御模式,可延长大模型在真实复杂应用场景中的安全生命周期。

第三,应强化数据安全保障措施,建立数据监测和预警机制。为防范AI大模型可能出现的越狱风险、侵权风险,需要将AI技术与伦理和行为建模深入结合,在模型设计和开发阶段,应采用先进的安全技术和算法,提高AI大模型的安全性;在AI大模型部署和应用阶段,应进行严格的安全测试和评估,持续进化融合确保适应不同场景的需求,找到数据保护和模型性能之间最佳的平衡点。

同时,应建立健全AI大模型安全管理制度,对企业员工展开数据合规培训,提高员工的数据安全意识和合规操作技能。在AI大模型数据采集、存储、使用、共享等各个环节,通过解析模型内部推导过程,实时监控数据的使用和传输情况,及时发现和处理数据安全隐患,确保AI大模型服务的稳定运行。

总而言之,AI大模型是科技迭代更新的重要推动者,应用场景已经扩展到金融、医疗、制造等多个领域,但也伴随着诸多数据法律风险,以及还可能引发就业、人机矛盾等社会问题。为确保AI大模型的可持续发展,我们必须高度重视这些法律风险,多举措完善AI大模型的数据风险规制机制,进一步实现智能化科技创新与社会公共利益的动态平衡。

(作者孙伯龙为杭州师范大学副教授、财税法研究中心主任,译有泽维尔·奥伯森所著《对机器人征税:如何使数字经济适应AI?》)


阅读:39
AI眼镜创新应用不断涌现 市场需求何时爆发?
AI眼镜创新应用不断涌现 市场需求何时爆发?
绑定百度、投资速腾聚创!比亚迪为何频频出手自动驾驶?
绑定百度、投资速腾聚创!比亚迪为何频频出手自动驾驶?
评论丨我国人工智能发展还需要哪些突破?
评论丨我国人工智能发展还需要哪些突破?
富士康宣布2.3亿美元收购通用汽车旧工厂
富士康宣布2.3亿美元收购通用汽车旧工厂
腾讯搁置收购黑鲨手机,减缓硬件投入聚焦软件技术层面
腾讯搁置收购黑鲨手机,减缓硬件投入聚焦软件技术层面
Open RAN处在星星之火的起步阶段 燃起燎原之势的前景可期
Open RAN处在星星之火的起步阶段 燃起燎原之势的前景可期
工信部开展增值电信业务扩大对外开放试点工作
工信部开展增值电信业务扩大对外开放试点工作
亚马逊砍掉在线医疗业务 科技巨头为何做不好互联网医疗?
亚马逊砍掉在线医疗业务 科技巨头为何做不好互联网医疗?
窃听窃照黑产猖獗 插座水杯都可能被改装成“间谍”设备
窃听窃照黑产猖獗 插座水杯都可能被改装成“间谍”设备
全球宽带价格普遍上涨 价格可承受性差距加大
全球宽带价格普遍上涨 价格可承受性差距加大
上一篇:人工智能成两会热词,发展速度“让硅谷震惊”,中国科技热潮刷新外媒印象
下一篇:OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为
关于我们 产品中心 解决方案 新闻资讯 客户案例 知识专区 售后服务 联系我们
我们的联系方式
联系地址:云南省昆明市官渡区永平路188号鑫都韵城写字楼6栋1004号
联系电话:0871-64605728、传真号码:0871-64605728
电子邮箱:19701580@qq.com
点击拨打 0871-64605728 咨询我们
长按指纹即可关注我们
微网站由云港互联设计开发  点击进入
【版权声明】本站部分内容由互联网用户自行发布,著作权或版权归原作者所有。如果侵犯到您的权益请发邮件致info@ynjwz.com,我们会第一时间进行删除并表示歉意。