• 1
  • 2
  • 3

商业洞察

【AI大模型训练】AI大模型-爆发-须防范数据法律风险

查看信息来源】   3-11 7:19:24  
AI大模型

  在科技飞速发展的当下,AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域,深度融入人们的生活与工作,为社会造成了空前绝后的便利与效益。

  然而,繁华背后潜藏危机,AI大模型在训练和应用进程中,面临着一系列复杂的数据法律风险。这些风险不仅关乎个人隐私、企业核心利益,更对社会的安全稳定和长远发展构成要挟。深入剖析并妥善应对这些风险,已成为推动AI大模型技术长远发展的关键所在。

  一、AI大模型训练环节的数据法律风险

  AI大模型训练需要 海量数据 的支撑,数据来源广泛,涵盖公开数据集、网络爬取数据、用户生成内容等多个渠道。但这种多元的数据来源,也为AI大模型造成了侵权风险、数据偏差风险和信息泄露等法律风险。

  AI大模型训练所依赖的数据量极为庞大,其中包含了大量受著作权保护的作品。在获取和使用这些数据时,开发者稍有疏忽,就可能陷入著作权侵权的困境。近年来,相关法律纠纷不断涌现。《纽约时报》起诉OpenAI公司,指控其非法复制数百万篇文章用于ChatGPT大模型训练,索赔金额高达数十亿美元;三位美国作者对Anthropic PBC发起诉讼,称其未经授权使用大量书籍训练Claude大模型;2023年美国作家协会起诉Meta非法使用书籍数据。这些案例充分表明,大模型训练中的作品权侵权问题已不容忽视。

  这时,大模型预训练数据中往往包含大量个人信息,未经用户同意收集和使用其数据,也会违反个人信息保护相关规则。可是依据《个人信息保护法》,处理个人信息有着严格规范。大模型开发者获取海量个人信息数据用于训练的成本极高,几乎不会获得每位信息主体的同意。在现今大模型的技术环境下,对于已公开的个人信息“合理范围”的界定也极为模糊。以ChatGPT为例,其采用“机器学习即服务”(MLaaS)的运营模式,用户输入的数据信息会被开发者获取,也意味着用户的个人信息时刻处于风险之中。

  训练数据质量直接决定了AI大模型的性能和输出结果,低质量的数据可能造成模型发生错误的预测和决策,甚至可能引发严峻的安全事故。数据偏差风险主要体现在价值性偏差、时效性偏差和可靠性偏差三个方面。若训练数据中存在歧视、暴力、情色等不良内容,大模型学习后输出的信息也有可能存在带有价值偏差。GPT类大模型训练时我们时常使用超大规模无人工标注数据,虽然扩大了训练数据规模,但这些数据质量鱼龙混杂,包含大量价值偏差内容。尽管开发者尝试通过微调、基于人类反馈的强化学习等技术手段来减少此类风险,可是由于大模型机器学习过程存在技术黑箱特性,这些方法难以完全避免价值性偏差信息的输出。

  同时,各类AI大模型的练习数据存在时效滞后问题,无法及时融入最新数据。这决定了大模型无法像搜索引擎那样即时获取最新的信息。好比ChatGPT刚推出时,其基于的GPT-3.5预训练数据截至2021年12月,这就造成答案可能滞后或不准确。即便部分模型提供联网检索功能,也未能从根本上解决训练数据时效性偏差的问题。

  另外,AI大模型训练数据不够,会造成输出的信息与实际情况不符,也就是所谓的“幻觉”现象,例如利用一些AI大模型搜集法律案例,结果输出一些其实其实不存在的司法案例。尤其是由于存在错误数据信息注入、偏见强化、恶意内容嵌入等许多问题,可能造成模型生成误导性内容,也会造成难以估量的社会风险。例如, 科大讯飞 AI学习机就曾因内容审核不严格,造成不妥内容被用于数据训练,引发舆情事件致使市值蒸发百亿元人民币。

  AI大模型训练过程涉及大量敏感数据,如个人隐私数据、商业机密数据等,一旦这些数据在训练进程中泄露,将给个人和企业造成巨大损失。数据泄露风险主要来源于数据存储和传输进程中的安全漏洞,和数据访问和使用的权限管理不妥。用户使用时输入的数据可能被用于模型升级迭代,若这些数据包含商业秘密或个人隐私,无疑增加了用户数据泄露的危险。例如,2023年韩国三星电子员工因违规使用ChatGPT,造成半导体机密资料外泄,给企业造成了严峻的经济流失。另外,对GPT-2的研究发现,能够通过技术手段抽取其预训练时的练习数据,还可通过特定提示词诱导大模型输出其它用户输入的外部数据。

  二、AI大模型应用场景中的数据风险类型

  在AI大模型的实际应用进程中,同样存在着多种数据风险。这些风险不仅影响用户体验,还可能对社会秩序和公共利益造成损害。从 知识产权 角度看,AI生成的图像或文本可能未经授权使用了他人的作品或形象,就构成侵权。例如,一些AI绘画作品可能因借鉴了他人的创作元素而引发著作权纠纷。AI生成内容若涉及对他人肖像权、名誉权的侵害,同样会引发人格权法律纠纷。另外,AI生成的内容还可能包含虚假信息、误导性内容或有害内容,这些内容可能对社会秩序和公共利益造成损害,扰乱正常的社会舆论环境。

  AI大模型还存在被恶意利用的危险。其中,模型越狱(Jailbreaking)是较为突出的问题。模型越狱主要是用户利用一些巧妙设计的指令,逃避AI大模型预先设置的安全防护规则,让模型生成不符合伦理道德、违法内容。一些用户可能利用模型越狱技术获取模型的敏感信息(如训练数据、模型参数等),或是让模型生成有害内容(如恶意软件代码、煽动性言论等)。基于此,耶鲁大学计算机科学教授阿明·卡巴西指出,“大模型驱动的 机器人 在现实世界中的越狱要挟将达到全新的高度”。不法之徒如果绕过AI大模型的安全防护,操控 机器人 执行破坏性的任务,好比控制自动驾驶汽车撞向行人,或是将机器狗引导到敏感地点实施爆炸任务,这将严重要挟人类社会的安全稳定。

  随着AI大模型的广泛应用,大模型的 网络安全 日益重要。2025年1月,DeepSeek连续遭遇HailBot和RapperBot僵尸网络的TB级DDoS攻击,造成大模型服务屡次中断,给用户造成极大不便。AI在数据授权方面,企业未对数据进行合法授权的二次使用,可能构成不正当竞争行为。因此,AI大模型的数据使用不合规,不仅影响AI模型的性能,还可能涉及数据提供者、模型开发者和使用者之间的复杂法律责任问题。另外,在数据跨境传输方面,AIGC服务提供者将数据传输至境外时,若不符合有关规定,会触发数据出境合规义务要求。

  三、应对AI大模型数据法律风险的策略

  面对AI大模型数据法律风险,务必积极采取有效策略加以应对。通过完善法律规制体系、运用技术手段和强化保障措施等多方面努力,为AI大模型的健康发展保驾护航。

  第壹,需要完善AI大模型数据法律规则体系。在著作权方面,可考虑将使用作品类数据进行AI大模型预训练设定为著作权的合理使用方式之一,但要平衡好著作权人与开发者的利益。允许著作权人明确表示不同 意作品用于AI大模型预训练,同时通过征收著作权补偿金成立公益性基金会,激励文化艺术创作。

  在个人信息保护方面,调整《个人信息保护法》有关规定。对于普通个人信息,设定“默示同意”规则,只要信息主体未特别声明,默认同意其普通个人信息被用于大模型预训练;对于敏感个人信息,坚持“明示同意”规则。笔者建议,可将AI大模型开发者处理已公开个人信息的“合理范围”,界定在不侵害信息主体人格权的底线之上。可以通过设定具体法律责任,督促大模型开发者防范数据偏差风险。对于AI大模型输出价值偏差信息的情景,明确开发者应承担的行政法律责任,避免民事法律责任约束不足和刑事法律责任过重的问题。对于AI大模型数据泄露风险,明确开发者在 数据安全 保护方面的义务和责任,对违规行为进行严厉处罚。

  第贰,需要运用多种技术手段,构建AI大模型安全防护闭环,提升 数据安全 性和准确性。在AI大模型训练进程中,为了保持模型性能,有必要根据训练进度自动调整数据保护强度,既不让隐私泄露又能保持模型准确性。通过同态加密技术让AI在加密数据上进行计算,可以确保数据在计算进程中的安全性,并且在不影响数据分析准确性的条件下,可以向查询结果添加噪声,或是采用分布式协作让万千台设备合作完成大模型训练,以全面提升AI大模型的数据保护能级。

  在AI大模型应用进程中,可以通过多模态交叉验证、知识图谱、混合防御等技术,强化数据验证和污染检测,不断优化模型数据防护系统。具体技术上,多模态交叉验证系统就像给AI配备了“火眼金睛”,能同时核对文字、图片、视频之间的关联性,清除生成结果中的虚假描述。知识图谱系统则相当于内置的“核查员”,每秒能比对数百万条信息,确保AI不会生成出相互抵触的内容。混合防御更是让AI大模型在具体应用场景中拥有“自我净化”能力,采用“基线对抗训练+实时动态防护”的混合防御模式,可延长大模型在真实复杂应用场景中的安全生命周期。

  第叁,应强化 数据安全 保证措施,建立数据监测和预警机制。为防范AI大模型可能发生的越狱风险、侵权风险,需要将AI技术与伦理和行为建模深入结合,在模型设计和开发阶段,应采用卓越的安全技术和算法,提高AI大模型的安全性;在AI大模型部署和应用阶段,应进行严格的安全测试和评估,持续进化融合确保适应不同场景的切实需求,找到数据保护和模型性能之间最好的平衡点。

  同时,应建立健全AI大模型安全管理制度,对企业员工展开数据合规培训,提高员工的 数据安全 意识和合规操作技能。在AI大模型数据收集、存储、使用、共享等各个环节,通过解析模型内部推导过程,实时监控数据的使用和传输情况,及时发现和处理 数据安全 隐患,确保AI大模型服务的稳定运行。

  总而言之,AI大模型是科技迭代更新的重要推动者,应用场景已经扩展到金融、医疗、制造等多个领域,但也随同着诸多数据法律风险,和还可能引发就业、人机矛盾等社会问题。为确保AI大模型的可持续发展,我们务必高度重视这些法律风险,多举措完善AI大模型的数据风险规制机制,进一步实现智能化科技创新与社会公共利益的动态平衡。

  (作者孙伯龙为杭州师范大学副教授、财税法研究中心主任,译有泽维尔·奥伯森所著《对 机器人 征税:如何使 数字经济 适应AI?》)

安大互联 - 您值得的拥有的网站建设专家
Email:401112684@qq.com
联系QQ:401112684
官方网址:www.fengbaosun.com
手机搜索:进入手机搜索导航>>

Copyright © 2006 www.fengbaosun.com 体中文