生成式人工智能(“AIGC”)作為人工智能領域的一項革命性技術,正迅速改變著內容創作的生態。AIGC技術通過深度學習模型,能夠自動生成文字、圖像、音頻、視頻等多種形式的內容,為創意產業帶來了前所未有的機遇。然而,隨著技術的快速發展,數據方面的問題也逐漸顯現,成為制約AIGC健康發展的關鍵因素之一。2023年8月15日生效的《生成式人工智能服務管理暫行辦法》(“《暫行辦法》”)旨在通過法律手段引導和促進AIGC技術的合規使用,保護數據安全,尊重知識產權和個人隱私,同時防止數據偏見和歧視的產生。
本文將從模型訓練、模型應用以及模型優化三個階段對AIGC可能涉及的數據合規風險進行分析,并為AIGC技術支持方、AIGC平臺運營方 [1] 以及AIGC服務使用者等提供相關合規建議。
一、 模型訓練階段
《暫行辦法》第七條規定,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:(一)使用具有合法來源的數據和基礎模型;(二)涉及知識產權的,不得侵害他人依法享有的知識產權;(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;(四)采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性;(五)《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》等法律、行政法規的其他有關規定和有關主管部門的相關監管要求。第八條規定,在生成式人工智能技術研發過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升尊法守法意識,監督指導標注人員規范開展標注工作。
結合上述規定,模型訓練階段數據合規相關的要素主要涉及訓練數據來源以及數據質量兩方面。
(一) 數據來源
訓練數據來源合法是訓練數據合規討論的起點,AIGC技術支持方往往會通過公開收集、自行采集、第三方采購等方式獲取訓練數據,在該等過程中其可能面臨的主要風險如下:
1. 侵犯知識產權
《中華人民共和國著作權法》(“《著作權法》”)第五十三條規定,有下列侵權行為的,應當根據情況,承擔本法第五十二條規定的民事責任……:(一)未經著作權人許可,復制、發行、表演、放映、廣播、匯編、通過信息網絡向公眾傳播其作品的,本法另有規定的除外;……
基于上述規定,如果AIGC技術支持方獲取的數據包含受著作權等知識產權保護的材料,倘若其并未獲得完整授權,往往涉及著作權等知識產權侵權。例如,在采用爬蟲方式獲取的情況下,無論是網絡上的文章、圖片、用戶評論乃至網站自身的數據庫,都有可能在具備獨創性的情況下構成著作權法意義上的作品,不論其在原網站上是否可免費公開訪問,未經許可對于該等數據的抓取和使用可能構成著作權侵權。
值得探討的是,AIGC技術支持方獲取數據后用于模型訓練的行為是否適用“合理使用”。一方面,AIGC技術支持方一般會將相關訓練數據復制或者下載到自己所有或者第三方服務器中進行保存以便于使用,該種行為往往涉及著作權中的“復制”行為,且AIGC技術支持方對訓練數據的使用一般系用于自身商業目的之使用,似乎很難滿足《著作權法》明確規定的“合理使用”的條件。但另一方面,大模型訓練對于作品的復制是“中間復制”,即在大模型訓練階段,盡管可能涉及對于訓練數據(其中可能含有大量受著作權法保護的作品)的復制,但該等復制件并不是大模型產品的最終形態。通常情況下,AIGC技術支持方也不會對外傳播、展示該等復制件。此外,從使用目的的角度,事實上,AIGC技術支持方復制訓練數據并對相關訓練數據進行清洗、標注等預處理步驟,其目的是將訓練數據轉化為便于機器理解的數值數據,以便對其內含規律、特征進行總結和學習。因此,大模型訓練是否適用合理使用原則值得深入探討。
此外,根據《中華人民共和國反不正當競爭法》(“《反不正當競爭法》”),商業秘密是指不為公眾所知悉、具有商業價值并經權利人采取相應保密措施的技術信息、經營信息等商業信息。在AIGC技術支持方獲取訓練數據的過程中,倘若相關數據構成商業秘密,AIGC技術支持方未能識別且未經授權使用該等數據,便可能構成商業秘密侵權,需要承擔商業秘密侵權責任。
2. 不正當競爭
實踐中,AIGC技術支持方往往會通過爬蟲等技術手段取得訓練數據,可能存在構成不正當競爭的風險。《中華人民共和國民法典》(“《民法典》”)第一百二十七條規定,法律對數據、網絡虛擬財產的保護有規定的,依照其規定。這是數據權益保護的法律基礎。盡管如此,該條款僅為框架性、引致性規定,并未對數據的權利屬性及保護要求作出具體規定。司法實踐中,對于非法爬取數據的行為,法院更傾向于援引《反不正當競爭法》的相關規定。
《反不正當競爭法》第二條規定,經營者在市場交易中,應當遵循自愿、平等、公平、誠實信用的原則,遵守公認的商業道德。使用爬蟲技術繞開robots協議(尤其是目標網站所采用的Disallow語句)爬取相關數據的行為將有可能被認定為違反了上述“公認的商業道德”,進而被認定為構成不正當競爭行為,相關技術的使用方也需要承擔停止侵害、損害賠償等責任。更進一步地,如果爬蟲的使用干擾了被訪問網站的正常運行,或者用于替代被爬取方的服務,被認定為構成不正當競爭的可能性更高。
例如,在抓取使用房產交易信息平臺房源數據案 [2] 中,法院認為,S公司以技術手段大規模抓取涉案數據,并將涉案數據存儲在自有服務器后去除原平臺網站水印、加入其他主體水印,傳播至社交媒體和第三方房產信息平臺等,為“虛假房源”發布提供了重要工具和便利條件,客觀上助長了“虛假房源”蔓延,明顯違背房產經紀行業的誠信原則和商業道德。而且,S公司在訴訟中已明確承諾立即停止被訴行為的同時,又以更隱蔽的方式變相、持續實施被訴行為,主觀惡意極為明顯。被訴行為搶奪了本屬于L公司的用戶流量,影響了用戶粘性和信賴度,使消費者知情權、選擇權和交易安全因“虛假房源”直接受損,使靠誠信經營獲取競爭優勢的經營者無法獲得有效激勵,破壞了房產經紀行業的競爭生態和秩序,構成不正當競爭行為。
3. 侵犯人格權
《民法典》第九百九十條規定,人格權是民事主體享有的生命權、身體權、健康權、姓名權、名稱權、肖像權、名譽權、榮譽權、隱私權等權利。除前款規定的人格權外,自然人享有基于人身自由、人格尊嚴產生的其他人格權益?!睹穹ǖ洹返诰虐倬攀粭l規定,民事主體的人格權受法律保護,任何組織或者個人不得侵害。特別地,《民法典》第一千零一十八條規定,自然人享有肖像權,有權依法制作、使用、公開或者許可他人使用自己的肖像。第一千零一十九條規定,任何組織或者個人不得以丑化、污損,或者利用信息技術手段偽造等方式侵害他人的肖像權。未經肖像權人同意,不得制作、使用、公開肖像權人的肖像,但是法律另有規定的除外。第一千零二十三條規定,對自然人聲音的保護,參照適用肖像權保護的有關規定。
實踐中,考慮到訓練數據可能包含了圖片、影片等內容,倘若這些數據中的肖像或聲音能反映自然人的特征,或者社會大眾能夠通過相關形象或聲音與自然人的真實特征聯系起來,該等形象或聲音都有可能被視為屬于自然人肖像權和聲音權的范疇,AIGC技術支持方使用相關訓練數據應當就該等自然人的肖像或聲音取得授權,否則將可能構成侵權。
4. 侵害個人信息
《中華人民共和國網絡安全法》第四十四條規定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息。《中華人民共和國個人信息保護法》(“《個人信息保護法》”)第二十七條規定,個人信息處理者可以在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息;個人明確拒絕的除外。個人信息處理者處理已公開的個人信息,對個人權益有重大影響的,應當依照本法規定取得個人同意。特別地,處理敏感個人信息還用當取得個人的單獨同意。因此,如果AIGC技術支持方獲取的用于模型訓練的數據包含個人信息,則應當遵守上述《個人信息保護法》的相關規定,在未經用戶同意的情況下收集用戶的個人信息,則可能構成侵害個人信息的違法行為。
5. 處理核心數據、重要數據
《中華人民共和國數據安全法》(“《數據安全法》”)第二十一條規定,核心數據是指“關系國家安全、國民經濟命脈、重要民生、重大公共利益等數據”?!稊祿鼍嘲踩u估辦法》第十九條規定,重要數據是指“一旦遭到篡改、破壞、泄露或者非法獲取、非法利用等,可能危害國家安全、經濟運行、社會穩定、公共健康和安全等的數據”。目前,諸多地方、各行業以及部分先行區已出臺規則或目錄明確核心數據和重要數據。例如,工業和信息化部在《工業和信息化領域數據安全管理辦法(試行)》中,對工業和信息化領域重要數據、核心數據的認定標準進行了細化;五部門聯合發布的《汽車數據安全管理若干規定(試行)》中,劃定了六條汽車行業重要數據的認定范圍。倘若AIGC技術支持方用于訓練大模型的數據涉及核心數據、重要數據,其需要履行一系列更為嚴格的義務,且各行業的具體義務履行方式各有差異,包括但不限于:(1)向監管履行義務,例如在其所在地區行業監管部門備案并持續就備案內容變化履行變更手續、開展風險評估并報送風險評估報告、定期報送數據安全管理情況;(2)數據安全管理義務,例如建立單位相關部門的數據安全工作體系并明確數據安全責任、根據數據安全級別采取相應安全措施等。
因此,AIGC技術支持方需要識別出訓練數據中可能包含的重要數據、核心數據,進而根據其所屬行業、地區以及保密級別針對性地履行相關合規義務。盡管如此,當前核心數據、重要數據的認定標準及目錄分散在各部門規章、行業標準及地方性法規中,AIGC技術支持方可能難以確保這一識別工作的準確性和完整性,進而難以在此基礎上充分履行合規義務。
6. 刑事風險
根據《中華人民共和國刑法》(“《刑法》”)第二百八十五條和第二百八十六條,未經授權獲取“計算機信息系統中存儲、處理或者傳輸的數據”,“對計算機信息系統實施非法控制”,或者對計算機信息系統功能進行干擾,情節嚴重的可能會受到刑事處罰。例如,倘若AIGC技術支持方故意避開或強行突破網站的反爬蟲技術設置,或者侵入《刑法》第二百八十五條第一款 [3] 規定以外的計算機信息系統但網絡爬蟲過快或大量重復訪問,大量占用服務器帶寬和運算能力、大幅度增加計算機處理負擔,進而干擾計算機信息系統正常運行且后果嚴重,可能會涉及刑事責任。
AIGC技術支持方在模型訓練階段訓練數據獲取TIPs:
? 取得訓練數據權利主體授權同意:實踐中,模型訓練需要海量的數據,獲得每一個數據主體的授權一般難以實現。但對于某些風險較大的數據,例如生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等信息等敏感個人信息,AIGC技術支持方應當取得相關權利主體的單獨的授權同意。
? 合法使用爬蟲等技術手段:AIGC技術支持方在通過爬蟲等技術手段獲取訓練數據時,不可突破、繞開技術措施爬取數據,并遵守Robots協議;避免爬取個人信息、他人享有著作權的作品等;避免大量、高頻的爬取數據,防止破壞網站正常經營。此外,在爬取并使用開源數據集時,AIGC技術支持方還需要遵守開源許可證相關要求。
? 避免收集處理核心數據和重要數據:原則上避免收集處理包含有核心數據、重要數據的訓練數據,同時對核心數據、重要數據的識別工作進行關注,一旦用于模型訓練的訓練數據被識別或認定為核心數據或重要數據,AIGC技術支持方需要對該等核心數據或重要數據進行重點保護,履行數據處理者的相關義務。
? 嚴格審查第三方采購數據來源:AIGC技術支持方在從第三方數據供應商處采購訓練數據時,應當與第三方數據供應商簽訂明確的合作協議,要求其對相關訓練數據的知識產權、涉及第三方的民事權益(包括但不限于人格權、個人信息等)進行不侵權的陳述保證,同時要求該等數據供應商保證授權鏈條的完整性。
? 建立數據合規管理和技術應對方案:AIGC技術支持方還應當遵守相關的數據保護法規和AI倫理準則,利用技術手段建立健全風險應對方案,比如數據加密、匿名化處理等,對訓練數據的使用、披露范圍進行嚴格控制,保護相關訓練數據不被未授權者訪問,以降低可能得侵權風險。
(二) 數據質量
訓練大模型需要大規模、高質量、多模態的數據集,通常需要從各個領域和多個數據源收集數據,數據質量直接影響到模型訓練的效果。高質量的數據應具備準確性和代表性,能夠全面反映模型需要學習的特征和模式。數據標注的準確性對于模型的理解能力同樣至關重要。標注不僅需要精確無誤,還應遵循道德和法律標準,尊重數據中涉及的所有個體的權利,包括但不限于避免偏見、歧視以及確保數據的多樣性和包容性。具體而言,AIGC技術支持方在訓練數據質量方面可能面臨的主要風險如下:
1. 標注數據質量參差不齊生成誤導性內容
一方面,數據標注的不一致性可能使模型對特定類別的識別產生偏差。例如,在圖像識別任務中,如果標注者對圖像中的對象識別標準不一,模型可能會混淆不同類別,導致生成的內容與實際情況不符。另一方面,數據集中的錯誤和噪聲會削弱模型的泛化能力。當數據集中包含大量錯誤標注的樣本時,模型可能會學習到這些錯誤特征,而非真實的數據分布,進而影響模型在面對新數據時的表現。此外,數據標注的偏見可能導致模型生成具有歧視性的內容。如果標注者在標注過程中受到自身偏見的影響,模型可能會學習并復制這些偏見,進而在生成內容時表現出不公平。
2. 訓練數據缺乏多樣性導致價值觀偏差
一方面,訓練數據缺乏多樣性可能導致模型對某些群體或文化的理解存在偏差。如果訓練數據主要來源于特定地區或社會群體,模型可能會過度強調這些群體的價值觀和觀點,而忽視其他群體的聲音,進而導致生成的內容在文化多樣性和包容性方面存在缺陷。另一方面,訓練數據的局限性還可能導致模型在處理復雜主題和抽象概念時表現不佳。復雜主題和抽象概念往往需要更廣泛的知識和更深入的理解。如果訓練數據缺乏這些方面的數據,模型可能無法生成深入、全面的內容,使得其在專業領域的應用效果受到影響。此外,訓練數據的偏差也可能導致模型在生成內容時表現出不公正的傾向。如果訓練數據中存在性別、種族或社會地位等方面的偏見,模型可能會在生成內容時復制這些偏見,導致生成的內容帶有歧視性。
3. 訓練數據時效性偏差降低模型可信度
一方面,訓練數據的時效性偏差可能使模型在處理最新事件或趨勢時顯得力不從心。例如,在新聞報道或市場分析等領域,如果模型依賴的是過時的數據,其生成的內容可能無法準確反映最新的發展動態,從而誤導用戶決策。另一方面,訓練數據的時效性不足可能影響模型在特定領域的專業性和權威性。在法律、醫療等專業領域,知識的更新換代非???,如果模型所依賴的訓練數據未能跟上最新的研究成果或法規變化,其生成的內容可能失去專業性,甚至產生誤導。此外,訓練數據的時效性問題還可能引發用戶的不信任。用戶期望模型能夠提供準確、可靠的信息。如果模型頻繁輸出過時或不準確的內容,用戶可能會對模型的可信度產生質疑,進而影響模型的長期發展。
AIGC技術支持方在模型訓練階段訓練數據質量管理TIPs:
? 采取嚴格的數據質量管理措施:對訓練數據質量進行嚴格管理,包括數據清洗、標注者培訓、多輪標注和驗證等;持續監控和評估模型的輸出內容,確保其質量和安全性,最大限度地減少數據標注質量參差不齊帶來的風險,提高模型的可靠性和有效性。
? 提升訓練數據多樣性:確保訓練數據具有足夠的代表性,涵蓋不同的文化、地區和社會群體;對訓練數據進行細致的分析和篩選,以確保其質量和多樣性;對模型進行持續的監控和評估,以確保其生成的內容符合社會價值觀和倫理標準。
? 定期更新并監控訓練數據:定期更新訓練數據,確保其反映的信息與當前實際情況相符;建立有效的數據監控和反饋機制,及時發現并糾正訓練數據中的時效性問題;加強與專業領域的合作,確保模型能夠及時吸收最新的研究成果和知識更新。
二、 模型應用階段
《暫行辦法》第十一條規定,提供者對使用者的輸入信息和使用記錄應當依法履行保護義務,不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求。在模型應用階段,AIGC服務提供者需要處理AIGC服務使用者在使用AIGC服務時輸入的相關數據,在該等過程中,AIGC服務提供者和AIGC服務使用者均可能面臨一定的數據合規風險,主要如下:
(一) 數據處理
1. 處理個人信息不具備合法性基礎
《個人信息保護法》第五條規定,處理個人信息應當遵循合法、正當、必要和誠信原則,不得通過誤導、欺詐、脅迫等方式處理個人信息。第六條規定,處理個人信息應當具有明確、合理的目的,并應當與處理目的直接相關,采取對個人權益影響最小的方式。收集個人信息,應當限于實現處理目的的最小范圍,不得過度收集個人信息。第七條規定,處理個人信息應當遵循公開、透明原則,公開個人信息處理規則,明示處理的目的、方式和范圍。第十條規定,任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息;不得從事危害國家安全、公共利益的個人信息處理活動?!稌盒修k法》第十一條相關規定正是對《個人信息保護法》所確立的上述原則在人工智能語境下的重申。實踐中,通常由直接面向AIGC服務使用者提供服務的AIGC服務提供者履行上述義務,在AIGC服務提供者超范圍或者非法處理AIGC服務使用者的個人信息的情況下還需承擔相應的法律責任。
2. 數據跨境傳輸風險
在AIGC服務提供者通過API等方式介入境外服務商提供的服務或AIGC服務提供者將自身的服務器部署在境外的情況下,AIGC服務使用者在使用相關服務時上傳的數據可能被傳輸至境外,考慮到AIGC服務提供者向境外提供的數據類型存在很大不確定性,因此可能觸發相關的數據出境合規義務要求。根據《數據安全法》《個人信息保護法》以及《數據出境安全評估辦法》等相關規定,我國明確了數據出境的三條主要路徑,包括通過國家網信部門組織的安全評估、經專業機構進行個人信息保護認證、或者按照國家網信部門制定的標準合同與境外接收方訂立合同約定雙方的權利和義務。與此同時,《促進和規范數據跨境流動的重要規定》還規定了數據出境的幾種豁免情形,例如出境數據不包含個人信息或者重要數據、或預計一年內向境外提供不滿1萬人個人信息等情況的,則不需要申報安全評估、標準合同備案或通過認證。
3. 數據主體權利保障缺失
《個人信息保護法》通過原則性條款明確了個人對其個人信息的處理享有知情權、決定權,以及有權限制或者拒絕他人對其個人信息進行處理,并具體規定了查閱復制和轉移權、更正和補充權、刪除權、要求解釋權等。同時,《個人信息保護法》還要求企業作為個人信息處理者應當建立便捷的個人行使權利的申請受理和處理機制,拒絕個人行使權利的請求的,應當說明理由。個人信息處理者若拒絕個人行使權利的請求,則個人信息主體可向法院提起訴訟。因此AIGC服務提供者應審慎對待AIGC服務使用者的行權請求并及時響應,不能以存在困難為由不處理或不及時處理。
AIGC服務提供者在模型應用階段數據處理TIPs:
? 確保處理個人信息具備合法性基礎:AIGC服務提供者處理AIGC服務使用者的輸入信息和使用記錄等個人信息時,應當明確并向AIGC服務使用者告知處理目的、處理方式及保存期限等,在必要的范圍內基于明確、合理目的,以對AIGC服務使用者權益影響最小的方式、期限進行個人信息處理及保存,不得過度收集AIGC服務使用者的個人信息。
? 履行數據跨境傳輸合規義務:AIGC服務提供者應當結合具體的業務情況和相關法律規定,酌情選擇申報數據出境安全評估、與境外接收方簽訂標準合同、實施個人信息保護認證等方式保證數據出境的合法合規。
? 設置個人信息主體權利響應機制:AIGC服務提供者應當對模型使用過程可能涉及的個人信息進行系統性梳理,設置并公示個人信息主體權利的響應機制,及時受理和處理個人信息主體關于查閱復制、更正補充、刪除、要求解釋說明等要求。
(二) 數據安全
1. 輸入數據包含敏感數據
AIGC服務使用者在使用模型時,倘若輸入的數據包含敏感數據,例如企業內部的敏感文件、企業的商業秘密以及個人信息等,AIGC服務使用者將在不經意間面臨極大的數據泄露風險。例如,在三星員工泄露商業機密的事件中,當員工在使用ChatGPT進行代碼優化或提取會議紀要時,可能會將公司的機密信息提供給供應商OpenAI,從而導致泄密的風險。更進一步地,倘若AIGC服務提供者將AIGC服務使用者輸入的敏感數據作為模型的訓練數據,將會導致二次泄密風險。例如,亞馬遜的公司律師稱,其在ChatGPT生成的內容中發現了與公司機密“非常相似”的文本,可能是由于一些亞馬遜員工在使用ChatGPT生成代碼和文本時輸入了公司內部數據信息,該律師擔心員工輸入的信息可能被用作了ChatGPT迭代優化的訓練數據。
2. 模型數據安全事件
倘若AIGC服務提供者采取的安全防護措施不足,同樣將面臨多重數據泄露風險。黑客可能通過識別并利用模型漏洞,如軟件缺陷或配置不當來獲取未授權的數據訪問權限。此外,通過釣魚攻擊或誘騙等方式也可能使AIGC服務提供者內部人員無意中泄露敏感數據。
AIGC服務提供者和使用者在模型應用階段數據安全管理TIPs:
? 建立外部模型使用管控機制:AIGC服務使用者應對員工使用外部模型作出明確限制,例如,禁止未經許可將內部數據上傳至外部模型,并設置警報機制;又例如,對敏感數據進行加密處理,確保即使相關數據被不合規的上傳,也不會泄露文件內容。
? 提示避免輸入敏感數據:AIGC服務提供者可以通過用戶協議、隱私政策或其他形式提示AIGC服務使用者在使用模型時避免輸入敏感數據;在輸入第三方數據時還應當取得第三方的有效授權。
? 制定數據安全事件應急預案:AIGC服務提供者應當構建數據安全管控體系,加強數據全生命周期的安全防護能力,同時,應定期審查和更新安全策略,確保安全措施的有效性和時效性;制定數據安全應急預案,加強風險監測,在發生數據安全事件時應當立即采取補救措施并向有關主管部門報告。
三、 模型優化階段
《暫行辦法》第七條不僅明確了AIGC服務提供者在對模型開展預訓練時應當遵守的合規要求,其同樣適用于AIGC服務提供者對模型開展迭代優化等活動。在模型優化階段,AIGC服務提供者需要關注的主要數據合規風險來自于將AIGC服務使用者輸入的數據作為訓練數據進行模型優化以及未向AIGC服務使用者提供關閉或拒絕處理其輸入數據的路徑。
(一) 使用AIGC服務使用者的輸入數據優化模型
AIGC服務提供者將AIGC服務使用者輸入的數據用于優化模型,模型的性能隨之提升,該等持續的數據迭代和模型訓練形成的“數據飛輪”效應使得模型可以吸引更多的AIGC服務使用者,進而產生更多的數據用于模型優化。然而,倘若AIGC服務提供者并未取得處理相關輸入數據的合法性基礎,例如針對個人信息未取得個人的同意、針對可能涉及的知識產權未取得相應權利人的有效授權等,則AIGC服務提供者未經許可將AIGC服務使用者輸入的數據用以優化模型,很可能構成對AIGC服務使用者或其他權利人合法權益的侵犯。實踐中,AIGC服務提供者一般會通過隱私政策向AIGC服務使用者告知其輸入的數據被用于訓練模型的可能情形。例如,某知名大模型就在其《智能助手用戶隱私協議》明確“我們搜集的上述信息(對話信息)會用于向您提供相關服務,且在經安全加密技術處理、嚴格去標識化且無法重新識別特定個人的前提下,我們可能會將上述信息用于提升和迭代我們產品和服務之目的”;又例如,某知名大模型在其《個人信息保護規則》明確“我們還會使用對話信息提高模型對您輸入內容的理解能力,以便不斷改進模型的識別和響應的速度和質量,提高模型的智能性”。
(二) 未向AIGC服務使用者提供關閉或拒絕處理輸入數據的路徑
《個人信息保護法》分別規定了個人信息的去標識化與匿名化,去標識化是指個人信息經過處理,使其在不借助額外信息的情況下無法識別特定自然人的過程,匿名化是指個人信息經過處理無法識別特定自然人且不能復原的過程。換言之,去標識化處理后的個人信息仍屬于個人信息,而匿名化處理后的個人信息不再屬于個人信息。然而目前相關法律法規并對匿名化的技術要求作進一步規定,因此對個人信息采取的脫敏處理等技術措施可能僅能達到去標識化的效果,而無法實現嚴格意義上的匿名化。在該等情形下,即使AIGC服務使用者在相關隱私政策文件中明確了其已經對AIGC服務使用者輸入數據中可能涉及的個人信息進行了嚴格去標識化處理,仍然可能無法達到《個人信息保護法》意義上的匿名化效果,倘若AIGC服務使用者并不希望AIGC服務提供者將其輸入的數據用于進一步優化模型,根據《個人信息保護法》,AIGC服務使用者有權要求AIGC服務提供者刪除其所收集并不再收集AIGC服務使用者的相關個人信息。
實踐中,AIGC服務提供者通常采取的措施是在隱私政策向AIGC服務使用者提示,如果不希望AIGC服務使用者收集和處理輸入數據,AIGC服務使用者應當謹慎輸入,但是可能會影響部分功能的使用。例如,某知名大模型在其《個人信息保護規則》就明確告知用戶“如您拒絕我們收集和處理前述個人信息,請您謹值輸入前述信息,但因此您可能會影響您正常使用模型提供的部分或全部功能”。此外,還有部分AIGC服務使用者提供了拒絕處理輸入數據的關閉按鈕,例如某知名大模型在其《隱私政策》亦明確告知用戶“如果你不希望你輸入或提供的語音信息用于模型訓練和優化,可以通過關閉‘設置’-‘賬號設置’-‘改進語音服務’來撤回你的授權;如果你不希望其他信息用于模型訓練和優化,可以通過本隱私政策第9條公示的聯系方式與我們聯系,要求撤回使用你的數據用于模型訓練和優化”。
AIGC服務提供者在模型優化階段處理AIGC服務使用者輸入數據TIPs:
? 履行“告知-同意”義務:AIGC服務提供者應當在隱私政策中明確告知AIGC服務使用者將會收集其輸入數據用以訓練模型、優化服務、改進產品等并取得其同意。
? 提供關閉或拒絕處理輸入數據的方式:AIGC服務提供者應當為AIGC服務使用者提供拒絕或關閉其輸入數據用于訓練的方式,例如為AIGC服務使用者提供選項或其他控制指令,且拒絕或關閉方式應當方便快捷。
結語
面對AIGC技術帶來的機遇與挑戰,數據合規不僅是一項法律要求,更是推動技術健康發展的基石。AIGC各主體需要在創新與責任之間找到平衡,在這個過程中不僅要警惕風險,更要積極尋求解決方案,以開放的心態和審慎的行動,共同推動AIGC技術的可持續發展。
[1] 《生成式人工智能服務管理暫行辦法》規定,生成式人工智能服務提供者,是指利用生成式人工智能技術提供生成式人工智能服務(包括通過提供可編程接口等方式提供生成式人工智能服務)的組織、個人。具體來講,AIGC服務提供者又可以分為AIGC技術支持方和AIGC平臺運營方兩類,其中,AIGC技術支持方是指負責AIGC技術性開發的組織、個人,AIGC平臺運營方是指負責AIGC的商業性開發,依據相關規定取得相應資質證照,承擔相應義務與責任,提供AIGC技術應用服務的組織、個人。本文中,為便于厘清不同情形下相關主體可能面臨的風險,在特指負責AIGC技術性開發的組織、個人的情形下,使用“AIGC技術支持方”的表述,其他情形不做另行區分,統一使用“AIGC服務提供者”的表述。
[2] (2022)京73民終4201號。
[3] 《中華人民共和國刑法》第二百八十五條第一款規定,違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。





滬公網安備 31010402007129號