前言
隨著人工智能((AI))技術的飛速發展,生成式人工智能已經能夠處理和分析海量數據,生成內容并提供個性化服務,成為推動社會進步的重要力量。作為生成式人工智能發展的重點要求,“內容合規”不僅涉及到技術層面的精確性和安全性,更關乎道德責任和社會影響,要求AI大模型在上游技術開發和下游生成、處理信息時,都應確保相關內容遵循法律法規、尊重社會倫理、保護個人隱私,避免產生有害、不當或違法的內容。
本文結合《生成式人工智能服務管理暫行辦法》(以下簡稱“《AIGC暫行辦法》”)、《互聯網信息服務深度合成管理規定》》(以下簡稱“《深度合成管理規定》”)的相關規定,對模型的技術支持者(即直接參與人工智能大模型技術研究、開發和優化的專業人員或團隊)和服務提供者(即將技術支持者開發的大模型集成整合并以交互界面、可編程接口等形式提供生成式人工智能服務的組織或個人)兩類主體需要分別關注的內容合規要點進行了梳理。
一、 技術支持者角度
在生成式人工智能大模型的技術開發過程中,“語料”的重要性不言而喻。“語料”是指大模型語料,即用于訓練大型機器學習模型,尤其是自然語言處理(NLP)領域的語言模型的大規模文本數據集。其中,“原始語料”是指未經加工處理的原始數據或信息,這些數據或信息通常包括文本、語音、圖像、視頻等多種形式。對于技術支持者而言,語料,特別是原始語料,主要用于大模型的訓練。
根據《AIGC暫行辦法》、《生成式人工智能服務安全基本要求》(以下簡稱“《AIGC安全要求》”)以及其他相關法律法規與行業標準,技術支持者在技術開發、處理原始語料過程中,至少需要注意以下方面的合規要求:
1. 原始語料審核與管理
【要點】
針對所獲取的原始語料,技術支持者至少需要進行初步審核與管理,確保該等用于技術開發的原始語料具有合法來源且符合其他法律法規的要求。
【相應措施】
我們將語料審核與管理的相關要點以及針對每個要點可以考慮的具體措施/要點列示如下:
| 要點 |
具體措施/要求 |
| 安全評估 |
技術支持者面向特定語料來源進行采集前,應對該來源語料進行安全評估,語料內容中含違法不良信息超過5%的,不應采集該來源語料。面向特定語料來源進行采集后,應對所采集的該來源語料進行核驗,含違法不良信息情況超過5%的,不應使用該來源語料進行訓練。
|
| 許可/授權 |
技術支持者使用開源語料時,應具有該語料來源的開源許可協議或相關授權文件。對于匯聚了網絡地址、數據鏈接等能夠指向或生成其他數據的情況,如果需要使用這些被指向或生成的內容作為語料,應將其視同于自采語料;使用自采語料時,應具有采集記錄,不應采集他人已明確不可采集的語料;將使用者輸入信息當作語料時,應具有使用者授權記錄。
|
| 來源證明 |
在使用商業語料時,《AIGC安全要求》提出:應有具備法律效力的交易合同、合作協議等;交易方或合作方不能提供語料來源、質量、安全等方面的承諾以及相關證明材料時,不應使用該語料;應對交易方或合作方所提供語料、承諾、材料進行審核。
|
| 合理阻斷 |
按照我國網絡安全相關法律法規及政策文件要求阻斷的信息,不應作為語料。
|
| 確保多樣性 |
技術支持者應提高語料來源的多樣性,對每一種語言的語料,如中文、英文等,以及每一種類型的語料,如文本、圖片、音頻、視頻等,均應有多個語料來源。
|
| 境內外搭配 |
如需使用境外語料,應合理搭配境內外來源語料。 |
2. 遵守《個人信息保護法》
【要點】
在技術開發過程中,原始語料中可能包含個人信息,處理該等個人信息符合《中華人民共和國個人信息保護法》(“《個人信息保護法》”)下的相關要求。
【相應措施】
技術開發者應當結合語料所涉及的個人信息的具體情況考慮相應的定制化措施。例如,倘若原始語料包含個人信息(即以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理后的信息),視原始語料獲取模式不同,技術支持者和/或原始語料的上游供應商可能構成個人信息處理者,需就處理該等原始語料中的個人信息滿足《個人信息保護法》的相關規定,包括但不限于應當獲取個人信息主體同意等。
3. 避免侵犯知識產權
【要點】
除了數據之外,還需要關注語料所涉及的知識產權問題,特別是相關的著作權、商標和商業秘密。技術支持者對于其用于開展技術開發的語料應擁有原始作品的著作權或其他知識產權,或應當獲得充分的許可。
【相應措施】
技術支持者在獲取、處理和使用原始語料時,必須采取合法手段,確保獲得的授權是完整、全面的,不僅包括對語料的復制權等著作權,還應當根據生成式人工智能的特性,結合具體的使用需求考慮獲得原始語料的改編權和匯編權等權利。同時,考慮到部分語料可能還涉及商業秘密等需要保密的信息,還應當采取適當保密措施。
此外,在技術加工的各個環節都應針對知識產權的問題進行審查,從而避免行為侵犯知識產權。例如,根據《AIGC安全要求》,技術支持者應設置語料以及生成內容的知識產權負責人,并建立知識產權管理策略。因此,技術支持者可以考慮指派具有專業知識的人員或團隊,負責處理與語料相關的知識產權事宜,同時建立知識產權相關管理策略,明確在技術開發過程中對于語料使用的知識產權識別、分類、審查和合規性措施,確保所有使用的語料符合知識產權相關的法律法規。
4. 提高訓練數據質量
【要點】
根據《AIGC暫行辦法》第七條,生成式人工智能服務提供者依法開展訓練數據處理活動時,應當采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性。
【相應措施】
技術支持者應采取一系列綜合性措施以提升數據的整體質量,例如事先擬定提高訓練數據質量的基本要求,包括可采取的技術措施與質量提高目標,從而在實際技術開發過程中匹配恰當的措施。
5. 注重數據標注合規
【要點】
根據《AIGC暫行辦法》第八條,在技術研發過程中進行數據標注的,應當履行相應的數據標注合規義務。
【相應措施】
技術支持者需建立健全數據標注管理制度,明確數據標注過程中的各項管理與安全要求,規范實踐中的數據標注活動,從而全面履行其自身的訓練語料數據合規義務。具體可以結合《AIGC安全要求》、《信息安全技術 生成式人工智能數據標注安全規范(征求意見稿)》等相關規定、規范中的進一步要求進行考量。例如,技術支持者在語料標準方面應實施嚴格的管理措施,包括制定標注規則、開展數據標注質量評估并核驗標注內容準確性以及對標注人員進行選拔與培訓,確保標注任務有充足合理的時間完成。標注規則需要明確標注目標、數據格式、方法和質量標準,同時區分功能性與安全性標注,并確保規則覆蓋數據標注和審核環節,滿足特定要求。開展數據標注質量評估核驗時應采取人工抽檢和審核的方式,確保標注的準確性,對違法不良信息進行嚴格處理,并對安全性標注數據進行隔離存儲,以降低主要安全風險。
6. 遵守倫理要求
技術支持者在技術開發過程中需要特別注重所使用語料的倫理相關要求,具體而言:
【要點】
根據《AIGC暫行辦法》第四條,在訓練數據選擇等過程中,相關主體需采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。
【相應措施】
大模型廠商等主體在將標準語料用于大模型訓練時,有必要通過機器篩選、人工核驗等各類可行的方式篩除可能含有歧視的內容。考慮到在實踐中大模型廠商可能會通過上游語料加工商獲取語料,相關主體在與語料加工商達成訓練語料采購/委托定制等合作協議時,可以考慮通過協議約定要求其先行對擬交付的原始語料、標準語料進行歧視性內容篩除工作,協助防范內容歧視風險。
7. 防止技術濫用
【要點】
關于倫理的問題,需要和技術濫用的問題并行考慮。“技術濫用”是指在開發、部署或應用人工智能技術過程中,任何違背法律規范、倫理標準或社會價值觀并可能對個人、社會或環境造成負面損害的行為。
【相應措施】
對于技術支持者而言,可以從下述幾個方面構建技術濫用的責任框架:
| 要點 |
具體要求 |
| 責任主體的明確 |
確立技術開發者、部署者、使用者及第三方的責任界限,確保在AI技術失誤或濫用時,能夠準確識別責任主體。 |
| 合規性與風險管理 |
技術支持者應遵守相關的法律法規,并實施有效的風險管理措施,包括對AI系統進行定期的合規性審查和風險評估。 |
| 技術審計與測試 |
定期對AI系統進行技術審計和測試,評估其性能和安全性,確保沒有技術失誤或濫用的風險。 |
| 補救措施與應急預案 |
制定補救措施和應急預案,以便在發生技術失誤或濫用時迅速響應,減輕對用戶和第三方的影響。 |
8. 提高語料數據加工的透明度和可解釋性
【要點】
作為確保人工智能系統公正、可信賴的關鍵,人工智能的透明度和可解釋性原則要求人工智能系統的決策過程、算法邏輯、數據使用和結果輸出是清晰、易于理解的,并能夠提供對其決策過程和結果的清晰解釋。
【相應措施】
技術支持者應當考慮向用戶提供針對AI輸出的控制和反饋機制,增強用戶對系統的信任,同時為監管機構提供必要的信息以確保合規性和倫理標準得到遵守。
二、 服務提供者角度
在生成式人工智能技術支持者對相關大模型技術研究、開發和優化完成后,服務提供者會將已經搭建好的模型集成到應用程序中,并向最終用戶提供終端服務。《AIGC暫行辦法》明確要求,提供和使用生成式人工智能服務,應當遵守法律、行政法規,尊重社會公德和倫理道德。因此,服務提供者應當履行相應的內容相關的合規義務。具體如下:
1. 進一步的內容管理與審核
(1) 進一步確保模型的合規
【要點】
服務提供者應對技術支持者所提供的模型進行一定的審查,包括其數據來源、模型是否符合《AIGC暫行辦法》等相關法律規范對技術開發者數據處理的規定等。
【相應措施】
除了進行一定程度的審查之外,在與技術支持者簽署的相關協議中,服務提供者也可以明確要求技術支持方具有相應的從業資質、確保數據來源合法合規且權屬清晰,同時搭配相應的瑕疵擔保和違約責任等。
(2) 確保模型生成的內容合規
【要點】
根據《AIGC暫行辦法》、《深度合成管理規定》等法律法規,服務提供者應當對生成的內容進行安全審查。服務提供者未盡審核管理義務而違反內容合規相關法律法規要求,可能面臨相應的行政處罰。例如,2024年5月,因屬地一AI服務企業未盡到審核管理義務、履行主體責任不到位,違規生成法律法規禁止的信息,重慶九龍坡區網信辦依據《中華人民共和國網絡安全法》給予其行政警告處罰,并責令該公司限期全面整改,加強信息內容審核,健全信息內容安全管理相關制度,暫停網站信息更新及AI算法生成式寫作功能15日。
【相應措施】
服務提供者可采用關鍵詞識別、人工抽檢等方式對生成的內容進行安全審查,過濾掉違法不良信息以及涉及知識產權侵權的內容。當收到用戶投訴或者通過其他方式被告知平臺生成的內容違法時,應當及時采取停止生成、停止傳輸、消除等處置措施,采取模型優化訓練等措施進行整改,并向有關主管部門報告。
服務提供者還可對用戶輸入的內容進行安全性檢測,若檢測出用戶輸入的內容可能涉及違規時,應及時向用戶提供關于合規使用的指導以及風險提示,引導用戶輸入合法合規的內容。
(3) 對生成的內容進行標識
【要點】
根據《深度合成管理規定》,“深度合成服務”是指利用深度學習技術,特別是生成對抗網絡(GANs)和其他合成算法,來創建或修改數字內容,以生成逼真的圖像、視頻、音頻或文本的服務。具體類型包括模擬自然人進行文本的生成或者編輯服務、語音生成或者顯著改變個人身份特征的編輯服務等。服務提供者在提供可能導致公眾混淆或者誤認的深度合成服務時,還應當在生成或者編輯的信息內容的合理位置、區域進行顯著標識,向公眾提示深度合成情況。
【相應措施】
服務提供者可以在生成或編輯的數字內容上明確標注“深度合成”或“此內容經過合成”等字樣,使用戶能夠一眼識別內容的合成性質。具體而言,在提供如圖像、視頻或音頻等形式的深度合成內容時,可以在用戶容易注意到的合理位置嵌入透明或半透明的水印,標明內容為深度合成,不影響觀看體驗的同時起到提示作用。確保用戶在使用深度合成服務時,能夠清楚地識別內容是否經過合成,從而做出相應的判斷和選擇。
(4) 建立和完善用戶反饋機制
【要點】
根據《AIGC暫行辦法》,服務提供者應當建立和完善用戶反饋機制。用戶反饋機制是保護用戶合法權益的重要手段,能夠確保用戶在遇到問題時有途徑表達和尋求解決方案,也有助于服務提供者及時了解服務的優點和不足、及時管理和預防潛在的風險,從而不斷改進和優化相關服務,促進內容合規的進一步完善。
【相應措施】
服務提供者可以在提供相關服務的平臺的顯眼位置設置便捷的投訴、舉報等反饋入口,并提供在線表單、電子郵件、電話、社交媒體等多種反饋方式,確保用戶可以多渠道及時反饋。對于用戶的投訴、舉報,服務提供者應及時受理,根據用戶反饋的內容對模型和安全審查機制進行優化處理,同時也可視情況將處理結果反饋給相關用戶。
(5) 遵守《個人信息保護法》等相關規定
【要點】
與技術支持者不同的是,服務提供者作為直接面向用戶的一方,需要特別關注用戶相關的個人信息保護,在收集、使用用戶個人信息的過程中,應維護用戶權益、確保用戶信任,遵守《個人信息保護法》的規定。
【相應措施】
服務提供者應制定清晰、透明的隱私政策,明確告知用戶個人信息的收集目的、使用方式、共享范圍和存儲期限,并且一般僅收集提供服務所必需的最少個人信息,除獲得用戶的明確同意外,應限制對敏感個人信息的收集。服務提供者可以采用具有高標準數據安全措施的系統收集、存儲和處理用戶個人信息,防止數據泄露、濫用或未經授權的訪問。另外,服務提供者亦可建立快速響應機制,確保一旦發生相關數據泄露或其他安全事件,能夠立即采取行動,減輕損害。
2. 用戶協議和用戶權益保護的內容合規
【要點】
除了以上服務提供過程中的內容管理與審核要點外,對于服務提供者而言,面向用戶的過程中還會涉及用戶協議和用戶權益保護的事項,亦需要考慮相關的要點和措施。
【相應措施】
(1) 免責聲明
服務提供者可以在用戶協議中注明其所使用的數據或基礎模型的來源方,并進行免責聲明,服務提供者不承擔因這些原始數據或模型本身的合規性問題而可能產生的任何直接或間接責任,以保護自己免受因原始語料數據的技術應用可能引發的法律問題。
(2) 明確用戶的權利
| 要點 |
相應措施 |
| 明確授權 |
針對用戶輸入的內容,若AIGC服務提供者需要使用輸入內容進行模型優化,則需要在用戶協議中明確約定使用用戶輸入內容的范圍和目的,并就輸入內容的后續使用獲得用戶的明確授權。 |
| 知情權 |
服務提供者應確保用戶在個人信息(包含敏感個人信息、跨境個人信息)方面的知情權,并就后續對個人信息的使用獲得用戶的同意,同時需以顯著方式并用清晰易懂的語言真實、準確、完整地向個人告知相關事項,包括個人信息處理者的名稱或者姓名和聯系方式,個人信息的處理目的、處理方式,處理的個人信息種類、保存期限等。 |
| 生成內容歸屬 |
對于生成內容的權利歸屬,全球主流的AIGC產品對于生成內容權屬有不同的約定方式,具體情形包括:權利全部歸屬于用戶、權利歸屬于用戶但軟件開發者取得授權、權利歸屬于軟件開發者但用戶取得授權、以是否付費確定權利歸屬于用戶、流入公有領域。約定權利歸屬的目的是規避平臺的侵權風險,同時平衡商業利益。 |
(3) 明確用戶的義務及責任承擔
服務提供者應明確用戶的義務,確保用戶輸入的內容不含有違反法律法規或公序良俗的信息,并且應當合法使用AI生成的內容,不得利用生成的內容從事違法活動或侵犯他人權利。同時,對因用戶使用服務或者違反用戶協議規定而引起的法律責任由用戶承擔。
(4) 明確告知用戶問題反饋和處理方法
依據《AIGC暫行辦法》,人工智能大模型的服務提供者應告知用戶具體的投訴路徑以及平臺應對投訴的處理流程、期限,并確定糾紛解決機制,包括仲裁條款等,確保用戶知曉其投訴將得到有效處理。





滬公網安備 31010402007129號