隨著“Sora”等多模態高性能生成式人工智能的相繼出現,全球范圍內針對生成式人工智能服務安全的監管呼聲也日漸高漲。2023年7月,國家互聯網信息辦公室,國家發展和改革委員會等七部門聯合頒布《生成式人工智能服務管理暫行辦法》(“《AIGC暫行辦法》”),在延續《互聯網信息服務算法推薦管理規定》、《互聯網信息服務深度合成管理規定》所規定的算法備案的基礎上,另行確立了針對生成式人工智能大模型的安全評估備案(“大模型備案”)。但是,《AIGC暫行辦法》對于大模型備案所關注的生成式人工智能服務安全的具體要求、評估參數、評估標準等并未進行細化解釋。
2023年10月11日,全國網絡安全標準化技術委員會頒布了《生成式人工智能服務安全基本要求(征求意見稿)》(“征求意見稿”),并于2024年3月1日正式頒布了《生成式人工智能服務安全基本要求(TC260-003)》(“正式文件”)。《生成式人工智能服務安全基本要求》(“《AIGC安全要求》”)作為國家專業標準化技術委員會發布的技術文件,在生成式人工智能服務安全的原則性要求方面提供了細化指引,為包括大模型備案在內的人工智能安全監管制度提供了評價工具,為各類生成式人工智能服務提供者開展安全評估、提高安全水平提供了參考。
本文將就《AIGC安全要求》的正式文件相較于征求意見稿的重點修訂內容進行梳理分析,并對生成式人工智能服務提供者為符合《AIGC安全要求》的規定可以考慮設立的合規制度提出基礎建議。
一、 《生成式人工智能服務安全基本要求》正式文件與征求意見稿主要內容的對比與總結
1. 第3條(術語和定義)
1.1 第3.1條(生成式人工智能服務 generative artificial intelligence service,“生成式人工智能服務”)
| 征求意見稿 |
正式文件 |
| 第3.1條(生成式人工智能服務 generative artificial intelligence service,“生成式人工智能服務”):基于數據、算法、模型、規則,能夠根據使用者提示生成文本、圖片、音頻、視頻等內容的人工智能服務。 |
第3.1條(生成式人工智能服務 generative artificial intelligence service,“生成式人工智能服務”):利用生成式人工智能技術向中華人民共和國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務。 |
本定義照應了《AIGC暫行辦法》第二條對“生成式人工智能服務”的定義。 [1] 正式文件在對“生成式人工智能服務”的定義中刪除了征求意見稿中“基于數據、算法、模型、規則”的表達,增加“利用生成式人工智能技術向中華人民共和國境內公眾提供”,使得《AIGC安全要求》中“生成式人工智能服務”這一概念的定義與《AIGC暫行辦法》中的定義保持統一。
根據本定義,結合《AIGC暫行辦法》第二條規定可知,目前我國針對生成式人工智能行業的監管側重于針對面向中華人民共和國境內的公眾提供生成式人工智能服務的組織或個人。對生成式人工智能技術進行單純的內部研發和應用,不涉及向境內公眾提供服務的行業組織、企業、教育和科研機構、公共文化機構等專業機構,并非本輪監管重點關注的對象。但是,該等企業仍需根據具體情況遵循《中華人民共和國數據安全法》(“《數據安全法》”)、《中華人民共和國網絡安全法》(“《網絡安全法》”)等法律法規,并且可以在一定程度上參考《AIGC暫行辦法》以及《AIGC安全要求》對于生成式人工智能服務安全的要求,以應對未來的合規動態。
1.2 第3.2條(提供者 service provider,“服務提供者”)
| 征求意見稿 |
正式文件 |
| 第3.2條(提供者 service provider,“服務提供者”):以交互界面、可編程接口等形式面向我國境內公眾提供生成式人工智能服務的組織或個人。 |
第3.2條(提供者 service provider,“服務提供者”):以交互界面、可編程接口等形式提供生成式人工智能服務的組織或個人。 |
本定義照應了《AIGC暫行辦法》第二十二條對“生成式人工智能服務提供者”的定義。 [2] 結合本文第1.1條的分析可知,正式文件對“提供者”的定義與《AIGC暫行辦法》中對“生成式人工智能服務提供者”的定義亦基本相同。實踐中,API、SDK等接口服務以及網頁、移動應用、小程序等交互界面為目前B端及C端用戶調用生成式人工智能的主流方式,故《AIGC安全要求》在服務提供方式的列舉中增加了“以交互界面”的方式提供生成式人工智能服務的情況,隨著人工智能行業的高速發展,不排除未來可能出現新的調用方式。
1.3 第3.5條(基礎模型 foundation model)
| 征求意見稿 |
正式文件 |
| 無該條款。 |
第3.5條(基礎模型 foundation model):在大量數據上訓練的,用于普適性目標、可優化適配多種下游任務的深度神經網絡模型。 |
在征求意見稿及正式文件中,均在第6條(模型安全要求)中使用了“基礎模型”這一概念,本定義是對“基礎模型”這一概念的進一步解釋,明確了需要經過主管部門備案后方可用于提供生成式人工智能服務的基礎模型,區別于普通的計算機模型,是指具備深度神經網絡結構的、經過優化和訓練能夠適配多種下游任務的通用大模型。
本定義在一定程度上照應了《AIGC暫行辦法》第七條對生成式人工智能服務提供者開展訓練數據處理活動時使用合規基礎模型的要求。 [3] 實踐中,國內生成式人工智能服務行業對基礎模型的調用通常分為三種類型:
| 類別 |
特點 |
示例 |
| 純自研的基礎模型 |
能夠全面掌握基礎模型背后的核心算法和運行規則,并獨立負責處理數據訓練、生成內容標記、模型優化等所有技術性事項 |
智譜AI發布的GLM-4國產全自研大模型 [4] 、騰訊發布的自研混元大模型 [5] |
| 半自研的基礎模型 |
在第三方基礎模型的基礎上進行二次訓練、精確調優,形成適配于自身產品的基礎模型,其僅能獨立掌握自身研發的增量部分 |
華東理工大學·X-D Lab(心動實驗室)基于開源的通義千問開源模型開發了心理健康大模型MindChat(漫談)、醫療健康大模型Sunsimiao(孫思邈)、教育/考試大模型GradChat(錦鯉)等 [6] |
| 完全調用第三方基礎模型(不做任何調優) |
對于基礎模型本身無法進行任何干涉,亦無法參與任何實質的技術事項 |
百度千帆大模型平臺操作臺中的“模型倉庫”存在多個第三方模型可以直接供企業和開發者調用、部署 [7] |
在這三種情況下,相應的服務提供者在《AIGC暫行辦法》以及《AIGC安全要求》下所需要履行的義務輕重亦有所不同,需要根據具體情況進一步分析。
2. 第4條(總則)
| 征求意見稿 |
正式文件 |
| 第4條(總則):本文件支撐《生成式人工智能服務管理暫行辦法》,提出了提供者需遵循的安全基本要求。提供者在向相關主管部門提出生成式人工智能服務上線的備案申請前,應按照本文件中各項要求逐條進行安全性評估,并將評估結果以及證明材料在備案時提交。
除本文件提出的基本要求外,提供者還應自行按照我國法律法規以及國家標準相關要求做好網絡安全、數據安全、個人信息保護等方面的其他安全工作。 |
第4條(總則):本文件支撐《生成式人工智能服務管理暫行辦法》,提出了服務提供者需遵循的安全基本要求。服務提供者在按照有關要求履行備案手續時,按照本文件第9章要求進行安全評估,并提交評估報告。
除本文件提出的基本要求外,服務提供者應自行按照我國法律法規以及國家標準相關要求做好網絡安全、數據安全、個人信息保護等方面的其他安全工作。服務提供者應緊密注意生成式人工智能可能帶來的長期風險,謹慎對待可能具備欺騙人類、自我復制、自我改造能力的人工智能,并重點關注生成式人工智能可能被用于編寫惡意軟件、制造生物武器或化學武器等安全風險。 |
正式文件中增加了對生成式人工智能長期風險、倫理風險的警示內容,體現對目前全球范圍內針對生成式人工智能對人類社會可能造成的潛在風險(包括網絡安全和生物技術等領域的風險,放大虛假信息風險、倫理風險等)的高度關切。
3. 第5條(語料安全要求)
3.1 第5.1條(語料來源安全要求)
(1) 第5.1條a)(語料來源管理方面)
| 征求意見稿 |
正式文件 |
| 第5.1條(語料來源安全要求)a)(語料來源管理方面):1)應建立語料來源黑名單,不使用黑名單來源的數據進行訓練;2)應對各來源語料進行安全評估,單一來源語料內容中含違法不良信息超過5%的應將該來源加入黑名單。 |
第5.1條(語料來源安全要求)a)(語料來源管理方面):1)面向特定語料來源進行采集前,應對該來源語料進行安全評估,語料內容中含違法不良信息超過5%的,不應采集該來源語料;2)面向特定語料來源進行采集后,應對所采集的該來源語料進行核驗,含違法不良信息情況超過5%的,不應使用該來源語料進行訓練。 |
正式文件中刪除了“語料來源黑名單”制度,而修改為對來源語料本身進行安全評估的制度。我們理解,在實踐中,同一語料來源項下可能存在大批量的語料,因其中某一批語料產生了安全問題而舍棄某一語料來源會造成較大的語料損失。在當下基礎模型行業已經開始出現語料緊缺、訓練數據不足的風險的情況下,“語料來源黑名單”制度并不利于優化生成式人工智能服務。正式文件進一步將來源語料安全制度細分為“采集前”和“采集后+訓練前”兩個階段,要求服務提供者對語料進行雙重安全評估,確保語料來源安全。
(2) 第5.1條c)(語料來源可追溯方面)
| 征求意見稿 |
正式文件 |
| 第5.1條(語料來源安全要求)c)(語料來源可追溯方面):2)使用自采語料時,應具有采集記錄,不應采集他人已明確聲明不可采集的語料; 注2:自采語料包括自行生產的語料以及從互聯網采集的語料。 注3:聲明不可采集的方式包括但不限于robots協議等。 3)使用商業語料時: ——應有具備法律效力的交易合同、合作協議等; ——交易方或合作方不能提供語料合法性證明材料時,不應使用該語料。 |
第5.1條(語料來源安全要求)c)(語料來源可追溯方面):2)使用自采語料時,應具有采集記錄,不應采集他人已明確不可采集的語料; 注2:自采語料包括自行生產的語料以及從互聯網采集的語料。 注3:明確不可采集的語料,例如已通過robots協議或其他限制采集的技術手段明確表明不可采集的網頁數據,或個人已拒絕授權采集的個人信息等。 3)使用商業語料時: ——應有具備法律效力的交易合同、合作協議等; ——交易方或合作方不能提供語料來源、質量、安全等方面的承諾以及相關證明材料時,不應使用該語料; ——應對交易方或合作方所提供語料、承諾、材料進行審核。 |
本條系對語料來源合規性追溯的規定。語料的來源分為自采語料與商業語料。所謂自采語料,是指自行生產以及從互聯網采集的語料。《AIGC安全要求》規定服務提供者應當采取措施從源頭追溯并確保自采語料合規性,包括(1)保存采集記錄;(2)不采集他人已明確不可采集的語料,包括(a)通過robots協議等技術手段標明不可采集的網頁數據,以及(b)正式文件增加的“個人已拒絕授權采集的個人信息”。我們理解,正式文件中將個人拒絕授權采集的個人信息明確列舉于不得采集的語料中,系對《AIGC暫行辦法》第七條的進一步細化。 [8]
關于商業語料,我們理解主要指并非由服務提供者自行采集,而是通過與第三方語料提供方進行交易獲得的語料。《AIGC安全要求》規定服務提供者應當采取措施,確保商業語料的合規性,包括(1)與語料提供方簽署有效的交易文件;(2)要求語料提供方提供語料來源、質量、安全等承諾以及相關證明材料并進行審核。本條在一定程度上明確了商業語料交易所需遵循的合規性要求,但仍遺留了一些問題,有待進一步在實踐中摸索出答案,例如,語料接收方對語料提供方所提供的承諾以及證明材料需盡到何種程度的審核義務,才能夠被認定為適當地履行了合規要求等。
3.2 第5.2條(語料內容安全要求)
(1) 第5.2條b)(知識產權方面)
| 征求意見稿 |
正式文件 |
| 第5.2條(語料內容安全要求)b)(知識產權方面):2)語料用于訓練前,知識產權相關負責人等應對語料中的知識產權侵權情況進行識別,提供者不應使用有侵權問題的語料進行訓練: ——訓練語料包含文學、藝術、科學作品的,應重點識別訓練語料以及生成內容中的著作權侵權問題; ——對訓練語料中的商業語料以及使用者輸入信息,應重點識別侵犯商業秘密的問題; |
第5.2條(語料內容安全要求)b)(知識產權方面):2)語料用于訓練前,應對語料中的主要知識產權侵權風險進行識別,發現存在知識產權侵權等問題的,服務提供者不應使用相關語料進行訓練;例如,語料中包含文學、藝術、科學作品的,應重點識別語料以及生成內容中的著作權侵權問題; |
正式文件刪除了對“侵犯商業秘密”的重點識別要求,我們理解,一方面,對于泄露他人商業秘密這一語料安全風險,正式文件中已經于附錄A中進行了明確;另一方面,商業秘密的識別是一項難度和成本較高的任務,可能會對人工智能產業的初期發展帶來較大的壓力。
(2) 第5.2條c)(個人信息方面)
| 征求意見稿 |
正式文件 |
| 第5.2條(語料內容安全要求)c)(個人信息方面):1)應使用包含個人信息的語料時,獲得對應個人信息主體的授權同意,或滿足其他合法使用該個人信息的條件; 2)應使用包含敏感個人信息的語料時,獲得對應個人信息主體的單獨授權同意,或滿足其他合法使用該敏感個人信息的條件; 3)應使用包含人臉等生物特征信息的語料時,獲得對應個人信息主體的書面授權同意,或滿足其他合法使用該生物特征信息的條件。 |
第5.2條(語料內容安全要求c)(個人信息方面):1)在使用包含個人信息的語料前,應取得對應個人同意或者符合法律、行政法規規定的其他情形; 2)在使用包含敏感個人信息的語料前,應取得對應個人單獨同意或者符合法律、行政法規規定的其他情形。 |
本條照應了《AIGC暫行辦法》中第七條對生成式人工智能服務提供者開展訓練數據處理活動時使用個人信息的合規要求。 [9] 正式文件較征求意見稿而言,主要有以下幾點調整:
首先,正式文件將“使用時”的表述修改為“使用前”。我們理解,一方面,該等修改符合《中華人民共和國個人信息保護法》(“《個保法》”) 關于個人信息處理者在處理個人信息前的告知義務的規定。 [10] 而根據《個保法》第四條規定,個人信息的使用即屬于個人信息的處理的一種情形。 [11] 因此,從遵循《個保法》規定的角度看,服務提供者應當在使用包含個人信息的語料之前,而非之時,即取得對應的個人同意或者符合法律、行政法規規定的其他情形。另一方面,服務提供者對語料的使用往往是多次、同時、大批量的使用,因此,要求其在使用的同時開始履行合規要求并不具備實操性,而是應當在使用乃至獲取語料之前即獲得個人同意,或者確保其符合法律法規的要求。
其次,正式文件刪去了“應使用包含人臉等生物特征信息的語料時,獲得對應個人信息主體的書面授權同意,或滿足其他合法使用該生物特征信息的條件。”根據《個保法》第二十八條規定,敏感個人信息包含生物識別信息。 [12] 因此,即使正式文件中刪去本條,由于上述第2)條的“敏感個人信息”在《個保法》的定義中已經包括了生物識別信息,因此并不會減輕服務提供者處理個人信息時需要履行的義務。
第三,正式文件將“或滿足其他合法使用該個人信息的條件”的表述一律調整為“應取得對應個人同意或者符合法律、行政法規規定的其他情形”。我們理解,這一調整主要是為了與《AIGC暫行辦法》第七條的表述保持一致。
3.3 第5.3條(語料標注安全要求)
(1) 第5.3條a)(標注人員方面)
| 征求意見稿 |
正式文件 |
| 第5.3條(語料標注安全要求)a)(標注人員方面):1)應自行對標注人員進行考核,給予合格者標注資質,并有定期重新培訓考核以及必要時暫停或取消標注資質的機制; |
第5.3條(語料標注安全要求)a)(標注人員方面):1)應自行組織對于標注人員的安全培訓,培訓內容應包括標注任務規則、標注工具使用方法、標注內容質量核驗方法、標注數據安全管理要求等; 2)應自行對標注人員進行考核,給予合格者標注上崗資格,并有定期重新培訓考核以及必要時暫停或取消標注上崗資格的機制,考核內容應包括標注規則理解能力、標注工具使用能力、安全風險判定能力、數據安全管理能力等; |
本條內容照應了《AIGC暫行辦法》第八條中對生成式人工智能服務提供者在技術研發過程中進行數據標注的要求,并對該等要求進行了細化和進一步拓展。 [13] 正式文件相較于征求意見稿,增加了對于標注人員的安全培訓以及具體培訓內容的要求,并進一步明確了標注人員的考核機制。
4. 第6條(模型安全要求)(對服務提供者的要求)
4.1 第6條b)(模型生成內容安全方面)
| 征求意見稿 |
正式文件 |
| 第6條b)模型生成內容安全方面: 1)在訓練過程中,應將生成內容安全性作為評價生成結果優劣的主要考慮指標之一; 2)在每次對話中,應對使用者輸入信息進行安全性檢測,引導模型生成積極正向內容; 3)對提供服務過程中以及定期檢測時發現的安全問題,應通過針對性的指令微調、強化學習等方式優化模型。 注:模型生成內容是指模型直接輸出的、未經其他處理的原生內容。 |
第6條b)模型生成內容安全方面: 1)在訓練過程中,應將生成內容安全性作為評價生成結果優劣的主要考慮指標之一; 2)在每次對話中,應對使用者輸入信息進行安全性檢測,引導模型生成積極正向內容; 3)應建立常態化監測測評手段,對監測測評發現的提供服務過程中的安全問題,及時處置并通過針對性的指令微調、強化學習等方式優化模型。 注:模型生成內容是指模型直接輸出的、未經其他處理的原生內容。 |
正式文件將征求意見稿中對模型生成內容的“定期檢測”要求具象化為要求服務提供者建立常態化監測測評手段,強調監測測評是持續進行的過程,進一步確保提供服務全過程的安全性。另外,正式文件中增加了及時處置安全問題的表述,對服務提供者提出問題處理的時效性要求,防止安全問題擴大帶來進一步影響。
4.2 第6條c)(生成內容準確性方面) d)(生成內容可靠性方面)
| 征求意見稿 |
正式文件 |
| 第6條 d)生成內容準確性方面:生成內容應準確響應使用者輸入意圖,所包含的數據及表述應符合科學常識或主流認知、不含錯誤內容。 e)生成內容可靠性方面:服務按照使用者指令給出的回復,應格式框架合理、有效內容含量高,應能夠有效幫助使用者解答問題。 |
第6條 c)生成內容準確性方面:應采取技術措施提高生成內容響應使用者輸入意圖的能力,提高生成內容中數據及表述與科學常識及主流認知的符合程度,減少其中的錯誤內容。 d)生成內容可靠性方面:應采取技術措施提高生成內容格式框架的合理性以及有效內容的含量,提高生成內容對使用者的幫助作用。 |
正式文件改變了征求意見稿中對生成內容的安全性的絕對要求,轉變為要求服務提供者采取操作保障內容安全,即要求服務提供者采取技術措施實現生成內容準確性和可靠性的提高。本條的增刪在一定程度上體現了監管部門對于生成式人工智能具有不可控性這一客觀事實的理解,進而將監管的側重點從單一的“結果安全”轉變為兼顧“結果安全”與“程序安全”,降低了各類生成式人工智能服務提供者的合規壓力。
5. 第7條(安全措施要求)(對服務提供者的要求)
5.1 第7條a)(模型適用人群、場合、用途方面)
| 征求意見稿 |
正式文件 |
| 第7條a)模型適用人群、場合、用途方面: 1)應充分論證在服務范圍內各領域應用生成式人工智能的必要性、適用性以及安全性; 2)服務用于關鍵信息基礎設施、自動控制、醫療信息服務、心理咨詢等重要場合的,應具備與風險程度以及場景相適應的保護措施; 3)服務適用未成年人的,應: ——允許監護人設定未成年人防沉迷措施,并通過密碼保護; ——限制未成年人單日對話次數與時長,若超過使用次數或時長需輸入管理密碼; ——需經過監護人確認后未成年人方可進行消費; ——為未成年人過濾少兒不宜內容,展示有益身心健康的內容。 4)服務不適用未成年人的,應采取技術或管理措施防止未成年人使用。 |
第7條a)模型適用人群、場合、用途方面: 1)應充分論證在服務范圍內各領域應用生成式人工智能的必要性、適用性以及安全性; 2)服務用于關鍵信息基礎設施,以及如自動控制、醫療信息服務、心理咨詢、金融信息服務等重要場合的,應具備與風險程度以及場景相適應的保護措施; 3)服務適用未成年人的: ——應允許監護人設定未成年人防沉迷措施; ——不應向未成年人提供與其民事行為能力不符的付費服務; ——應積極展示有益未成年人身心健康的內容。 4)服務不適用未成年人的,應采取技術或管理措施防止未成年人使用。 |
一方面,正式文件增加了金融信息服務作為重要場合之一,進行明確列舉,要求服務提供者將服務用于金融信息服務時,也需要具備與風險程度以及場景相適應的保護措施。金融安全是國家安全的重要組成部分,本條的修改照應了《金融信息服務管理規定》中對金融信息服務提供者應當履行主體責任、建立信息安全保障等服務規范的要求, [14] 體現了我國監管部門對于生成式人工智能服務應用于金融行業所可能構成的潛在風險的特別關注。
另一方面,本條也照應了《AIGC暫行辦法》對未成年人保護的要求,并對實現該等要求所應采取的措施進行了細化。 [15] 正式文件在適用未成年人服務方面,刪除了密碼管理形式及單日對話次數與時長的限制,避免過度限制未成年人自由,體現《中華人民共和國未成年人保護法》保護未成年人隱私權的原則。 [16]
此外,正式文件在規范未成年人付費服務方面,由要求未成年人的監護人確認付費服務內容改為要求服務提供者負責不向未成年人提供與其民事行為能力不符的付費服務,并要求服務提供者謹慎開放面向未成年人的付費服務。
5.2 第7條b)(服務透明度方面)
| 征求意見稿 |
正式文件 |
| 第6條c)服務透明度方面: 1)以交互界面提供服務的,應在網站首頁等顯著位置向社會公開以下信息: ——服務適用的人群、場合、用途等信息; ——第三方基礎模型使用情況。 2)以交互界面提供服務的,應在網站首頁、服務協議等便于查看的位置向使用者公開以下信息: ——服務的局限性; ——所使用的模型架構、訓練框架等有助于使用者了解服務機制機理的概要信息。 3)以可編程接口形式提供服務的,應在說明文檔中公開1)和2)中的信息。 |
第7條b)服務透明度方面: 1)以交互界面提供服務的,應在網站首頁等顯著位置向社會公開服務適用的人群、場合、用途等信息,宜同時公開基礎模型使用情況; 2)以交互界面提供服務的,應在網站首頁、服務協議等便于查看的位置向使用者公開以下信息: ——服務的局限性; ——所使用的模型、算法等方面的概要信息; ——所采集的個人信息及其在服務中的用途。 3)以可編程接口形式提供服務的,應在說明文檔中公開1)和2)中的信息。 |
本條照應了《AIGC暫行辦法》第十條針對生成式人工智能服務透明度的要求。 [17] 正式文件在公開信息方面取消強制公開基礎模型使用情況,此改動平衡了提升生成式人工智能服務對用戶的透明度與保護商業秘密這兩項需求。另外,正式文件中還增加了要求服務提供者在顯著位置公開采集個人信息及其在服務中的用途的規定,與《個保法》中個人信息處理規則保持一致, [18] 體現對個人信息保護的重視。
5.3 第7條c)(收集使用者輸入信息用于訓練方面)
| 征求意見稿 |
正式文件 |
| 第7條c)收集使用者輸入信息用于訓練方面: 1)應事前與使用者約定能否將使用者輸入信息用于訓練; 2)應設置關閉使用者輸入信息用于訓練的選項; 3)使用者從服務主界面開始到達該選項所需操作不應超過4次點擊; 4)應將收集使用者輸入的狀態,以及(2)中的關閉方式顯著告知使用者。 |
第7條c)收集使用者輸入信息用于訓練方面: 1)應為使用者提供關閉其輸入信息用于訓練的方式,例如為使用者提供選項或語音控制指令;關閉方式應便捷,例如采用選項方式時使用者從服務主界面開始到達該選項所需操作不超過4次點擊; 2)應將收集使用者輸入的狀態,以及(1)中的關閉方式顯著告知使用者。 |
本條照應了《AIGC暫行辦法》第九條的規定。 [19] 正式文件中刪除了服務提供者“應事前與使用者約定能否將使用者輸入信息用于訓練”這一要求,而僅保留了“服務提供者顯著告知+允許使用者便捷關閉”的同意機制。針對收集輸入信息用于訓練事項,建議服務提供者在與使用者的用戶協議中明確規定、向使用者發送站內信或通過其他方式提示使用者其輸入信息將用于訓練,并根據正式文件的要求對向使用者明確提供簡便快捷的關閉輸入信息用于訓練的方式。
5.4 第7條d)(圖片、視頻等內容標識方面)
| 征求意見稿 |
正式文件 |
| 第7條d)圖片、視頻等內容標識方面,應按TC260-PG-20233A《網絡安全標準實踐指南—生成式人工智能服務內容標識方法》進行以下標識: 1)顯示區域標識; 2)圖片、視頻的提示文字標識; 3)圖片、視頻、音頻的隱藏水印標識; 4)文件元數據標識; 5)特殊服務場景的標識。 |
第7條d)圖片、視頻等內容標識方面,應滿足國家相關規定以及國家標準要求。 |
本條照應了《AIGC暫行辦法》中第十二條關于生成內容標識的規定。 [20] 正式文件中刪去了內容標識的特定依據,我們理解,服務提供者對于生成內容標識的規定應當遵循包括《互聯網信息服務深度合成管理規定》、TC260-PG-20233A《網絡安全標準實踐指南—生成式人工智能服務內容標識方法》在內的現有以及未來可能出現的相關國家標準、行業標準的規定。
5.5 第7條e)(訓練、推理所采用的計算系統方面)
| 征求意見稿 |
正式文件 |
| 無該條款。 |
第7條e)訓練、推理所采用的計算系統方面: 1)應評估系統所采用芯片、軟件、工具、算力等方面的供應鏈安全,側重評估供應持續性、穩定性等方面; 2)所采用芯片宜支持基于硬件的安全啟動、可信啟動流程及安全性驗證,保障生成式人工智能系統運行在安全可信環境中。 |
本條照應了《AIGC暫行辦法》第六條的規定。 [21] 正式文件中增加了對訓練和推理所采用的計算系統方面的安全要求,提出計算系統供應鏈安全評估要求,并對芯片安全程度提出支持標準,從軟件硬件兩方面出發保障計算系統的安全運行,也與《中華人民共和國計算機信息系統安全保護條例》中計算機信息系統的使用單位應當建立健全安全管理制度的要求相適應。 [22]
5.6 第7條g)(向使用者提供服務方面)
| 征求意見稿 |
正式文件 |
| 第7條f)向使用者提供服務方面: 1)對明顯偏激以及明顯誘導生成違法不良信息的問題,應拒絕回答;對其他問題,應均能正常回答; 2)應設置監看人員,及時根據國家政策以及第三方投訴情況提高生成內容質量,監看人員數量應與服務規模相匹配。 |
第7條g)向使用者提供服務方面: 1)應采取關鍵詞、分類模型等方式對使用者輸入信息進行檢測,使用者連續三次或一天內累計五次輸入違法不良信息或明顯誘導生成違法不良信息的,應依法依約采取暫停提供服務等處置措施; 2)對明顯偏激以及明顯誘導生成違法不良信息的問題,應拒絕回答;對其他問題,應均能正常回答; 3)應設置監看人員,并及時根據監看情況提高生成內容質量及安全,監看人員數量應與服務規模相匹配。 注:監看人員的職責包括及時跟蹤國家政策、收集分析第三方投訴情況等。 |
本條照應了《AIGC暫行辦法》第十四條中對服務提供者就違法內容采取處置措施的要求。 [23] 正式文件增加了對使用者輸入信息的檢測及相應處置要求,加強對使用者輸入信息的監管,并要求服務提供者根據監看情況而非僅根據國家政策以及第三方投訴情況來進行內容優化。總體而言,本條向服務提供者提供了生成內容監控制度的設立要點,分別包括(1)在輸入階段,檢測輸入信息、對多次輸入違法信息的用戶采取處置措施;(2)在內容生成階段,對誘導性問題設立拒絕回答的機制;(3)設置人員監控制度,根據監控情況及時調整基礎模型,提高生成內容質量及安全。
5.7 第7條h)(模型更新、升級方面)
| 征求意見稿 |
正式文件 |
| 第7條g)模型更新、升級方面: 1)應制定在模型更新、升級時的安全管理策略; 2)應形成管理機制,在模型重要更新、升級后,再次進行安全評估,并按規定向主管部門重新備案。 |
第7條h)模型更新、升級方面: 1)應制定在模型更新、升級時的安全管理策略; 2)應形成管理機制,在模型重要更新、升級后,再次自行組織安全評估。 |
正式文件刪除了在模型重要更新、升級后須重新備案的要求,修改為由服務提供者自行組織安全評估。這一修改與《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》(“《互聯網信息服務安全評估規定》”)中互聯網信息服務提供者應當在使用新技術新應用導致重大變更等情形下自行開展安全評估的規定相適應。 [24] 根據《互聯網信息服務安全評估規定》第七條規定 [25] ,如該等模型重要更新、升級屬于使用新技術新應用導致重大變更情形,服務提供者完成該等安全評估后需要將該等安全評估報告提交至網信部門等主管部門。如服務提供者涉及提供互聯網新聞信息服務的,還需根據《互聯網新聞信息服務新技術新應用安全評估管理規定》規定 [26] 報請國家或者省、自治區、直轄市互聯網信息辦公室組織開展安全評估。
5.8 第7條i)(服務穩定、持續方面)
| 征求意見稿 |
正式文件 |
| 無該條款。 |
第7條i)服務穩定、持續方面: 1)應將訓練環境與推理環境隔離,避免數據泄露和不當訪問; 2)應對模型輸入內容持續監測,防范惡意輸入攻擊,例如DDoS、XSS、注入攻擊等; 3)應定期對所使用的開發框架、代碼等進行安全審計,關注開源框架安全及漏洞相關問題,識別和修復潛在的安全漏洞; 4)應建立數據、模型、框架、工具等的備份機制以及恢復策略,重點確保業務連續性。 |
本條照應了《AIGC暫行辦法》第十三條對生成式人工智能服務穩定性與持續性的要求。 [27] 正式文件單獨增加了本條款,既遵循了《AIGC暫行辦法》的要求,也與目前全球各主要國家和地區對人工智能服務魯棒性(robustness)的普遍關注態度一致。正式文件中明確了保障穩定性與可持續性須注意的技術要點,包括隔離訓練環境與推理環境、持續監測模型輸入內容、定期安全審計、建立備份機制和恢復策略等。
6. 第9條(安全評估要求,原第8條)
6.1 第9.1條(評估方法,原8.1條)
| 征求意見稿 |
正式文件 |
| 第8.1條(評估方法) 對提供者的要求如下。 a)應在服務上線前以及重大變更時開展安全評估,評估可自行開展安全評估,也可委托第三方評估機構開展。 b)安全評估應覆蓋本文件所有條款,每個條款應形成單獨的評估結論,評估結論應為符合、不符合或不適用: 1)結論為符合的,應具有充分的證明材料; 2)結論為不符合的,應說明不符合的原因,采用與本文件不一致的技術或管理措施,但能達到同樣安全效果的,應詳細說明并提供措施有效性的證明; 3)結論為不適用的,應說明不適用理由。 c)應將本文件各條款的評估結論以及相關證明、支撐材料寫入評估報告: 1)評估報告應符合開展評估時主管部門要求; 2)撰寫評估報告過程中,因報告格式原因,本文件中部分條款的評估結論和相關情況無法寫入評估報告正文的,應統一寫入附件。 d)自行開展安全評估的,評估報告應至少具有三名負責人共同簽字: 1)單位法人; 2)整體負責安全評估工作的負責人,應為單位主要管理者或網絡安全負責人; 3)安全評估工作中合法性評估部分的負責人,應為單位主要管理者或法務負責人。 |
第9.1條(評估方法) 要求如下。 a)按照本文件自行組織的安全評估,可由提供方自行開展,也可委托第三方評估機構開展。 b)安全評估應覆蓋本文件第5章至第8章中所有條款,每個條款應形成單獨的評估結果,評估結果應為符合、不符合或不適用: 1)結果為符合的,應具有充分的證明材料; 2)結果為不符合的,應說明不符合的原因,有以下特殊情況的應補充說明: 采用與本文件不一致的技術或管理措施,但能達到同樣安全效果的,應詳細說明并提供措施有效性的證明; 已采取技術或管理措施但尚未滿足要求的,應詳細說明采取的措施和后續滿足要求的計劃。 3)結果為不適用的,應說明不適用理由。 c)應將本文件第5章至第8章中各條款的評估結果以及相關證明、支撐材料寫入評估報告: 1)評估報告應符合履行備案手續時的相關要求; 2)撰寫評估報告過程中,因報告格式原因,本文件中部分條款的評估結果和相關情況無法寫入評估報告正文的,應統一寫入附件。 d)應在評估報告中形成整體評估結論: 1)各條款的評估結果均為符合或不適用時,整體評估結論為全部符合要求; 2)部分條款評估結果為不符合時,整體評估結論為部分符合要求; 3)全部條款均為不符合時,整體評估結論為全部不符合要求; 4)第5章至第8章中推薦性條款的評估結果不影響整體評估結論。 e)自行開展安全評估的,評估報告應至少具有三名負責人共同簽字: 1)單位法定代表人; 2)整體負責安全評估工作的負責人,應為單位主要管理者或網絡安全負責人; 3)安全評估工作中合法性評估部分的負責人,應為單位主要管理者或法務負責人。 |
正式文件中對安全評估結果為不符合的特殊情況做出了進一步規范,要求服務提供者對已經采取技術或管理措施但未符合《AIGC安全要求》項下強制性安全措施要求的部分進行詳細說明,闡明采取的措施以及后續滿足要求的計劃。另外,正式文件中還新增了要求安全評估報告形成整體評估結論的內容,并明確了該結論的評估標準,進一步提高了安全評估報告的完整性與科學性。
二、 生成式人工智能服務安全制度的修訂要點與合規制度建議
1. 修訂要點
整體而言,正式文件較征求意見稿的修訂大致分為三個方面:其一,將各類定義與條款表述與《個保法》、《AIGC暫行辦法》等法律規定拉齊,保證規范概念體系的一致性;其二,從可行性的角度對部分生成式人工智能服務的安全要求進行了刪繁就簡、靈活處理,平衡了包括用戶知情權、內容安全在內的合規需求與發展需求;其三,在語料采集、語料標注、內容安全監測、服務穩定性等方面為服務提供者提供了更為明確、詳細、與當前發展水平相適應的制度設立的指引。
2. 安全合規制度建議
在歸納梳理了《AIGC安全要求》正式文件中對服務提供者的各項服務安全評估要求后,我們建議服務提供者可考慮采取下述制度,以保障自身所提供的生成式人工智能服務的安全性。
2.1 設立語料來源安全管理制度
(1) 設立語料采集前及采集后安全評估制度,結合《AIGC安全要求》附錄A中針對語料安全風險信息的分類,對風險語料設立分級分類識別、關鍵詞識別等識別機制。
(2) 設立語料來源追溯制度。將采集的語料根據《AIGC安全要求》分為自采語料 [28] 與商業語料,并針對不同類型的語料,通過內部培訓、協議條款約定、交易審核流程等環節建立起語料追溯制度。
2.2 設立語料內容安全管理制度,包括:
(1) 語料內容過濾制度。服務提供者可以通過多種機制確保語料內容的合法性和適宜性,包括但不限于:關鍵詞過濾、分類模型、人工抽檢等;
(2) 知識產權管理制度。服務提供者可以確立針對生成式人工智能的知識產權管理制度,包括但不限于:設立知識產權負責人和管理策略、設立知識產權風險識別制度、建立用戶易于訪問的投訴舉報渠道以及知識產權侵權問題報告渠道等。
2.3 建立語料標注規范,包括:
(1) 標注人員管理制度,包括但不限于:安全培訓制度、考核制度、職能劃分等;
(2) 標注規則,包括但不限于:
(a) 確立規則基本內容,制定包含標注目標、數據格式、方法和質量指標的標注規則;
(b) 確立功能性與安全性標注規則,分別對功能性和安全性標注制定規則,至少覆蓋數據標注和審核環節;
(3) 標注內容抽檢審核制度,包括但不限于:
(a) 功能性標注抽檢制度,對每批標注語料進行人工抽檢,不準確的內容需重新標注,包含違法不良信息的批次應廢棄;
(b) 安全性標注審核制度,確保每條安全性標注語料至少需經一名審核人員審核通過;
(4) 設立數據隔離存儲制度,對安全性標注數據進行隔離存儲,以保障數據的安全性和完整性。
2.4 設立模型生成內容安全制度,包括但不限于:
(1) 安全性評價規則,在模型訓練過程中,將生成內容的安全性作為評估生成結果好壞的主要指標;
(2) 輸入信息安全性檢測制度,對用戶輸入進行安全性檢測,引導模型生成積極正向的內容;
(3) 常態化監測與優化機制,建立常態化的監測評估機制,對服務過程中檢測到的安全問題進行及時處理,并通過指令微調或強化學習等技術手段優化模型。
2.5 其他綜合管理制度
(1) 模型適用性和安全性制度,包括但不限于:
(a) 特殊場合的保護措施:為關鍵信息基礎設施領域,或者如自動控制、醫療信息服務等重要場景提供服務時,結合《網絡安全法》、《數據安全法》、《關鍵信息基礎設施安全保護條例》、《信息安全技術 關鍵信息基礎設施安全保護要求》等規范制定與風險相適應的保護措施;
(b) 未成年人保護制度:結合《未成年人網絡保護條例》等未成年人保護相關法律法規設立未成年人使用規則,允許監護人設定防沉迷措施,展示有益內容,防止未成年人接觸不適用服務。
(2) 內容監管與質量控制制度,設置關鍵詞和分類模型監管制度以及人員監看制度:對用戶輸入進行監管,對違法不良信息采取處置措施,并根據監看情況提高內容質量及安全,監看人員數量應與服務規模匹配。
(3) 環境隔離與安全審計制度,隔離訓練與推理環境,定期進行安全審計。設立持續監測與備份恢復制度,持續監測輸入內容,建立數據和模型的備份及恢復策略。
結語
《生成式人工智能服務安全基本要求》正式文件的出臺,不僅為企業提供了更明確的合規指導,也體現了我國在促進技術創新的同時,對于保障網絡安全、個人隱私以及社會公共利益的堅定立場。面對快速發展的生成式人工智能技術,建立和完善相應的合規制度,不僅符合當前的法規要求,更使其在不斷變化的法律環境中保持靈活性和前瞻性,確保技術創新的同時,能夠有效管理風險,保護用戶權益。我們將持續關注,為企業保駕護航。
[1] 《AIGC暫行辦法》第二條規定,“生成式人工智能服務”是指“利用生成式人工智能技術向中華人民共和國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務”。
[2] 《AIGC暫行辦法》第二十二條規定,“生成式人工智能服務提供者,是指利用生成式人工時能技術提供生成式人工智能服務(包括通過提供可編程接口等方式提供生成式人工智能服務)的組織、個人”。
[3] 《AIGC暫行辦法》第七條規定,“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:(一)使用具有合法來源的數據和基礎模型;……”
[4] https://www.ceweekly.cn/company/2024/0116/434891.html。
[5] https://www.tencent.com/zh-cn/articles/2201685.html。
[6] https://news.sciencenet.cn/htmlnews/2023/12/513458.shtm
[7] https://developer.baidu.com/article/detail.html?id=1099866
[8] 《AIGC暫行辦法》第七條規定,“生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;……(五)《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》等法律、行政法規的其他有關規定和有關主管部門的相關監管要求。”
[9] 《AIGC暫行辦法》第七條規定,“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;……。”
[10] 《個保法》第十七條規定,“個人信息處理者在處理個人信息前,應當以顯著方式、清晰易懂的語言真實、準確、完整地向個人告知下列事項:(一)個人信息處理者的名稱或者姓名和聯系方式;(二)個人信息的處理目的、處理方式,處理的個人信息種類、保存期限;(三)個人行使本法規定權利的方式和程序;(四)法律、行政法規規定應當告知的其他事項。前款規定事項發生變更的,應當將變更部分告知個人。”
[11] 《個保法》第四條規定,“個人信息是以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理后的信息。個人信息的處理包括個人信息的收集、存儲、使用、加工、傳輸、提供、公開、刪除等。”
[12] 《個保法》第二十八條規定,“敏感個人信息是一旦泄露或者非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息,包括生物識別……等信息。”
[13] 《AIGC暫行辦法》第八條的規定,“在生成式人工智能技術研發過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升尊法守法意識,監督指導標注人員規范開展標注工作。”
[14] 《金融信息服務管理規定》第五條規定,“金融信息服務提供者應當履行主體責任,配備與服務規模相適應的管理人員,建立信息內容審核、信息數據保存、信息安全保障、個人信息保護、知識產權保護等服務規范。”
[15] 《AIGC暫行辦法》第十條規定,“提供者應當……指導使用者科學理性認識和依法使用生成式人工智能技術,采取有效措施防范未成年人用戶過度依賴或者沉迷生成式人工智能服務。”
[16] 《中華人民共和國未成年人保護法》第四條規定,“保護未成年人,應當堅持最有利于未成年人的原則。處理涉及未成年人事項,應當符合下列要求:……(三)保護未成年人隱私權和個人信息;……。”
[17] 《AIGC暫行辦法》第十條規定,“提供者應當明確并公開其服務的適用人群、場合、用途”。
[18] 《個保法》第十七條規定,“個人信息處理者在處理個人信息前,應當以顯著方式、清晰易懂的語言真實、準確、完整地向個人告知下列事項:……(二)個人信息的處理目的、處理方式,處理的個人信息種類、保存期限;……。
個人信息處理者通過制定個人信息處理規則的方式告知第一款規定事項的,處理規則應當公開,并且便于查閱和保存。”
[19] 《AIGC暫行辦法》第九條規定,“提供者應當與注冊其服務的生成式人工智能服務使用者(以下稱使用者)簽訂服務協議,明確雙方權利義務。”
[20] 《AIGC暫行辦法》第十二條規定,“提供者應當按照《互聯網信息服務深度合成管理規定》對圖片、視頻等生成內容進行標識。”
[21] 《AIGC暫行辦法》第六條規定,“促進算力資源協同共享,提升算力資源利用效能。推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。鼓勵采用安全可信的芯片、軟件、工具、算力和數據資源。”
[22] 《中華人民共和國計算機信息系統安全保護條例》第十三條規定,“計算機信息系統的使用單位應當建立健全安全管理制度,負責本單位計算機信息系統的安全保護工作。”
[23] 《AIGC暫行辦法》第十四條規定,“提供者發現違法內容的,應當及時采取停止生成、停止傳輸、消除等處置措施,采取模型優化訓練等措施進行整改,并向有關主管部門報告。提供者發現使用者利用生成式人工智能服務從事違法活動的,應當依法依約采取警示、限制功能、暫停或者終止向其提供服務等處置措施,保存有關記錄,并向有關主管部門報告。”
[24] 《互聯網信息服務安全評估規定》第三條規定,“互聯網信息服務提供者具有下列情形之一的,應當依照本規定自行開展安全評估,并對評估結果負責:……(二)使用新技術新應用,使信息服務的功能屬性、技術實現方式、基礎資源配置等發生重大變更,導致輿論屬性或者社會動員能力發生重大變化的;……。”
[25] 《互聯網信息服務安全評估規定》第七條規定,“互聯網信息服務提供者應當將安全評估報告通過全國互聯網安全管理服務平臺提交所在地地市級以上網信部門和公安機關。具有本規定第三條第一項、第二項情形的,互聯網信息服務提供者應當在信息服務、新技術新應用上線或者功能增設前提交安全評估報告;具有本規定第三條第三、四、五項情形的,應當自相關情形發生之日起30個工作日內提交安全評估報告。”
[26] 《互聯網新聞信息服務新技術新應用安全評估管理規定》第七條規定,“有下列情形之一的,互聯網新聞信息服務提供者應當自行組織開展新技術新應用安全評估,編制書面安全評估報告,并對評估結果負責:(一)應用新技術、調整增設具有新聞輿論屬性或社會動員能力的應用功能的;(二)新技術、新應用功能在用戶規模、功能屬性、技術實現方式、基礎資源配置等方面的改變導致新聞輿論屬性或社會動員能力發生重大變化的。國家互聯網信息辦公室適時發布新技術新應用安全評估目錄,供互聯網新聞信息服務提供者自行組織開展安全評估參考。”
《互聯網新聞信息服務新技術新應用安全評估管理規定》第八條規定,“互聯網新聞信息服務提供者按照本規定第七條自行組織開展新技術新應用安全評估,發現存在安全風險的,應當及時整改,直至消除相關安全風險。按照本規定第七條規定自行組織開展安全評估的,應當在應用新技術、調整增設應用功能前完成評估。”
《互聯網新聞信息服務新技術新應用安全評估管理規定》第九條規定,“互聯網新聞信息服務提供者按照本規定第八條自行組織開展新技術新應用安全評估后,應當自安全評估完成之日起10個工作日內報請國家或者省、自治區、直轄市互聯網信息辦公室組織開展安全評估。”
[27] 《AIGC暫行辦法》第十三條規定,“提供者應當在其服務過程中,提供安全、穩定、持續的服務,保障用戶正常使用。”
[28] 《AIGC安全要求》正式文件規定,對于匯聚了網絡地址、數據鏈接等能夠指向或生成其他數據的情況,如果需要使用這些被指向或生成的內容作為語料,應將其視同于自采語料。





滬公網安備 31010402007129號