引言
2023年7月31日,蘋果APP Store宣布對中國大陸區中大量提供Chat GPT類服務的應用進行集中下架。在面向應用開發者給出的回復中,蘋果官方表示相關應用未依據中國大陸地區的法律要求取得許可證,故“需下架整改,整改完畢上架”。某種角度而言,該情況可以理解為《生成式人工智能服務管理暫行辦法》(“《AIGC暫行辦法》”)施行在即引發的“連鎖反應”。2023年8月15日即將施行的《AIGC暫行辦法》是我國亦是全球針對生成式人工智能服務領域制定的首部法規,其中提出了對生成式人工智能服務的分類分級監管要求,明確了提供和使用生成式人工智能服務總體要求,一定程度上,其標志著我國生成式人工智能服務領域進入強監管和高合規標準的新階段。
實際上,我國對生成式人工智能服務的合規監管的強化早已有跡可循。早在今年年初,國家互聯網信息辦公室、工業和信息化部、公安部針對深度合成服務制定的《互聯網信息服務深度合成管理規定》(“《深度合成管理規定》”)順利施行,其明確了深度合成服務相關方的義務與主體責任,強化了對互聯網信息服務深度合成領域的管理。《AIGC暫行辦法》將與《深度合成管理規定》一并為我國大模型領域構建更為完善的治理和監管框架。
本文將對我國監管體系項下的大模型領域的合規要素予以梳理,并重點關注現實環境下,梳理當前落地應用的大模型主要的合規義務。
一、 什么是大模型?
(一) 大模型——內含大量參數的深度學習模型
大模型,即Foundation Models,通常是指具有大量參數和復雜結構的深度學習模型。這些模型的參數量較大,通常需要數十億甚至上百億個參數,相較于傳統的較小規模模型,大模型具有更高的容量和表達能力。大模型可以通過訓練大規模數據集,以實現更準確的預測和更高的性能,并依據相關指令,完成各種目標任務。我們熟知的OpenAI的ChatGPT與Google的Alpha Go就是典型的語言類大模型:ChatGPT以Transformer模型為基礎,具有1750億個參數;而Alpha Go具有超過1億個參數。
根據百度、華為等企業近期密集發聲的情況來看,目前企業應用大模型主要體現為以下三種模式:一是自主構建基礎大模型,但是考慮到訓練大模型的成本和技術壁壘都非常高,因此只有少數企業會自建大模型。二是建立行業大模型,通常是了解行業know-how的企業,結合自身掌握的行業數據,用基礎大模型精調出更貼合實際場景的垂類行業大模型。三是在基礎大模型和行業大模型之上,開發AI應用,這也是目前大多數企業采取的模式。 [1]
(二) 以大模型為技術基石的生成式人工智能
生成式人工智能,是以大模型為技術基石、繼專業生產內容(Professionally-Generated Content,PGC)、用戶生成內容(User-Generated Content,UGC)之后的新型內容創作方式。在大模型的支撐下,早期生成式人工智能在文本生成領域以內容創作為主,后逐漸向音頻生成、圖像生成等領域推廣,逐步在企業端和消費者端領域實現變現,并完成了在消費、產業、學術等諸多場景的落地和應用。目前,微軟已將ChatGPT嵌入到微軟各大系列產品,包括將GPT-4接入搜索引擎New Bing和Edge瀏覽器、推出集成New Bing和其他插件的AI助手平臺Copilot以應用于Office、協作軟件Teams以及其他商業應用;同時,OpenAI也正在著手打造基于語言類大模型的應用商店,打通所有接入ChatGPT的應用體系。
總體而言,大模型在自然語言處理、圖像識別、語音識別等領域取得了顯著的成果,帶來了更精準和高效的機器學習和人工智能應用。但是,大模型的迅速推廣應用引發了一系列隱患,如大模型服務被惡意利用開展違法犯罪活動、協助罪犯進行“AI”詐騙;又如部分高校師生利用大模型大量生成文章或者研究內容,在學術造假、學術不端的同時,也可能不知不覺侵犯了潛在權利人的知識產權;此外,還引發了虛假信息傳播、數據和隱私信息泄露、偏見歧視等諸多問題。因此,大模型的推廣應用,勢必伴隨著系統規范的大模型合規監管體系。
二、 大模型合規要素
在我國當前的監管體系下,大模型合規要素主要涉及的范疇包括平臺運營合規、內容合規、平臺管理合規、網絡安全與數據合規、算法技術合規、國際聯網合規等方面,具體合規要素以及相應的法律法規依據詳見下圖:
大模型合規要素一覽
三、 大模型合規相關概念解析
以下,我們首先對上述合規要素提及的“生成式人工智能技術”、“深度合成技術”、“算法推薦技術”、“具有輿論屬性或社會動員能力的互聯網信息服務”等大模型合規的重要概念解析如下:
| 概念 |
定義 |
| “生成式人工智能技術” |
依據《AIGC暫行辦法》,“生成式人工智能技術”是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術。
|
| “深度合成技術” |
依據《深度合成管理規定》,“深度合成技術”是指利用深度學習、虛擬現實等生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等網絡信息的技術,包括但不限于篇章生成、文本風格轉換、問答對話等生成或者編輯文本內容的技術;人臉生成、人臉替換、人物屬性編輯、人臉操控、姿態操控等生成或者編輯圖像、視頻內容中生物特征的技術;三維重建、數字仿真等生成或者編輯數字人物、虛擬場景的技術等。
|
| “算法推薦技術”
|
依據《互聯網信息服務算法推薦管理規定》(“《算法推薦管理規定》”),“算法推薦技術”是指利用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等算法技術向用戶提供信息的技術。
|
| “具有輿論屬性或社會動員能力的互聯網信息服務”
|
依據《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》(“《安全評估規定》”),“具有輿論屬性或社會動員能力的互聯網信息服務”是指開辦論壇、博客、微博客、聊天室、通訊群組、公眾賬號、短視頻、網絡直播、信息分享、小程序等信息服務或者附設相應功能以及開辦提供公眾輿論表達渠道或者具有發動社會公眾從事特定活動能力的其他互聯網信息服務。
|
需要說明的是,大模型的核心概念其實是“深度學習+自動生成”,而生成式人工智能技術、深度合成技術和算法推薦技術并非相互獨立,三者相互配合運作才形成了完整的大模型結構。同時,在滿足一定條件的情況下,基于生成式人工智能技術、深度合成技術和算法推薦技術所提供的服務會成為具有輿論屬性或社會動員能力的互聯網信息服務,而該等服務需要滿足特殊的合規要求。
四、 大模型合規義務承擔主體
(一) 大模型服務提供者
大模型服務提供者,即利用大模型技術提供服務的組織、個人。具體來講,大模型服務提供者又分為以下兩類:
? 平臺運營方
平臺運營方是指負責大模型的商業性開發,依據相關規定取得相應資質證照,承擔相應義務與責任,提供大模型技術應用服務的組織、個人。在大部分情形下,平臺運營方針對的是面向終端消費者的大模型應用場景,比如百度文心一格網站,抖音快手上面的一些AI特效功能。
? 技術支持方
技術支持方是指負責大模型的技術性開發的組織、個人。技術支持方是大模型的設計者、開發者和完成者,掌握著大模型背后的核心算法和運行規則,負責處理數據訓練、生成內容標記、模型優化等技術性事項。在大部分情形下,技術支持方針對的是面向企業的大模型應用場景,通常以API形式為企業等提供大模型技術支持。
在《深度合成管理規定》中,合規主體分為“深度合成服務提供者”和“深度合成服務技術支持者”,分別對應上述“平臺運營方”和“技術支持方”;而《AIGC暫行辦法》《算法推薦管理規定》等相關法律法規均未對“生成式人工智能服務提供者”、“算法推薦服務提供者”進行進一步區分。盡管如此,根據該等規定項下“人工智能服務提供者”、“算法推薦服務提供者”責任和義務相關的具體規定,“平臺運營方”和“技術支持方”同樣需要依據其提供的服務內容及類型承擔不同的責任和義務。例如,負責模型訓練的技術服務方應當確保訓練數據的來源合法合規,而不參與模型訓練、不涉及訓練數據處理活動的平臺運營方應當對技術支持方提供的模型進行必要的合規審查,要求技術支持方對訓練數據來源的合法合規性進行陳述保證等,具體詳見下文。
(二) 什么是“向境內公眾提供大模型服務”
根據《AIGC暫行辦法》,行業組織、企業、教育和科研機構、公共文化機構、有關專業機構等研發、應用生成式人工智能技術,未向境內公眾提供生成式人工智能服務的,不適用本辦法的規定(第2條)。也即,需要遵守相關大模型合規義務的主體,是指向境內公眾提供了服務的大模型服務提供者。若上述主體未向境內公眾提供服務的,則不適用大模型相關合規規定。
基于前述規定,實踐中也出現了僅面向企業端提供大模型應用服務的大模型服務提供者是否可適用前述規定、豁免相關合規義務的討論。我們理解,從該條款的目的來看,加強大模型的合規要求與監管要求旨在規范公共層面的數據流通、傳播,避免重要、敏感信息的泄露,以及防止違法、虛假信息和內容在社會層面廣泛傳播。因此,如果大模型服務提供者僅面向特定企業提供服務,且該企業僅在企業內部使用大模型服務,不會導致大模型服務成果向公眾流通,則有可能并不適用相關合規義務。然而,若大模型服務提供者(“A主體”)作為技術支持方自研大模型,向中國境內的另一作為平臺運營方的大模型服務提供者(“B主體”)提供大模型技術接口并收取技術服務費,接入了大模型技術接口的B主體進而面向中國境內的消費者提供大模型應用服務,我們傾向于認為A主體與B主體均需要履行相關的合規義務。
五、 平臺運營方與技術支持方的合規義務
(一) 平臺運營方的合規要求
1. 資質證照
為了保障大模型服務的合規發展,平臺運營方在進入市場提供服務前,必須依照相關法律規定取得相應的資質證照。平臺運營方作為互聯網信息服務提供者,應當根據《互聯網信息服務管理辦法》和《中華人民共和國電信條例》,申請辦理B25類信息服務業務的增值電信業務經營許可證(“ICP證”);同時,如平臺運營方提供的服務具有輿論屬性或者社會動員能力,平臺運營方在向公眾提供服務前,應當進行安全評估,并按照《算法推薦管理規定》履行算法備案手續。具體而言:
(1) 增值電信業務經營許可證
根據《互聯網信息服務管理辦法》,互聯網信息服務可分為經營性和非經營性兩類。經營性互聯網信息服務,是指通過互聯網向上網用戶有償提供信息或者網頁制作等服務活動。非經營性互聯網信息服務是指通過互聯網向上網用戶無償提供具有公開性、共享性信息的服務活動(第3條)。國家對經營性互聯網信息服務實行許可制度;對非經營性互聯網信息服務實行備案制度。未取得許可或者未履行備案手續的,不得從事互聯網信息服務(第4條)。因此,針對經營性互聯網信息服務,應取得經營許可證。許可證類型根據相應業務而決定,例如:從事經營性互聯網信息服務,需取得B25類增值電信業務經營許可證(即ICP證);從事在線數據處理與交易處理業務,需取得B21類增值電信業務許可證(即EDI證)。
結合大模型服務的特點,一方面,在平臺運營方向用戶提供大模型應用服務的情況下,平臺運營方通過對訓練數據和用戶輸入對話的采集和處理以及平臺的建設,通過互聯網向用戶提供信息內容,通常情況下涉及為其他單位或個人用戶發布文本、圖片、音視頻、應用軟件等提供平臺服務,即信息發布平臺和遞送服務;值得注意的是,大模型服務提供的內容不是經檢索與排序的原始信息,而是基于對用戶對話的理解和訓練數據的分析、編輯后生成的文本,大模型本身也參與了信息的生產過程,這與單純的通過信息收集與檢索、數據組織與存儲、分類索引、整理排序等方式為用戶提供網頁信息、文本、圖片、音視頻等信息檢索查詢服務存在一定差異。另一方面,對于“經營性”和“非經營性”的判斷,實踐中,不宜簡單以服務是否收費來判斷有償或是無償,而往往需要充分考慮是否存在變相營利的情形,與科研、公益等非經營性活動有明顯區分。因此,通常而言,大模型服務往往會涉及經營性互聯網信息服務,平臺運營方應當取得由國務院信息產業主管部門或者省、自治區、直轄市電信管理機構頒發的ICP證。
(2) 算法備案
目前我國多部法律法規中均以《算法推薦管理規定》為基礎,對于“算法備案”的要求予以明確,具體如下:
? 根據《算法推薦管理規定》,具有輿論屬性或者社會動員能力的算法推薦服務提供者應當在提供服務之日起十個工作日內通過互聯網信息服務算法備案系統填報服務提供者的名稱、服務形式、應用領域、算法類型、算法自評估報告、擬公示內容等信息,履行備案手續。算法推薦服務提供者的備案信息發生變更的,應當在變更之日起十個工作日內辦理變更手續。算法推薦服務提供者終止服務的,應當在終止服務之日起二十個工作日內辦理注銷備案手續,并作出妥善安排(第24條)。
? 根據《深度合成管理規定》,具有輿論屬性或者社會動員能力的深度合成服務提供者,應當按照《互聯網信息服務算法推薦管理規定》履行備案和變更、注銷備案手續,同時,在完成備案后應當在其對外提供服務的網站、應用程序等的顯著位置標明其備案編號并提供公示信息鏈接(第19條)。
? 根據《AIGC暫行辦法》,提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照《互聯網信息服務算法推薦管理規定》履行算法備案和變更、注銷備案手續(第17條)。
2023年6月,國家互聯網信息辦公室發布境內深度合成服務算法備案清單,其中包括美團在線智能客服算法、快手短視頻生成合成算法、百度文生圖內容生成算法、百度PLATO大模型算法、天貓小蜜智能客服算法、菜鳥物流智能客服算法、訊飛星火認知大模型算法、騰訊云語音合成算法等。算法備案已經成為相關企業保證其合規、穩定發展不可或缺的重要手續。有實務人士指出,ChatGPT本身未進行算法備案,這可能是相關應用被集中下架的主要原因。 [2] 因此,我們理解平臺運營方應履行算法備案手續以實現平臺經營合規,避免后續在通過應用商店上架過程中遇到障礙。
(3) 安全評估
目前我國多部法律法規中均涉及“安全評估”的要求,具體如下:
? 根據《安全評估規定》,互聯網信息服務提供者開展安全評估,應當對信息服務和新技術新應用的合法性,落實法律、行政法規、部門規章和標準規定的安全措施的有效性,防控安全風險的有效性等情況進行全面評估(第5條),并且應該將評估報告通過全國互聯網安全管理服務平臺提交所在地地市級以上網信部門和公安機關(第7條)。互聯網信息服務提供者在安全評估中發現存在安全隱患的,應當及時整改,直至消除相關安全隱患(第6條)。
? 根據《算法推薦管理規定》,具有輿論屬性或者社會動員能力的算法推薦服務提供者應當按照國家有關規定開展安全評估(第27條)。
? 根據《深度合成管理規定》,深度合成服務提供者和技術支持者提供具有以下功能的模型、模板等工具的,應當依法自行或者委托專業機構開展安全評估:(一)生成或者編輯人臉、人聲等生物識別信息的;(二)生成或者編輯可能涉及國家安全、國家形象、國家利益和社會公共利益的特殊物體、場景等非生物識別信息的。(第15條)。深度合成服務提供者開發上線具有輿論屬性或者社會動員能力的新產品、新應用、新功能的,應當按照國家有關規定開展安全評估(第20條)。
? 根據《AIGC暫行辦法》,提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照國家有關規定開展安全評估(第17條)。
如前文所述,目前我國法律法規僅對“具有輿論屬性或社會動員能力的互聯網信息服務”予以界定,而對于何為具有輿論屬性或社會動員能力的算法推薦服務、深度合成服務、生成式人工智能服務,我國法律法規并未給出定義;根據我們在過往項目中的經驗,在實務中,對于何為“具有輿論屬性或社會動員能力”的判斷較為寬泛,幾乎涵蓋了所有具備信息共享功能的服務。因此,我們理解,一方面,大模型服務涉及“具有輿論屬性或社會動員能力的互聯網信息服務”的可能性較高,需按照《安全評估規定》通過全國互聯網安全管理服務平臺完成安全評估;另一方面,還需按照國家網信部門的要求,按照《AIGC暫行辦法》等法律法規的規定,滿足針對大模型服務的特殊安全評估要求,包括主體安全保障、信息安全管理、用戶安全、技術安全等等。
2. 內容合規
作為典型的互聯網信息服務提供者,平臺運營方需要承擔我國法律對網絡服務提供者設置的“監控義務”:一是審查義務,即在被明確告知違法信息存在之前,主動對其系統或網絡中的信息的合法性進行審查;二是事后控制義務,即在知道違法信息的存在后及時釆取刪除、屏蔽等措施阻止侵權信息繼續傳播。除此之外,就用戶輸入數據與大模型服務生成內容(“服務生成內容”),平臺運營方還面臨著用戶輸入數據合規、服務生成內容合規和知識產權保護三方面的義務。
(1) 用戶輸入數據合規
大模型的數據運用場景主要包括模型訓練階段對訓練數據的使用以及模型使用階段對輸入數據的使用,且模型使用階段收集的數據后續也可能成為新的訓練數據。而平臺運營方本身并不負責模型訓練,故關于其數據合規義務的討論,往往集中在模型使用階段的輸入數據。
平臺運營方是典型的互聯網服務提供者,需遵守《中華人民共和國網絡安全法》(“《網絡安全法》”)、《中華人民共和國數據安全法》(“《數據安全法》”)、《中華人民共和國個人信息保護法》(“《個人信息保護法》”)、《AIGC暫行辦法》等規定的網絡安全、數據安全以及個人信息保護義務。關于平臺運營方的數據合規相關義務,我們將在下文進行詳細討論。
此外,平臺運營方作為深度合成服務提供者,需履行《深度合成管理規定》規定的用戶輸入數據審核義務,采取技術或者人工方式對用戶的輸入數據進行審核,識別違法和不良信息。
(2) 服務生成內容合規
根據《AIGC暫行辦法》以及網絡信息安全領域的監管要求,大模型平臺運營方需要保證服務生成內容合規,承擔對服務生成內容的審核義務,建立健全服務生成內容治理機制,依法設立辟謠機制、設立違法和不良信息識別特征庫,積極承擔信息內容管理主體責任,加強平臺網絡信息內容生態治理,培育積極健康、向上向善的網絡文化;同時,當平臺運營方發現違法內容的,應當及時采取停止生成、停止傳輸、消除等處置措施,并向有關主管部門報告。服務生成內容的具體合規要點詳見下表:
| 序號 |
合規要點 |
具體內容 |
| 1. |
符合法律、行政法規,尊重社會公德、倫理道德 |
堅持社會主義核心價值觀,不得生成煽動顛覆國家政權、推翻社會主義制度,危害國家安全和利益、損害國家形象,煽動分裂國家、破壞國家統一和社會穩定,宣揚恐怖主義、極端主義,宣揚民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規禁止的內容。 |
| 2. |
避免歧視 |
在算法設計、訓練數據選擇、模型生成和優化、提供服務等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。 |
| 3. |
尊重知識產權與公平競爭 |
尊重知識產權、商業道德,保守商業秘密,不得利用算法、數據、平臺等優勢,實施壟斷和不正當競爭行為。 |
| 4. |
內容的真實性與準確性 |
基于服務類型特點,采取有效措施,提升生成式人工智能服務的透明度,提高生成內容的準確性和可靠性。 |
| 5. |
尊重他人合法權益 |
尊重他人合法權益,不得危害他人身心健康,不得侵害他人肖像權、名譽權、榮譽權、隱私權和個人信息權益。 |
| 6. |
服務生成內容標識義務 |
在生成或者編輯的信息內容的合理位置、區域進行顯著標識,向公眾提示深度合成情況,避免公眾被混淆、誤導。 |
針對平臺運營方的服務生成內容標識義務,該規定主要針對的是目前服務生成內容難以被分辨,甚至出現技術被濫用、誤用等問題,故標識的作用在于警示和提醒用戶,確保用戶明確知曉該內容是由大模型生成的,因此無法保證內容的真實性。大模型經過訓練后,對一些概念具備了較為穩定的“認知”,圍繞相關概念的生成內容往往表現出驚人的一致性。一旦模型在訓練過程中引入偏見歧視等有害信息,在模型實際應用中很可能呈現負面的放大化效應,這是極為危險的。對此,有實務人士指出:“標識AI生成、深度合成的內容,是成本最低且有望從根本杜絕上述相關問題的方法。” [3]
(3) 知識產權保護
如我們之前的文章《ChatGPT許可應用,知識產權和數據怎么看?》所述,利用已有作品進行大模型訓練的行為很難構成“合理使用”。因此,在服務生成內容生成過程中涉及與已有作品的接觸且服務生成內容與已有作品存在實質性相似的情況下,服務生成內容可能涉及知識產權侵權。平臺運營方作為網絡服務提供者,應當盡到前述用戶輸入數據審核以及服務生成內容合規方面的義務,并履行《中華人民共和國民法典》第1195條規定的“通知-刪除”義務,否則可能因違反相應的注意義務而需承擔共同侵權的責任。
3. 平臺管理合規
根據《AIGC暫行辦法》等相關法律法規,平臺運營方還需承擔平臺管理責任,具體要點如下:
| 序號 |
合規要點 |
具體內容 |
| 1. |
指導、保護用戶義務 |
通過明確并公開其提供服務的適用人群、場合、用途,指導使用者科學理性認識和依法使用生成式人工智能技術,并且采取有效措施防范未成年人用戶過度依賴或者沉迷生成式人工智能服務。 |
| 2. |
穩定服務義務 |
在其服務過程中,提供安全、穩定、持續的服務,保障用戶正常使用。 |
| 3. |
違法整改義務 |
(1) 發現違法內容的,應當及時采取停止生成、停止傳輸、消除等處置措施,采取模型優化訓練等措施進行整改,并向有關主管部門報告; (2) 發現使用者利用生成式人工智能服務從事違法活動的,應當依法依約采取警示、限制功能、暫停或者終止向其提供服務等處置措施,保存有關記錄,并向有關主管部門報告。 |
| 4. |
建立健全投訴舉報機制義務 |
建立健全投訴、舉報機制,設置便捷的投訴、舉報入口,公布處理流程和反饋時限,及時受理、處理公眾投訴舉報并反饋處理結果。 |
4. 網絡安全與數據合規
對于平臺運營方而言,在模型的使用階段,其會收集各行業領域的不同類型的數據,因此,一方面,平臺運營方需要保證對外提供的模型本身的合法合規,另一方面,面對收集和處理的海量數據,平臺運營方還應當充分履行網絡安全、數據安全以及個人信息保護相關義務。此外,
(1) 模型數據來源合法性審查
雖然平臺運營方本身不負責訓練模型,但是作為直接面向消費者的生成式人工智能服務的提供者,平臺運營方應當對模型的開發者即技術支持方開發提供的模型的數據來源合法性進行必要的審查,對技術支持方數據安全保護能力開展盡職調查。在平臺運營方與技術支持方簽署的相關技術服務合同中,平臺運營方可以要求技術支持方對模型訓練數據來源的合法合規性進行陳述保證,明確雙方的權利義務,避免因技術支持方所提供的模型本身的數據來源合法性問題影響平臺運營方業務的持續開展。
(2) 網絡安全
《網絡安全法》對作為網絡運營者的企業提出的合規義務可以總結為兩個方面:一方面,從網絡運行安全的角度出發,要求網絡運營者應當按照網絡安全等級保護制度的要求,履行安全保護義務,保障網絡免受干擾、破壞或者未經授權的訪問,防止網絡數據泄露或者被竊取、篡改。另一方面,從網絡信息安全的角度出發,要求網絡運營者應當對其收集的用戶信息嚴格保密,并建立健全用戶信息保護制度,并采取技術措施和其他必要措施,確保其收集的個人信息安全,防止信息泄露、毀損、丟失。根據《網絡安全法》,只要是由運營軟硬件設備組成的、按照一定的規則和程序對信息進行收集、存儲、傳輸、交換、處理的信息系統的主體,均屬于網絡運營者。因此,平臺運營方作為網絡運營者也應當履行《網絡安全法》項下的合規義務,在安全管理層面,平臺運營方需在企業內部明確網絡安全的責任,并通過完善的規章制度、操作流程為網絡安全提供制度保障;在技術層面,平臺運營方應當采取各種事前預防、事中響應、事后跟進的技術手段,應對網絡攻擊,從而降低網絡安全的風險。
(3) 數據安全
《數據安全法》從多方面規定了企業的數據安全保護義務,包括數據分類分級、安全管理制度、風險監測、風險評估等,面向消費者提供生成式人工智能服務的平臺運營方作為《數據安全法》項下的數據安全合規主體,因此也應當履行《數據安全法》項下的合規義務,包括但不限于:對數據的重要程度、敏感程度等進行分級,并根據其重要程度、敏感程度的不同進行分級保護;建立健全全流程數據安全管理制度,組織開展數據安全教育培訓,采取相應的技術措施和其他必要措施,保障數據安全;加強風險監測,發現數據安全缺陷、漏洞等風險時,應當立即采取補救措施等。
(4) 個人信息保護
《個人信息保護法》規制個人信息全生命周期的保護和處理活動,要求企業應在個人信息的收集、存儲、使用、加工、傳輸、提供、公開、刪除等方面落實合規義務。面向消費者的生成式人工智能應用服務在個人信息保護方面與其他應用服務相比有很多相同之處,包括制定用戶服務協議、隱私政策,明確處理用戶數據的合法性基礎。在此基礎上,《AIGC暫行辦法》針對個人信息保護進一步規定,提供者對使用者的輸入信息和使用記錄應當依法履行保護義務,不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求(第11條)。可以看出,個人信息保護已成為大模型合規的關注重點。
此外,個人信息的跨境傳輸問題也應當引起平臺運營方的關注。根據《AIGC暫行辦法》,無論是中國境外的技術支持方直接面向中國境內公眾提供生成式人工智能服務,還是平臺運營方通過接入中國境外的API接口向中國境內公眾提供生成式人工智能服務,均應當履行《AIGC暫行辦法》項下的合規要求。在此過程中,平臺運營方很可能涉及將中國境內用戶的個人信息傳輸至境外。在該等情形下,平臺運營方還應當按照《個人信息保護法》《數據出境安全評估辦法》《個人信息出境標準合同辦法》等相關法律法規履行個人信息跨境傳輸相關的合規要求,并根據不同的場景選擇合適的跨境傳輸方式。
(5) 國際聯網合規
根據《計算機信息網絡國際聯網管理暫行規定》及《工業和信息化部關于清理規范互聯網網絡接入服務市場的通知》,任何單位和個人不得自行建立或者使用其他信道進行國際聯網,未經電信主管部門批準,個人、法人和其他組織不得自行建立或租用專線(含虛擬專用網絡VPN)等其他信道開展跨境經營活動,否則可能面臨停止聯網、警告、15000元以下的罰款及沒收違法所得的行政責任。因此,平臺運營方自行建立信道或租用未經電信主管部門批準建立的信道使用境外技術提供方提供的技術服務,將受到相應行政處罰。為了保證合規經營,避免不必要法律風險,平臺運營方應該履行相應的申請手續,租賃使用合規的國際專線。
根據我國相關法律法規的規定,我國提供國際聯網服務的經營者需要具有A14-4國際數據通信業務的基礎電信業務經營許可證,目前僅有三大運營商,即電信、聯通與移動具有該證照。部分電信運營企業可能會持有固定網國內數據傳送業務(A24-1)或國內互聯網虛擬專用網業務(B13)。盡管前述兩項證照里都有VPN的字眼,但這兩項證照不涉及A14-4國際數據通信業務,僅能在有限范圍內提供VPN服務,不能提供跨境VPN。因此,平臺運營方應注意相關證照的具體范圍,避免被證照名稱中VPN的字眼所迷惑,確保供應商確有資格提供國際聯網業務。
(二) 技術支持方的合規要求
1. 資質證照
技術支持方作為算法推薦服務提供者、深度合成服務技術支持者以及生成式人工智能服務提供者,與平臺運營方一樣,需履行算法備案手續和安全評估義務。具體參見前序針對平臺運營方的資質證照要求,在此不做贅述。值得注意的是,在實際備案和安全評估過程中,技術支持方需填報的內容與平臺運營方存在差異,例如,在算法備案的過程中,平臺運營方需填報關聯產品及功能信息,而技術支持方需填報技術服務方式,建議技術支持方予以關注。
2. 數據訓練合規
數據訓練是大模型技術存在的基礎,是大模型應用的底層邏輯核心,數據是大模型最底層的“原料”,而數據訓練是對“原料的使用”。因此,數據訓練合規是滿足服務生成內容合規、知識產權合規、個人信息合規等合規要素的重要前提。一直以來,數據訓練合規都是大模型監管的重中之重。《AIGC暫行辦法》明確了生成式人工智能服務提供者在進行大模型訓練時所應當履行的合規義務,其應當使用具有合法來源的數據和基礎模型,不得侵害他人依法享有的知識產權,涉及個人信息的應當取得個人的同意或者符合法律、行政法規規定的其他情形。因此,在大模型數據訓練環節,技術支持方首先應當確保訓練數據來源的合法性,尤其應當關注訓練數據中是否包含需要取得另行許可或授權的知識產權或個人信息等數據,對該問題的具體分析,可參見我們之前的文章《ChatGPT許可應用,知識產權和數據怎么看?》。此外,與平臺運營方一樣,技術支持方在大模型訓練環節同樣也應當履行網絡安全、數據安全和個人信息保護義務。值得注意的是,此次《AIGC暫行辦法》還對訓練數據的質量和訓練過程中的數據標注提出了更加明確的要求。
(1) 數據質量要求
根據《AIGC暫行辦法》,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:……(四)采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性(第7條)。
模型的開發要求技術支持方必須借助大量的數據對模型進行訓練,但是,與大量數據相比,良好的數據質量對于獲得預期的最終結果至關重要。自生成式人工智能面世之初,其存在的“一本正經地胡說八道”現象便引起了人們的警惕。這種虛假信息的產生很可能會誤導用戶,加劇社會對共享信息的不信任。如何保障生成內容的真實性,既是產業界為進一步擴大生成式人工智能商用范圍需要克服的技術難題,也是監管部門需要重點考量的問題。 [4] 而提高訓練數據的質量,就是為了盡可能提高生成式人工智能的可靠性與可信度,進而有效堵住實際應用中的風險漏洞,避免生成式人工智能被錯用、誤用、濫用。
(2) 數據標注
根據《AIGC暫行辦法》,在生成式人工智能技術研發過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升尊法守法意識,監督指導標注人員規范開展標注工作(第8條)。
數據標注是數據訓練的關鍵環節。所謂數據標注,指的是對未經處理的語音、圖片、文本、視頻等原始數據進行加工處理,使其成為結構化數據讓機器可識別的過程。因此,它決定著大模型最底層“原材料”的安全屬性。但是,數據標注過程中,標注人員不可避免地會將個人意識投射至人工智能的算法邏輯中,而標注過程中的人為錯誤會導致數據質量變差,直接影響模型的性能和預測,因此制定清晰明確的標注規則、對標注人員進行培訓均是提高人工智能生成內容的準確性和可靠性的必要措施。
3. 算法技術合規
除按規定履行算法備案手續,《算法推薦管理規定》《深度合成管理規定》《AIGC暫行辦法》等還為技術支持方設置了算法技術管理責任,有關算法技術管理責任的具體合規要點詳見下表:
| 序號 |
合規要點 |
具體內容 |
| 1. |
反歧視機制 |
在算法設計、訓練數據選擇、模型生成和優化、提供服務等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。 |
| 2. |
算法機制機理審核 |
定期審核、評估、驗證算法機制機理、模型、數據和應用結果;不得設置誘導用戶沉迷、過度消費等違反法律法規或者違背倫理道德的算法模型。 |
| 3. |
公平競爭機制 |
不得利用“算法共謀”方式形成壟斷,排除市場競爭,遵循反壟斷、反不正當競爭相關法律規定。 |
| 4. |
提供必要支持和協助 |
有關主管部門依據職責對生成式人工智能服務開展監督檢查,提供者應當依法予以配合,按要求對訓練數據來源、規模、類型、標注規則、算法機制機理等予以說明,并提供必要的技術、數據等支持和協助。 |
結語
飛速發展的大模型給現代產業、教育、生活、娛樂、醫療領域帶來了革命性發展。我們必須承認大模型已經成為現代社會進步與發展的必要工具。然而,大模型在大幅解放生產力的同時,相關的道德、倫理、法律等問題也備受關注。因此,對大模型的合規監管日益重要。基于對人工智能的規制不應限制技術而是防止其野蠻生長這一基本原則,世界各地探尋合理的監管與合規之策,而我國在初步形成大模型合規監管體系的基礎之上,也將不斷細化、深化該等監管體系。因此,包括平臺運營方、技術提供方在內的各主體需及時關注相關合規法律動態,在拓展大模型的應用領域的同時,確保落實相應的合規要求。
[1] 參見《百度沈抖:文心大模型擁有中國最大的產業應用規模,已在十余個行業落地》,財經網,2023年7月6日,鏈接:http://tech.caijing.com.cn/20230706/4945904.shtml,最后訪問時間:2023年8月5日。
[2] 參見《蘋果集中下架中國區Chat GPT相關產品,未進行算法備案與數據跨境不合規或為主因》,世界經濟報道,2023年8月2日。https://www.jwview.com/jingwei/html/08-02/552102.最后訪問日期:2023年8月4日。
[3] 參見《“生成式人工智能服務管理暫行辦法”解讀:明確“不適用”場景,充分“松綁”AI發展》,央廣網,2023年7月18日,鏈接:http://m.cnr.cn/tech/20230718/t20230718_526333552.html,最后訪問時間:2023年8月4日。
[4] 參見《專家解讀|推動生成式人工智能精細化治理》,中央網信網,2023年7月13日,鏈接:http://www.cac.gov.cn/2023-07/13/c_1690898363806525.htm,最后訪問時間:2023年8月6日。





滬公網安備 31010402007129號