在迎來諸多質(zhì)疑以及指責(zé)后,美國當(dāng)?shù)貢r(shí)間4月5日,ChatGPT研發(fā)者OpenAI在其官網(wǎng)中發(fā)布了題為《Our approach to AI safety》(《我們保障AI安全的方法》)的文章,介紹了該公司確保AI模型安全性的部署,以下為GPT-4翻譯的全文內(nèi)容。
【資料圖】
OpenAI致力于確保強(qiáng)大的AI安全且具有廣泛的益處。我們知道,我們的AI工具為當(dāng)今的人們提供了許多好處。全球各地的用戶告訴我們,ChatGPT有助于提高他們的生產(chǎn)力、增強(qiáng)創(chuàng)造力并提供定制的學(xué)習(xí)體驗(yàn)。我們也意識(shí)到,與任何技術(shù)一樣,這些工具帶來了實(shí)際風(fēng)險(xiǎn),因此我們努力確保在系統(tǒng)的各個(gè)層面都建立安全保障。
構(gòu)建越來越安全的AI系統(tǒng)
在發(fā)布任何新系統(tǒng)之前,我們進(jìn)行嚴(yán)格的測試,征求外部專家的反饋,使用諸如基于人類反饋的強(qiáng)化學(xué)習(xí)等技術(shù)改進(jìn)模型行為,并構(gòu)建廣泛的安全監(jiān)控系統(tǒng)。
例如,在我們最新的GPT-4模型完成訓(xùn)練后,我們花了6個(gè)多月的時(shí)間在整個(gè)組織內(nèi)部努力工作,以使其在公開發(fā)布之前更加安全和更具一致性。
我們認(rèn)為,強(qiáng)大的AI系統(tǒng)應(yīng)該接受嚴(yán)格的安全評(píng)估。我們需要監(jiān)管以確保采用此類做法,并積極與政府合作,制定最佳監(jiān)管形式。
從現(xiàn)實(shí)世界中學(xué)習(xí)以改善保障措施
在部署之前,我們努力預(yù)防可預(yù)見的風(fēng)險(xiǎn),但實(shí)驗(yàn)室中我們能學(xué)到的東西是有限的。盡管進(jìn)行了廣泛的研究和測試,我們無法預(yù)測人們將以何種有益的方式使用我們的技術(shù),也無法預(yù)測人們會(huì)如何濫用它。這就是為什么我們認(rèn)為從現(xiàn)實(shí)世界中學(xué)習(xí)是隨著時(shí)間推移創(chuàng)建和發(fā)布越來越安全的AI系統(tǒng)的關(guān)鍵組成部分。
我們謹(jǐn)慎而逐步地發(fā)布新的AI系統(tǒng)——設(shè)有嚴(yán)格的保障措施——逐漸擴(kuò)大的用戶群,同時(shí)根據(jù)我們學(xué)到的經(jīng)驗(yàn)不斷改進(jìn)。
我們通過自己的服務(wù)以及API,使開發(fā)人員能夠?qū)⒋思夹g(shù)直接嵌入到他們的應(yīng)用程序中,從而提供我們最有能力的模型。這使我們能夠監(jiān)控和采取行動(dòng)制止濫用,不斷建立應(yīng)對(duì)實(shí)際濫用方式的緩解措施,而不僅僅是關(guān)于可能出現(xiàn)的濫用情況的理論。
現(xiàn)實(shí)世界的應(yīng)用還使我們能夠針對(duì)對(duì)人們構(gòu)成真正風(fēng)險(xiǎn)的行為制定越來越細(xì)致的政策,同時(shí)仍然允許我們技術(shù)的諸多有益用途。
至關(guān)重要的是,我們認(rèn)為社會(huì)必須有時(shí)間來適應(yīng)并調(diào)整以適應(yīng)越來越強(qiáng)大的AI,而且受這項(xiàng)技術(shù)影響的每個(gè)人都應(yīng)該對(duì)AI的進(jìn)一步發(fā)展有重要的發(fā)言權(quán)。迭代式部署幫助我們更有效地將各方利益相關(guān)者納入AI技術(shù)采用的討論中,而如果他們沒有親身體驗(yàn)這些工具,這將無法實(shí)現(xiàn)。
保護(hù)兒童
我們安全工作的一個(gè)關(guān)鍵重點(diǎn)是保護(hù)兒童。我們要求使用我們的AI工具的人必須年滿18歲,或者在父母同意的情況下年滿13歲,并正在研究驗(yàn)證選項(xiàng)。
我們不允許我們的技術(shù)用于生成仇恨、騷擾、暴力或成人內(nèi)容等類別。與GPT-3.5相比,我們的最新模型GPT-4在響應(yīng)不允許內(nèi)容的請(qǐng)求方面減少了82%的可能性,我們建立了一個(gè)強(qiáng)大的系統(tǒng)來監(jiān)控濫用行為。GPT-4現(xiàn)已向ChatGPT Plus訂閱者提供,我們希望隨著時(shí)間推移,讓更多人使用它。
我們已經(jīng)付出了巨大的努力,以盡量減少我們的模型產(chǎn)生損害兒童的內(nèi)容的可能性。
除了我們默認(rèn)的安全護(hù)欄外,我們還與像非營利性的可汗學(xué)院這樣的開發(fā)者合作,可汗學(xué)院已經(jīng)構(gòu)建了一個(gè)AI驅(qū)動(dòng)的助手,既可以作為學(xué)生的虛擬導(dǎo)師,也可以作為教師的課堂助手,為他們的使用案例提供定制的安全緩解措施。我們還在開發(fā)允許開發(fā)者為模型輸出設(shè)置更嚴(yán)格標(biāo)準(zhǔn)的功能,以更好地支持希望獲得此類功能的開發(fā)者和用戶。
尊重隱私
我們的大型語言模型是在包括公開可用內(nèi)容、許可內(nèi)容和人類審查員生成的內(nèi)容等廣泛文本語料庫上進(jìn)行訓(xùn)練的。我們不使用數(shù)據(jù)來銷售我們的服務(wù)、做廣告或建立人物檔案,而是使用數(shù)據(jù)讓我們的模型對(duì)人們更有幫助。例如,ChatGPT通過對(duì)人們與其進(jìn)行的對(duì)話進(jìn)行進(jìn)一步訓(xùn)練而得到改進(jìn)。
盡管我們的部分訓(xùn)練數(shù)據(jù)包括在公共互聯(lián)網(wǎng)上可獲取的個(gè)人信息,但我們希望我們的模型了解世界,而不是私人個(gè)體。因此,我們努力在可行的情況下從訓(xùn)練數(shù)據(jù)集中刪除個(gè)人信息,對(duì)模型進(jìn)行微調(diào)以拒絕請(qǐng)求私人個(gè)體的個(gè)人信息,并回應(yīng)個(gè)人要求從我們的系統(tǒng)中刪除他們的個(gè)人信息的請(qǐng)求。這些步驟將使我們的模型生成包含私人個(gè)體個(gè)人信息的回應(yīng)的可能性降到最低。
提高事實(shí)準(zhǔn)確性
如今的大型語言模型根據(jù)之前看到的模式預(yù)測下一系列單詞,包括用戶提供的文本輸入。在某些情況下,接下來最有可能的單詞可能并不是事實(shí)上準(zhǔn)確的。
提高事實(shí)準(zhǔn)確性是OpenAI和許多其他AI開發(fā)者的重要關(guān)注點(diǎn),我們正在取得進(jìn)展。通過利用用戶對(duì)被標(biāo)記為錯(cuò)誤的ChatGPT輸出的反饋?zhàn)鳛橹饕獢?shù)據(jù)來源,我們已經(jīng)提高了GPT-4的事實(shí)準(zhǔn)確性。與GPT-3.5相比,GPT-4生成事實(shí)內(nèi)容的可能性提高了40%。
當(dāng)用戶注冊(cè)使用該工具時(shí),我們努力盡可能透明地告知ChatGPT可能并不總是準(zhǔn)確的。然而,我們認(rèn)識(shí)到,還有很多工作要做,以進(jìn)一步減少幻覺的可能性,并教育公眾了解這些AI工具的當(dāng)前局限性。
持續(xù)的研究與參與
我們認(rèn)為,解決AI安全問題的實(shí)際方法是,花費(fèi)更多的時(shí)間和資源研究有效的緩解措施和對(duì)齊技術(shù),并針對(duì)現(xiàn)實(shí)世界的濫用進(jìn)行測試。
同樣重要的是,我們還認(rèn)為,提高AI的安全性和能力應(yīng)該并行進(jìn)行。我們迄今為止最好的安全工作來自與我們最有能力的模型合作,因?yàn)樗鼈兏瞄L遵循用戶的指示,更容易引導(dǎo)或“指導(dǎo)”。
我們在創(chuàng)建和部署更有能力的模型時(shí)會(huì)越來越謹(jǐn)慎,并將隨著我們的AI系統(tǒng)的發(fā)展不斷加強(qiáng)安全預(yù)防措施。
盡管我們等待了超過6個(gè)月才部署GPT-4,以便更好地了解其能力、優(yōu)勢和風(fēng)險(xiǎn),但有時(shí)可能需要比這更長的時(shí)間來提高AI系統(tǒng)的安全性。因此,政策制定者和AI提供商需要確保AI的開發(fā)和部署在全球范圍內(nèi)得到有效治理,這樣就不會(huì)有人為了領(lǐng)先而抄近路。這是一個(gè)需要技術(shù)和制度創(chuàng)新的艱巨挑戰(zhàn),但我們非常愿意為此作出貢獻(xiàn)。
解決安全問題還需要廣泛的辯論、實(shí)驗(yàn)和參與,包括關(guān)于AI系統(tǒng)行為的界限。我們已經(jīng)并將繼續(xù)促進(jìn)利益相關(guān)者之間的合作和開放對(duì)話,以創(chuàng)建一個(gè)安全的AI生態(tài)系統(tǒng)。
該文由GPT-4翻譯完成
風(fēng)險(xiǎn)提示及免責(zé)條款:市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)
最近更新