當包含人臉的視頻可以輕易通過電腦生成,我們的生活會產生何種影響呢?基於Deepfake(深偽)科技的應用在近期頻頻火爆全網。從TikTok上的湯姆克魯斯向你揮手和大笑,到黑白老照片裏動起來的人像神似哈利波特中的魔法部報紙。人們着迷於「深偽」帶來的有趣應用,但其的發展帶來的潛在危險也引來了許多擔憂,FBI甚至對其發出了警告。本文將從Deepfake的技術原理和發展過程,以及社會反響等層面介紹這一技術。
2018年,一條「奧巴馬」講話的視頻在網上瘋傳。視頻中,美國國旗前的「奧巴馬」正襟危坐,用他帶有磁性的聲音警告人們不要輕易相信在互聯網上看到的東西,隨後用令人意外的輕浮詞語形容時任總統特朗普是個「百分之百的蠢蛋」。或許是因為「奧巴馬」的反差形象造成出奇的娛樂效果,這條視頻在媒體和社交平台上得到廣泛傳播:僅在YouTube平台就有八百多萬的觀看。
但事實上,整條視頻的「拍攝」並沒有真正奧巴馬的參與,而是演員Jordan Peele在藉助計算機技術,憑空製造出來的,是一條典型的Deepfake深偽視頻。在讓人一笑的同時,這條視頻也着實讓觀眾捏了一把冷汗:我們還能相信親眼所見的東西嗎?
Deepfake的技術原理?
Deepfake由deep learning(深度學習)和fake(虛假)兩詞組合而來,人們通常用Deepfake形容通過使用深度學習等計算機技術合成的照片、視頻和音頻。其中,有一種Deepfake是算法完全憑空生成的,例如thispersondoesnotexist.com上展示的的人臉圖像;而另一種則是基於某些已知信息生成,如上文中的「奧巴馬」視頻是基於奧巴馬過去演講影像和音頻,配合演員的口型與發音而偽造的。Deepfake技術的核心目的是生成虛假的,但是看上去真實的圖像或音視頻,從而達到欺騙觀眾眼睛的效果。這個目的其實並不新鮮,亦不陌生:廣為大眾所熟悉的Photoshop和各種圖片視頻編輯軟件也都是為此設計的。
而這一技術背後的核心技術是「生成對抗網絡」(Generative Adversarial Network),也稱為GAN。它通常由兩個神經網絡組成,一個稱為生成器(generator),另一個稱為辨別器(discriminator),而GAN的結構會讓兩個神經網絡互相對抗。
其中,生成器的目的是不斷地生成新的人臉,並儘可能地使它真實。而辨別器的目的則是辨別它看到的人臉是真實(real)還是虛假(fake)。在訓練GAN的過程中,無數真實的人臉照片會餵給神經網絡。生成器會不斷地調整自己的參數,逐步提高生成人臉的真實度。與此同時,辨別器則會努力分辨生成器產生的圖片和真實的人臉圖片之間的差別。在這樣的設計下,兩個網絡會互相競爭,在不斷超越對方的過程中,逐步提高自己。
最終,一個完美的GAN中的辨別器將會有50%的概率(等同於隨機猜測)認為生成器生成的圖片是真實的,從而完成訓練,達到平衡。而Deepfake,則是由訓練完成之後的生成器單獨生成的。
除了不需要Photoshop那樣的直接操控以外,Deepfake在過去幾年受到廣泛關注並引起擔憂的原因還有三點:一是得益於快速發展的深度學習技術和不斷變複雜變快的GAN,Deepfake已經可以讓算法生成極高質量的人臉,足以迷惑人類。一份加州伯克利大學的研究指出,人類幾乎不可能將真實的人臉照片和StyleGAN2(一種GAN)產生的人臉圖片分別開來。
二是相比於Photoshop往往僅用於局部的修改,Deepfake可以對音視頻進行全面的修改,包括替換人物表情、發音甚至是生成全新的形象。
三是由於Deepfake的出現,製作欺騙性數字內容的門檻被大大拉低。在Deepfake誕生之前,生成逼真的虛假人像視頻往往需要專業的技術與耗時的人力打磨,也僅存在於好萊塢等影視行業。然而由於大量Deepfake開源代碼的存在,現在普通人僅僅需要一台電腦和互聯網,便可讓視頻中的人說或做從沒有發生過的事情。
Deepfake帶來了什麼危害?
其實這是一個古老問題的現代版本:內容造假。早在18世紀,喬治華盛頓的筆跡就曾被偽造,來向英國撰寫厭戰的歸降信。在近些年,基於郵件或電話的詐騙也屢見不鮮。人們或許已經不會對「遠房親戚」的一個「打錢」電話騙到,但很難想像如果詐騙者使用Deepfake打來視頻電話證明其「真身」,又會是怎樣一種情況。
2019年,一家英國公司的員工便被偽裝為其CEO的一通電話,騙得22萬英鎊。在電話中,CEO的聲音和他獨特的德國口音都被完美的實時模仿了出來。不過值得慶幸的是,基於Deepfake的詐騙目前還並不常見。
然而色情行業,就如同其推動了其他科技的普及(例如在線購物,直播服務,甚至互聯網本身),已經成為了Deepfake的主要平台。初創公司Sensity曾做過一份調查,互聯網上96%的Deepfake都是成人內容。始於Deepnude一款讓照片中的人瞬間脱衣的軟件,色情從業者很快意識到了Deepfake的商業價值:可以隨意將人物用換臉的方式無縫植入色情片中。隨着技術的普及,許多明星中招的同時,無數普通人也在不知情的情況下,被Deepfake到色情片中,其中女性受害者佔絕大多數。
這種低成本的製作,逐漸演變成一種全新的復仇色情(revenge porn)模式,讓受害者處於極其被動的一方,很難修復已經造成的形象傷害。僅需你的幾張照片,就可讓把你還原並變身為色情片的主角,下次上傳朋友圈自拍時你會猶豫一下嗎?
除了詐騙和色情業,Deepfake對社會生活帶來的影響也不容小覷。在互聯網時代,圖片、視頻和音頻往往是描述一個事實的重要組成部分,也是公共討論的基石。但Deepfake的存在,給這一切打上了問號。在一方面,Deepfake使得造謠和傳播虛假信息更加容易。設想如果有人在選舉前製作並傳播了一份使用Deepfake換臉的色情片,將政客植入,就算視頻最終被識別出是假視頻,但在輿論上掀起的風波和造成的危害也許會是不可逆轉的。
Deepfake軟件的普及給予了每一個人這樣武器:不論是老道狡猾的政客,還是看似無邪的中學生。而在另一方面,Deepfake更加隱晦的危害是侵蝕了事實的可信度,提供一種對事實否認的可能(plausible deniability)。面對影音頻證據,人們可以指認他們為電腦製作,是Deepfake生成,從而逃避指責或是進行有意的欺騙。而實際上,一個視頻是否真的由Deepfake製作並不重要,僅僅指認它有這種可能,就足以製造混亂並達到欺騙的目的。我們可以在假新聞(fake news)的討論中找到這兩種相似的危害,而許多人也因此把deepfake歸類於假新聞的一種。
上述的兩種危害已不僅僅只是假設。2018年,加蓬總統阿里·邦戈(Ali Bongo)因病而未公開現身多時,總統府也沒有傳遞出清晰的信號,告知公眾總統的身體情況,進而引發許多猜想和謠言。在2018年末,為了平息猜疑,總統府發布了一段阿里·邦戈的新年賀詞視頻。然而視頻中的阿里·邦戈眼神呆滯,動作僵硬,與他之前的神態有鮮明的不同。視頻一經發出就引來了許多質疑的聲音。有人認為視頻是Deepfake,而真正的總統早已死亡。輿論不斷發酵,進而在2019年的1月7日引發軍事政變。儘管政變以失敗告終,阿里總統隨後也有公開露面,但新年賀詞視頻的真假至今難以判斷。
研究員Aviv Ovadya警告說Deepfake可能會帶來對「真實的冷漠」。他說:當需要付出太多的精力才能分清什麼是真實時,人們更容易相信他們所原本相信的。
這對於一個已經分裂的社會來說十分危險。在2020年美國大選前,有無數的擔憂惡意Deepfake可能會影響大選結果,是一個國家安全威脅。為此,美國國會舉辦了多場聽證會,並通過了法案要求國土安全部監視Deepfake的發展。不過現在回看,人們預想中的危險並未出現。普遍認為有兩個原因,第一是製作令人信服的Deepfake仍然需要不少的人力打磨。
現階段的Deepfake視頻還會經常出現遮擋、不自然光線、重影等缺陷,場景也頗為局限。使用網絡上的開源軟件同樣需要一定的技術能力。第二則是人們發現,並不需要複雜Deepfake,經過簡單編輯的Cheapfake(注:Cheapfake指使用常見數碼編輯軟件進行選擇性編輯從而達到欺騙目的的假內容),配合誤導性的假消息,也一樣可以造成破壞並達到造假者的目的。去年8月,一條標題為「她是醉了嗎?!?!」的美國眾議院議長南希·佩洛西的視頻流傳網絡。視頻中她在回答記者提問時語速緩慢,頗有醉酒講話的感覺。然而,相比原始視頻,南希·佩洛西講話的片段被刻意放緩了語速。但這並沒有影響它在臉書上傳播,並在不支持她的人群中得到廣泛曝光。
哈佛大學最新的研究也證實了這一點。他們指出,Deepfake可以誤導群眾,但並不會比其他假新聞等欺騙手段更有效。促使人們相信或不信一個視頻的原因中,政治傾向佔到最大比重。這也就是說,如果你支持民主黨並看到了一個讓民主黨看上去是正面的視頻,你會更願意相信它是真的;反之亦然。Deepfake和假新聞的存在模糊了對真實的定義。或許以後沒有真實,只有信與不信。
人們慶幸Deepfake沒有對去年的美國大選造成實質性破壞,但隨着時間的流逝和技術的進步,Deepfake對公共信任的侵蝕只會加劇。在布魯金學會的一個報告中,Deepfake對政治和社會的危害被總結為:扭曲民主辯論;操控選舉;侵蝕對體制的信任;削弱媒體;加劇社會分裂;破壞公共安全;煽動對包括政客和候選人在內的知名人士難以修復的名譽傷害。
技術帶來的問題,可以用技術解決嗎?
如何解決Deepfake帶來的種種問題,是學術界和工業界最近幾年炙手可熱的一個話題。人們首先想到的方法就是用技術來檢測Deepfake。這種方法原理很簡單,是訓練另外一個神經網絡來觀察並學習Deepfake照片中存在的瑕疵,捕捉並歸類從而達到檢測的目的。通常情況下,這些瑕疵人眼看上去並不明顯,他們可以是微小的表情變化,光影變化,或者僅存在於頻域上,不在人眼的可見範圍之內。這些方法取得了很高的準確率,也頻頻亮相各大學術會議。
然而,GAN這種網絡的對抗性本質,使得它非常容易適應新興檢測技術,更新自己,擊破檢測。僅僅依靠檢測並不能解決Deepfake帶來的問題,而極有可能形成道高一尺,魔高一丈的貓鼠遊戲。谷歌的研究員就發現一種方法,可以在僅修改1/256個像素的情況下,讓Deepfake圖片逃避檢測。
另一種提出的方案是證明媒體內容的可追溯性(provenance)。在這個構想下,所有的圖片和視頻都會在源碼中包含其拍攝的相機型號、時間、地點,以及任何的後期修改,使得終端用戶可以查看這張圖片的歷史,從而核對其真實性。Adobe公司和《紐約時報》在2020年提出了「內容真實性計劃」。他們提議構建一個生態系統,讓多媒體內容從拍攝到製作到發布,都可以建立一份不可修改的證據,來溯源其真身。這樣的方案需要多方共同參與來形成規模效應,實際效果還有待觀察。
科技公司也在積極應對Deepfake帶來的問題。2019年,Facebook曾發現並刪除了從屬於同一個網絡的600多個「不真實」賬號。這些賬號使用了Deepfake生成的照片作為頭像,參與併發布了許多關於美國大選的新聞討論。相比於Facebook 28億的月活躍用戶,很有理由相信刪除的的這些賬號僅僅是「不真實」賬號的冰山一角。
除去科技上的局限,還有另外一個難題擺在想解決Deepfake問題的科技巨頭面前。一方面,他們不想讓有害的和欺騙性的Deepfake出現在平台上,並造成傷害;但另一方面,由於Deepfake在娛樂方面的應用,它們又很難甄別何種Deepfake是有害的,而避免誤傷其他內容,進而被指責侵犯言論自由並流失用戶。在執行方面,英語世界的主流社交軟件很大部分是採用被動式的內容審查,即收到用戶舉報後才會採取行動。這樣的策略也給了Deepfake足夠時間在平台上進行傳播並造成傷害。
認識到技術在解決Deepfake的局限性後,現在更多的一種聲音是呼籲將Deepfake視為一個社會問題,並訴諸於法律和教育。在法律方面,美國眾議院在19年提出了《深度偽造責任法案》(DEEP FAKES Accountability Act)。儘管其隨後被批評為過於寬泛且不可執行,但它的立法目的指導了隨後加州德州等各州對防範Deepfake對選舉產生危害的立法。而在中國,今年1月1日生效的《民法典》中,有條款明確禁止使用技術手段偽造等方式侵害他人肖像權,矛頭直指Deepfake。不過各國對Deepfake的立法仍處在早期階段,還沒有相關判例,效果如何也有待觀察。
而對於用戶和互聯網的使用者,提升自身對Deepfake的警惕意識和老生常談的媒體素養可能才是解決問題的關鍵(推薦「找出Deepfake」小測驗)。考慮到技術在不斷發展,Deepfake一定會以更完美、更隱秘的方式出現在我們生活當中(如Deepfake製作的廣告)。儘管不是所有的Deepfake都會有惡意用途,但我們同樣也不能期盼科技和法律可以消滅以欺騙為目的而製作的Deepfake。就像電信詐騙一樣,學着與它們共生,是未來互聯網衝浪的必修課。
(張百武,人工智能和計算機科學研究者)
那個測試 真的很威
喜歡最後的小測試,很有用
這篇文章很重要。
多謝分享。