當ChatGPT的廣東話「講唔正」:AI 年代,低資源語言是否注定被邊緣化?

在AI 半吊子的廣東話背後,是語言傳承與社會資源分配的角力。

你聽過 ChatGPT 說廣東話麼?

如果你是普通話母語者,恭喜你瞬間收穫「精通粵語」成就。反而是會說廣東話的人,這時可能要一頭霧水了--ChatGPT 自帶奇特口音,像外地人在努力說廣東話。

2023年9月的一次更新中, ChatGPT第一次擁有了「說」的能力;2024年5月13日,最新一代模型 GPT-4o 發布,雖然新版的語音功能尚未正式面世,只存在於 demo 中,但從去年的更新中,已經可以一窺 ChatGPT多語言語音對話的能力。

而很多人也發現了,ChatGPT 講廣東話口音濃重,雖然語氣自然,像真人一樣,但那個「真人」肯定不是廣東話母語者。


為了查證這一點,探尋背後的原因,我們展開了粵語語音軟件的對比測試:受測者有 ChatGPT Voice、蘋果 Siri、百度文心一言,以及 suno.ai。其中,前三者均為語音助手,suno.ai 則是近期紅熱極一時的人工智能音樂生成平台。它們都具備根據提示詞用粵語或近似粵語來生成回應的能力。

就詞彙發音而言,Siri 和文心一言都發音正確,但回答比較機械和死板,其餘兩位選手則有不同程度的發音錯誤。很多時候,錯誤之處都是在用傾向普通話的方式來發音,比如「影」粵語應作「jing2」,變成了普通話「ying」;「亮晶晶」應作「zing1」,卻讀成「jing」。

「高樓大廈」的「高」被 ChatGPT 發為「gao」,而實際應為粵拼「gou1」。土生土長的廣東人 Frank 也指出,這是一個非母語者中常見的發音錯誤,還常被本地人拿來開玩笑——因為「gao」是指涉性器官的廣東話髒話。ChatGPT每次發音表現都會略有不同,「高樓大廈」的「廈」有時能發為正確的「haa6」,有時又錯讀為「xia」,一個廣東話中不存在,近似普通話中「廈」的發音。

語法上,生成的文本明顯更偏書面,只偶爾夾雜口語化表達。遣詞造句也時常會突然切換為普通話的模式,脫口而出「買東西」(廣東話:買嘢),「用粵語來給你介紹一下香港啦」(廣東話:用粵語同你介紹下香港啦)等不符廣東話慣用口語語法的句子。

suno.ai 在創作廣東話饒舌歌詞時,也寫出類似「街坊邊個仿得到,香港嘅特色真正靚妙」的,語義不明的歌詞;我們把這句拿給ChatGPT 評價,它指出「這句似乎是普通話的直譯,或者是普通話混合廣東話的句法(syntax)」。

作為對比,我們也發現,在它們嘗試使用普通話時,這些差錯基本都不會出現。當然,同是廣東話,廣州﹑香港﹑澳門都有不同的口音與用語差別;被視為粵語「標準」的西關口音,與香港的常用廣東白話就非常不一樣。 但ChatGPT的廣東話,最多只能說是「唔鹹唔淡」(指不熟練,半吊子)的普通話母語者會有的口音。

這是怎麼一回事?ChatGPT是不會廣東話嗎?但它沒有直接表示不支持,而是對它展開了一番想象,而這種想象明確建立在一種更強勢,更有官方背書的語言之上。這會不會成為一個問題?

語言學家兼人類學家沙皮爾(Edward Sapir)認為,口語影響着人們與世界互動的方式。當一種語言無法在人工智能時代聲張自己,這意味着什麼?對於廣東話的樣貌,我們會逐漸與AI共享同樣的想象麼?

沒有「資源」的語言

翻閱 OpenAI 公開的信息,去年ChatGPT推出的語音模式展現的對話能力,實則由三個主要部分組成:首先由開源的語音識別系統 Whisper 將口語轉為文本——再由 ChatGPT 文字對話模型生成文字回覆——最後由一個文本轉語音模型(Text-To-Speech,以下簡稱 TTS)來生成音頻,並對發音方式進行微調。

也就是說,對話內容仍然是由 ChatGPT3.5 的本體生成的,其訓練集為網絡上已經存在的大量文本,而非語音資料。

在這點上,廣東話存在顯著的劣勢,因為它很大程度上存在於口語而非書寫中。官方層面,粵語區使用的書面語為源自北方漢語的標準書面中文,它更接近普通話而非粵語;而書面粵語,也就是符合粵語口語的語法與詞彙習慣的書寫系統,又稱粵文,則主要出現於非正式的場合,比如網絡論壇中。

這種使用時常不遵循統一的規則。「大約有 30% 廣東話的字,我也不知道該怎麼寫。」 Frank 就表示,人們在網絡聊天時遇到不會寫的字,常常也只是在中文拼音鍵盤上找個發音近似的字打上去。例如廣東話中的「亂噏廿四」(lyun6 up1 jaa6 sei3;意即胡說八道),就常被寫成「亂up廿四」。雖然彼此之間大多能理解,但這進一步讓現存的粵語文本變得雜亂且標準不一。

大語言模型的出現讓人們理解了訓練集對於人工智能的重要性,以及其可能帶有的偏見。但實際上,在生成式 AI 出現之前,不同語言之間的數據資源差距就已經造成了鴻溝。大多數自然語言處理系統都是用高資源語言設計和測試的,在全球所有活躍語言中,只有 20 種被認為是「高資源」語言,比如英語、西班牙語、普通話﹑法語﹑德語﹑阿拉伯語﹑日語﹑韓語。

而擁有 8500 萬使用者的廣東話,在自然語言處理(NLP)中則時常被視為是一種低資源語言。作為深度學習的起點,維基百科的英文內容壓縮後大小為 15.6GB,繁簡混合版壓縮後為 1.7GB,粵版壓縮後僅有 52MB,與近 33 倍的差距。

同樣地,現存最大的公開語音數據集 Common Voice 中, Chinese (China) 的語音數據有 1232 小時,Chinese (Hong Kong) 為 141 小時,Cantonese 為 198 小時。

語料缺失會深刻影響到機器的自然語言處理表現。2018 年的一份研究發現,如果語料庫中的平行句子少於 13K,機器翻譯就無法實現合理的翻譯結果。這也影響到機器「聽寫」的表現。ChatGPT Voice 採用的開源 Whisper 語音識別模型(V2 版本)性能測試,粵語字符錯誤率要明顯高於普通話。

模型的文本表現顯示出粵文的資源不足,而決定我們聽感的發音和語調又是如何出錯的呢?

機器是怎麼學會說話的?

人類很早就萌生出讓機器說話的念頭,最早可以追溯到 17 世紀,早期的嘗試包括使用風琴或風箱等,機械地將空氣泵入模擬胸腔、聲帶和口腔結構的複雜裝置。這一思路隨後被一名叫費伯(Joseph Faber)的發明家納用,打造了一個身着土耳其服飾的說話假人——但當時人們都不理解這有什麼意義。

直到家用電器愈加普及,讓機器說話的主意,才引發了更多人的興趣。

畢竟對絕大多數人來說,用編碼進行交流並不自然,也有相當一部分殘障人群因此被隔絕在技術之外。

1939 年的世博會上,貝爾實驗室工程師達德利(Homer Dudley)發明的語音合成器 Voder 向人類發出了最早的「機器之聲」。
1939 年的世博會上,貝爾實驗室工程師達德利(Homer Dudley)發明的語音合成器 Voder 向人類發出了最早的「機器之聲」。

1939 年的世博會上,貝爾實驗室工程師達德利(Homer Dudley)發明的語音合成器 Voder 向人類發出了最早的「機器之聲」。對比現今機械學習的「神秘」,Voder的原理簡單易明,而且場觀衆都能看到:一名女性操作員坐在一台玩具鋼琴一樣的機器前,通過熟練控制 10 個按鍵,來產生近似於聲帶摩擦的發音效果。操控員還可以踩下腳踏板,改變音高,模擬更歡快或是更沉重的語氣。一旁,一名主持者不斷讓觀衆提出新的詞語,以證明 Voder 的聲音並非預先錄製。

透過當年的錄音,《紐約時報》評價,Voder 的聲音像「深海中傳來外星人的問好」,又像個爛醉如泥的人囫圇吐字,難以理解。但在當時,這種技術已足以讓人驚奇不已,這屆世博會期間, Voder 吸引了全世界超 500 萬人次前來參觀。

早期智能機器人、外星生物的聲音想象從這些裝置中獲取了諸多靈感。1961 年,貝爾實驗室的科學家讓 IBM 7094 唱起了 18 世紀的英國小曲 「Daisy Bell」。這是已知最早的由計算機合成聲音演唱的歌曲。《2001:太空漫遊》的作者克拉克曾去過貝爾實驗室聽 IBM 7094 唱 Daisy Bell,這本小說中,超級電腦 HAL 9000 最先學會的就是這首曲子。在電影版中,片末被初始化的 HAL 9000 意識混亂時,開始吟唱起 「Daisy Bell」,靈動擬人的聲音逐漸退歸於機械的低吼。

自此,語音合成經歷了數十年的演進。而在 AI 時代的神經網絡技術成熟前,串聯(concatenative synthesis)和共振峰合成(formant synthesis)是最常見的方法——實際上如今常見的許多語音功能仍是通過這兩種方法實現的,比如讀屏。其中,共振峰合成在早期佔據主導地位。它的發聲原理與 Voder 的思路很相似,利用基頻、清音、濁音等參數的控制結合,來生成無限量的聲音。這帶來了一個很大的優勢,你能用它來產出任何語言:早在 1939 年, Voder 就能說法語了。

那麼當然它當然也可以說廣東話。2006 年,還在中山大學讀計算機軟件理論碩士的廣州人黃冠能在計劃畢業課題時,想到可以做一款適用於視障人士的 Linux 瀏覽器,過程中他接觸到了 eSpeak,一款採用共振峰合成的開源語音合成器。由於在語言上的優勢,eSpeak 出現後很快被投入實際應用,2010 年 Google 翻譯開始為大量語言添加朗讀功能,包括普通話、芬蘭語、印度尼西亞語等,就是通過 eSpeak 實現的。

2015年11月24日,中國北京,一座機械臂在用毛筆寫中文字。
2015年11月24日,中國北京,一座機械臂在用毛筆寫中文字。

黃冠能決定為 eSpeak 添加他的母語,也就是廣東話的支持。但由於原理的侷限,eSpeak 合成的發音有着明顯的縫合感,「就像你學習中文,不是通過漢語拼音,而是英文的音標來拼讀一樣,效果就很像一個外國人學說漢語。」黃冠能表示。

因此他又做了 Ekho TTS。如今,這款語音合成器支持廣東話、普通話,甚至是詔安客語、藏語、雅言、廣東台山話等更為小衆的語言。Ekho 採用的是串聯的方法,更淺顯的說法就是拼貼——預先錄製人類發音,「說話」時將它們拼貼在一起。這樣一來,單字發音會更加標準,而一些常用詞彙如果被完整錄入,也會讓聽感更加自然。黃冠能整理了包含 5005 個音的廣東話發音表,從頭到尾錄製完成需要 2 到 3 個小時。

深度學習的出現為這個領域帶來了變革。基於深度學習算法的語音合成從大規模語音語料庫中學習文本和語音特徵之間的映射,而無需依賴事先設定的語言學規則和錄製好的語音單元。這種技術讓機器聲音的自然程度向前邁進了一大步,很多時候效果已經與真人無異,且憑藉十幾秒的語音就克隆出一個人的音色與說話習慣—— ChatGPT 的 TTS 模塊使用的便是這種技術。

相比於共振峰合成和串聯技術,這類系統為語音合成省去了大量的前期人力成本,但也對文本和語音的配對資源提出了更高的要求。比如 Google 2017 年推出的端到端模型 Tacotron,就需要超過 10 小時的訓練數據才能獲得較好的語音質量。

為照顧到很多語言的資源稀缺,近年來,研究者提出了一種遷移學習的方法:先用高資源語言的數據集訓練出一個通用模型,再將這些規律遷移到低資源語言的合成中。
一定程度上,這種遷移而來的規律仍然攜帶着原本數據集的特徵——就像擁有第一母語的人去學習一門新語言時,會帶入自身母語的語言知識。2019 年 Tacotron 團隊就曾提出過一個模型,可以在不同語言之間克隆同一說話者的嗓音。在 demo 演示中,英語母語者在「說」普通話時,儘管發音標準,卻帶有十分明顯的「外國人口音」。

《南華早報》上的一篇評論中指出,香港人用標準漢語寫作,為了讓所有講中文的人都能理解自己的意思,必須使用現代標準漢語中的「他們」——「他們」,粵拼為「taa1 mun4」,是一個粵語口語幾乎永遠不會用的詞;粵語中的意指「他們」的,是發音寫法都截然不同的「佢哋」(keoi5 dei6)。

在一個解法處理普遍問題這一點上,最新的 GPT-4o 模型做得更加極致,OpenAI 介紹,他們端到端地訓練了一個跨文本、視覺和音頻的模型,所有輸入輸出都由這一通用的神經網路進行處理。該模型如何處理不同語言,這一點尚不明確,但看起來它在跨任務之間的通用性要比過去都更強。

一名老師在教授中文。攝: Lucy Nicholson/Reuters/達志影像
一名老師在教授中文。攝: Lucy Nicholson/Reuters/達志影像

但廣東話和普通話之間的互通時而會讓問題更為複雜。

在語言學上,有「語言分層」或「雙層語言」(diglossa)這一概念,指在特定社會中存在兩種緊密聯繫的語言,一種具更高威望,通常為政府所用,另一種則常作為方言口頭使用、或謂之白話。

在中國的語境中,普通話是最高層次的語言,用於正式書寫、新聞播報、學校教育和政府事務。而各地方言,如粵語、閩南語(台語)、上海話等,則是低層次語言,主要用於家庭和地方社區的日常口頭交流。

因此,在廣東、香港和澳門便造成了這樣的現象,粵語是大多數人的母語,用於日常口語交流,而正式的書面語言則通常是使用普通話的書面標準漢語。

兩者之間有許多相似卻實際不同,諸多如「他們」與「佢哋」這般的「不和諧對」,也反而可能導致從普通話到粵語的遷移變得更加困難和誤會重重。

日漸邊緣化的粵語

「對於粵語未來的擔憂絕非空穴來風。語言衰微發生的速度很快,可能在一、兩個世代之內就式微,而一旦語言邁向衰亡,就很難力挽狂瀾。」James Griffiths《請說國語》

至此,似乎可以認為,語音合成在粵語上的表現不佳是技術處理低資源語言時的能力所致。採用了深度學習算法的模型,在面對不熟悉的詞語時,會生出聲音的幻象。
但香港中文大學電子工程系教授 Tan Lee,在聽過 ChatGPT 的語音表現後,給出了一點不同的意見。

油麻地戲院上演的一齣粵劇。攝:林振東/端傳媒
油麻地戲院上演的一齣粵劇。攝:林振東/端傳媒

Tan Lee 自 1990 年代初開始致力於語音語言相關的研究,領導開發了一系列以粵語為核心的口語技術,並得到了廣泛的應用。他在 2002 年與團隊合作推出的粵語語音語料庫 CU Corpora,是彼時世界同類數據庫中最大的,包含兩千多人的錄音數據。蘋果的第一代語音識別在內,許多公司和研究機構希望開發粵語功能時,都曾向他們購買這套資源。

在他看來,ChatGPT 的廣東話語音表現「水平不是很好,主要是不穩定,聲音的質量、發音的準確性整體都不是讓人很滿意」。但這種表現不佳並非源於技術侷限。實際上,如今市面上許多具備廣東話能力的語音生成產品,質量都要遠高於此。以至於他對網絡視頻中 ChatGPT 的表現感到難以置信,一度以為是深度仿冒的贗品,「如果是做語音生成模型的,做成這樣基本不能見人,等於自殺」。

以香港中文大學自身開發的系統為例,最先進的一批在語音效果上已經很難分辨是真人還是合成的聲音。與普通話和英語等更強勢的語言相比,AI廣東話只在一些更個性化和生活化的場景中,情感表現會遜色一些,比如在父母與孩子的對話、心理諮詢、工作面試的場景中,廣東話會顯得比較冰冷。

「但嚴格來講,在技術上這並沒有什麼難度,關鍵在於社會資源的選擇。」 Tan Lee 表示。

相比於 20 年前,語音合成領域已經發生了翻天覆地的變化,CU Corpora 的數據量跟如今的數據庫相比「可能還不到萬分之一」。語音技術的商業化讓數據成為了一種市場資源,只要願意,數據公司隨時可以提供大量的定製數據。而廣東話作為口語化語言,文本與語音的平行數據缺少的問題,近年來隨着語音識別技術的發展,也已經不再是一個問題。在當下,廣東話作為「低資源語言」的說法,Tan Lee 認為已經不再準確。

也正是因此,在他看來,市面上機器的廣東話表現反映的並非是技術的能力,而是市場與商業的考慮。「假設現在全中國一起學廣東話,那肯定可以做起來;又比如,現在香港跟內地越來越融合,假設有一天教育政策變成,香港的中小學不能用廣東話,只能說普通話,那就又會是另外一個故事了。」

「吃下什麼便吐出什麼」的深度學習展現出的口音,實際上是廣東話在現實空間受到的擠壓。

黃冠能女兒剛剛上廣州的幼稚園中班,而從小只會說廣東話的她,在上學一個月之後,就精通了普通話。如今,即便是與家人鄰居的日常交流,她也更習慣用普通話,只有跟黃冠能還願意說廣東話,「因為她最想跟我一起玩,就要根據我的喜好來」。在他眼中,ChatGPT 的表現就很像是女兒如今說粵語時的樣子,很多詞彙想不起來怎麼說,就用普通話來代替,或是通過普通話猜測它的發音。

這是廣東話在廣東地區長期不受重視,甚至從官方語境中被完全排除的結果。1981 年廣東省人民政府的一份政府文件中寫道,「推廣普通話是一項政治任務」,尤其對於方言複雜,對內對外交往頻繁的廣東,「力爭三、五年內大中城市一切公共場合都使用普通話;六年內各類學校基本普及普通話。」

2010年8月1日,中國廣州的集會,數百抗議者走上廣州街頭,要求政府停止壓制粵語。攝:Stringer/Reuters/達志影像
2010年8月1日,中國廣州的集會,數百抗議者走上廣州街頭,要求政府停止壓制粵語。攝:Stringer/Reuters/達志影像

在廣州成長的 Frank 對此也有很深的記憶,童年電視公共頻道裡播放的電影,外語片都沒有中文配音,使用字幕,唯獨粵語片一定會有普通話配音才會在電視上播放。
在此背景下,粵語日漸式微,使用者數量驟減,校園牽頭「封殺粵語」,也引發了對粵語存亡以及與之相關的身份認同的激辯。2010 年,廣州的網絡與線下爆發大規模「撐粵語」行動。當年的報道中提及,人們將這場論戰與法國小說《最後一課》中的場景相提並論,認為大半個世紀的文化激進主義使原本茂盛的語言枝幹日益萎縮。
對於香港,廣東話更是本地文化的關鍵載體,港片、港樂對外塑造了這裏社會生活的面貌。

2014 年,教育局官網曾刊登一篇文章,文中稱廣東話為「不是法定語言的中國方言」,引發了激烈的爭論,最終以教育局人員出面道歉收場。2023 年 8 月,香港捍衛粵語組織「港語學」宣布解散,創始人陳樂行在之後的採訪中提及廣東話在香港面臨的現狀:政府積極推動「普教中」,即用普通話教授中文科,但因市民關注,令政府「慢咗個步伐」。

這些都足見在香港人心目中廣東話的重要性,但也顯示出這個語言在本地面臨的長期壓力,沒有官方身分的脆弱性以及政府與民間的持續角力。

網上粵語辭典-粵典。攝:盧翊銘/端傳媒
網上粵語辭典-粵典。攝:盧翊銘/端傳媒

不被代表的聲音

語言的幻象不僅存在於粵語中。Reddit 論壇與 OpenAI 的討論區,來自世界各地的用戶都反映了 ChatGPT 在說非英語語言時存在類似表現:

「它的意大利語語音識別非常好,總是能聽懂且表達流利,就像一個真人。但奇怪的是,它有英國口音,就像一個英國人在說意大利語。」

「本英國人表示,它有美國口音。我很討厭這一點,所以我選擇不用。」

「荷蘭語也是,很煩人,彷彿它的發音是用英語音素訓練出來的。」

語言學上,將口音定義為一種發音方式,每個人受到地理環境、社會階層等因素影響,都或多或少會有發音選擇上的差異,這常常體現在音調、重音或詞彙選擇上的不同。有趣的是,過去被廣泛提及的一些口音,大多源於世界各地的人試圖掌握英語時從母語中攜帶而來的習慣,比如印度口音、新加坡口音、愛爾蘭口音——這反映了世界語言的多樣性。但人工智能展現出的,則是主流語言對區域性語言的曲解和反向入侵。

技術放大了這種入侵。Statista 在今年二月的一份數據報告中着重點出,雖然全世界僅 4.6% 的人將英語作為母語,它卻壓倒性地佔據網絡文本的 58.8%,這意味着它在網絡上具有比現實中更大的影響力。即便是將所有會說英語的人納入,這 14.6 億人也只佔世界人口的不到 20%,也就是說世界上大約五分之四的人無法理解網絡上發生的大部份事情。進一步來講,他們也很難讓精通英語的人工智能為自己工作。

牛津英語字典。攝:Matthew Horwood/Getty Images
牛津英語字典。攝:Matthew Horwood/Getty Images

一些來自非洲的計算機科學家發現,ChatGPT 經常錯解非洲語言,翻譯很粗淺,對於祖魯語(Zulu;班圖語的一種,全球約有900萬使用者),它的表現「好壞參半、令人捧腹」,對於提格雷尼亞語(Tigrinya;母語國主要為以色列和埃塞俄比亞,全球約有800萬使用者)的提問,則只能得到亂碼的回答。這一發現引發了他們的擔憂:缺乏適用於非洲語言、可以識別非洲名稱和地點的人工智能工具,會使非洲人民難以參與到全球經濟體系,比如電子商務與物流中,難以獲取信息並自動化生產過程,進而被阻擋在經濟機會之外。

將某種語言作為「黃金標準」的訓練方式,還會讓人工智能在判別時有所偏差。史丹福大學 2023 年的一項研究發現,人工智能錯誤地將大量托福考試作文(非英語母語者的寫作)標記為 AI 生成,對於英語母語學生的文章時卻不會如此;另外一項研究則發現,在面對黑人說話者時,自動語音識別系統的錯誤率幾乎是面對白人時的兩倍,而且這些錯誤並非由語法,而是「語音、語音或韻律特徵」,也就是「口音」引起。

讓人更不安的是,在模擬庭審的實驗中,面對非裔美式英語的使用者,大語言模型判處死刑比例要更高於說標準美式英語的人。

一些擔憂的聲音指出,如果不考慮底層技術的缺陷,只因便利就不假思索地講現有的人工智能技術投入使用,將產生嚴重的後果。比如一些法庭轉錄已經開始使用自動語音識別,對於有口音或是不精通英語當事人的語音記錄更可能產生偏差,而帶來不利的判決。

更進一步思考,未來人們會不會為了被 AI 理解而放棄或改變自己的口音?現實中,全球化和社會經濟發展的已經帶來這樣的改變。Frank 目前在北美讀研究生,同班的加納同學跟她分享過當下這個非洲國家的語言使用現狀:書面文本基本上都使用英文,即便是私人的文本,比如書信也是如此。口語中則夾雜了大量英文單詞,這導致即便是當地人,也逐漸開始忘記一些非洲母語詞彙或表述方式。

在 Tan Lee 看來,如今人們正陷入對機器的一種癡迷。「因為機器現在做得好,我們就拼命地跟機器去說話」,這是一種本末倒置。「我們為什麼說話?我們說話的目的不是為了轉成文字,也不是讓它生成回答。在現實世界,我們說話的目的是為了交流。」

他認為,技術發展方向應當是讓人與人之間能溝通地更好,而非與電腦交流的更好。在這個前提下,「我們很容易想到很多有待解決的問題,比如有人聽不到,可能因為耳聾,也可能離得太遠,可能不懂這個語言,可能大人不會講小孩的話,小孩不會講大人話。」

如今有很多好玩的語言技術,但它們是否讓我們溝通地更為順暢?它在包容每個人的不同,還是讓人們愈發與主流靠近呢?

ChatGPT 設計圖片。攝:Beata Zawrzel/NurPhoto via Getty Images
ChatGPT 設計圖片。攝:Beata Zawrzel/NurPhoto via Getty Images

當人們在慶祝 ChatGPT 帶來的前沿突破,日常中的一些基礎應用卻仍並未從中受益。Tan Lee 至今仍能在機場廣播中,聽到合成語音發出錯誤的發音,「溝通的第一要點就是準確,但這都沒有做到,這是不能接受的」。

幾年前,因為個人精力有限,黃冠能停止了 Ekho 對安卓系統版本的維護,但停了一段時間,突然又有用戶跑來希望他將其恢復。他才得知,如今安卓系統已經沒有免費的粵語 TTS 可用了。

用當下的眼光看來,黃冠能開發的 Ekho 採用的已經是完全落伍的技術,但仍具有獨特之處。作為本土的獨立開發者,他在設計時帶入了對於這個語言的切身經驗。他記錄的廣東話包含了七個聲調,其中第七個是香港語言學會提出的 Jyutping (粵拼)中不存在的一個發音。「『煙』這個詞在『抽煙』和『煙火』中,會發出不同的聲調,也就是第一聲和第七聲。」

在整理發音字典時,他曾請教過 Jyutping 的研發者,得知隨着時代變化,年輕一代的香港人不再分辨第一聲與第七聲的區別,這個音也因此逐漸消失了。但他仍選擇將第七音納入,這並非出於公認的標準,只是他個人的情感記憶,「土生土長的廣州人是可以聽出來的,現在使用還是非常普遍」。

只聽到這個音,老廣便能分辨,你是本地人還是外來的。

讀者評論 11

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 呢篇寫得好正,作者罕有地對技術、語言和寫作報導都有涉臘,深入淺出,資料詳細,上乘之作!

  2. @影青蓮 下次發表評論前先認真看完文章。
    「在當下,廣東話作為「低資源語言」的說法,Tan Lee 認為已經不再準確。也正是因此,在他看來,市面上機器的廣東話表現反映的並非是技術的能力,而是市場與商業的考慮。」

  3. @影青蓮 所說的「对于样本数量不足的东西动用人力的学习它就是会比AI更好」
    我不知道你這樣的結論是如何得出的。粵語的樣本數量比不上 英文 普通話 阿拉伯語等的確是少很多。但是是否到了「數量不足」的程度我覺得又是另一回事。 至於動用人力的學習就是會比AI更好?先不論這個技術問題能否通過對餵的數據做出調整慢慢修正翻。現實是AI被用作協助保留瀕危語言的輔助工具已經有好幾年的時間,特別是原住民社區的語言。退一萬步,現在世界上有大量的瀕危語言,平均每日消失兩種,如果人力真的是這麼有效,何以現實會是這樣?
    保护“濒危”语言,人工智能或许大有可为!
    https://www.51cto.com/article/696100.html

  4. 我是香港人,也是長久以來都分不出一和七聲,哈哈哈哈

  5. 请问有人知道文中的七声,第七声是什么?我是土生土长广州人,我只知道广东话九声六调,文中说的七声,前六声应该是指六调,烟我怎么读也是一声,所以很好奇第七声究竟是什么?

  6. 以及某些评论是不是没有搞清楚,对于样本数量不足的东西动用人力的学习它就是会比AI更好啊?就算你只看文章里的例子那也是头部AI做出的效果远远输给了使用着落后技术的人啊?看到这种观点我倒是明白为什么文章里会有迷信AI的担忧了。

  7. 这个,既然评论说语音不是核心是因为语音会不断变化,那什么是核心,能被你提出来当核心的任何一个要素不都是在不断变化的吗?况且普通话不断把公认的错误读音改成正确读音一样是被全民嘲讽的。不能说因为念错的人多了就会改的,就可以随便念了,那推下去就可以直接说弱势语言会消失的干脆不要学了。

  8. 下面评论有道理,高资源语言本来不缺学习资源,ai减少了普通水平学习资源的差距。以前有点想学广东话,因为听到粤语会好奇到底什么意思。无人可以教我,正好试试Chatgpt

  9. AI翻譯與AI配音反而有機會打破高資源語言的壟斷吧。因為學習語言的使用價值很大機會會被AI相當程度上取代。而且廣東話的「音唔正」是否代表這就不是廣東話?我覺得語音會隨時間不斷變化,音是否正倒不是問題的核心

  10. 難道非AI年代弱勢語言反而會有更好的生存環境嗎?弱勢語言或者小众語言會邊緣化或者自然消失本身是因為使用人群越來越少,當然更根本的原因在於需要與更多不同地域的人交流,方言走不出區域的限制。而對弱勢語言的保護(極端點說保存)和學習本身就是非常費時費力的工作。AI的出現本身應該是大大削減保護和學習的難度,難道動用人力的學習會比AI學習效果更好麼

  11. 前陣子試了幾次GPT-4o,台語(閩南話)的支援度不提,連普通話都存在明顯的弱點。例如在使用者說話含糊不清的時候,AI會反覆給出『本期视频就分享到这里,感谢观看』、『請不吝點贊、訂閱、轉發、打賞支持』等莫名奇妙的辨識結果,其原因應該是訓練文本的問題。