当ChatGPT的广东话“讲唔正”:AI 年代,低资源语言是否注定被边缘化?

在AI 半吊子的广东话背后,是语言传承与社会资源分配的角力。

你听过 ChatGPT 说广东话么?

如果你是普通话母语者,恭喜你瞬间收获“精通粤语”成就。反而是会说广东话的人,这时可能要一头雾水了--ChatGPT 自带奇特口音,像外地人在努力说广东话。

2023年9月的一次更新中, ChatGPT第一次拥有了“说”的能力;2024年5月13日,最新一代模型 GPT-4o 发布,虽然新版的语音功能尚未正式面世,只存在于 demo 中,但从去年的更新中,已经可以一窥 ChatGPT多语言语音对话的能力。

成為會員

即享端傳媒全站暢讀

立即訂閱

端 X 華爾街日報 雙會籍

年末優惠65折,支持2024年的華語獨立新聞

約HK$1.8/天

评论区 11

评论为会员专属功能。立即登入加入会员享受更多福利。
  1. 呢篇寫得好正,作者罕有地對技術、語言和寫作報導都有涉臘,深入淺出,資料詳細,上乘之作!

  2. @影青蓮 下次發表評論前先認真看完文章。
    「在當下,廣東話作為「低資源語言」的說法,Tan Lee 認為已經不再準確。也正是因此,在他看來,市面上機器的廣東話表現反映的並非是技術的能力,而是市場與商業的考慮。」

  3. @影青蓮 所說的「对于样本数量不足的东西动用人力的学习它就是会比AI更好」
    我不知道你這樣的結論是如何得出的。粵語的樣本數量比不上 英文 普通話 阿拉伯語等的確是少很多。但是是否到了「數量不足」的程度我覺得又是另一回事。 至於動用人力的學習就是會比AI更好?先不論這個技術問題能否通過對餵的數據做出調整慢慢修正翻。現實是AI被用作協助保留瀕危語言的輔助工具已經有好幾年的時間,特別是原住民社區的語言。退一萬步,現在世界上有大量的瀕危語言,平均每日消失兩種,如果人力真的是這麼有效,何以現實會是這樣?
    保护“濒危”语言,人工智能或许大有可为!
    https://www.51cto.com/article/696100.html

  4. 我是香港人,也是長久以來都分不出一和七聲,哈哈哈哈

  5. 请问有人知道文中的七声,第七声是什么?我是土生土长广州人,我只知道广东话九声六调,文中说的七声,前六声应该是指六调,烟我怎么读也是一声,所以很好奇第七声究竟是什么?

  6. 以及某些评论是不是没有搞清楚,对于样本数量不足的东西动用人力的学习它就是会比AI更好啊?就算你只看文章里的例子那也是头部AI做出的效果远远输给了使用着落后技术的人啊?看到这种观点我倒是明白为什么文章里会有迷信AI的担忧了。

  7. 这个,既然评论说语音不是核心是因为语音会不断变化,那什么是核心,能被你提出来当核心的任何一个要素不都是在不断变化的吗?况且普通话不断把公认的错误读音改成正确读音一样是被全民嘲讽的。不能说因为念错的人多了就会改的,就可以随便念了,那推下去就可以直接说弱势语言会消失的干脆不要学了。

  8. 下面评论有道理,高资源语言本来不缺学习资源,ai减少了普通水平学习资源的差距。以前有点想学广东话,因为听到粤语会好奇到底什么意思。无人可以教我,正好试试Chatgpt

  9. AI翻譯與AI配音反而有機會打破高資源語言的壟斷吧。因為學習語言的使用價值很大機會會被AI相當程度上取代。而且廣東話的「音唔正」是否代表這就不是廣東話?我覺得語音會隨時間不斷變化,音是否正倒不是問題的核心

  10. 難道非AI年代弱勢語言反而會有更好的生存環境嗎?弱勢語言或者小众語言會邊緣化或者自然消失本身是因為使用人群越來越少,當然更根本的原因在於需要與更多不同地域的人交流,方言走不出區域的限制。而對弱勢語言的保護(極端點說保存)和學習本身就是非常費時費力的工作。AI的出現本身應該是大大削減保護和學習的難度,難道動用人力的學習會比AI學習效果更好麼

  11. 前陣子試了幾次GPT-4o,台語(閩南話)的支援度不提,連普通話都存在明顯的弱點。例如在使用者說話含糊不清的時候,AI會反覆給出『本期视频就分享到这里,感谢观看』、『請不吝點贊、訂閱、轉發、打賞支持』等莫名奇妙的辨識結果,其原因應該是訓練文本的問題。