有幸被邀請到Taiwan Digital Nomad當任講者
我與大家一起共創的這個社群理念及未來發展
分享給這些在世界各國憑藉著自己的技能
不限時間地點工作並探索世界數位游牧者
想跟社群大家分享的並不是我演講的內容,而是在各領域的專家給我的回饋/提問:
  1. 「紐西蘭毛利人花了十年,才從大學手中拿回自己語言的數據主導權!」
他分享了一個案例:Te Hiku Media(毛利人的部落電台組織),在 2010 年代發現,所有毛利語的語音資料都被大學和科技公司控制。研究者可以自由使用這些數據訓練 AI,但部落族人想用自己的語料,反而要付費或申請授權。
2. 政府經濟資助與語料的所有權
「政府補助但成果歸屬是阿美族集體還是某政府/學術單位」
他提到澳洲原住民語言復振計畫的教訓:許多部落接受政府經費後,發現「受補助研究成果」依法歸政府所有,部落只有「使用權」,沒有「所有權」。
更極端的案例是加拿大某個因紐特語計畫:大學拿了政府 200 萬加幣補助,產出的語料庫最後授權給 Google,部落完全不知情。
3. 研究經費為何部落總是拿最少?
「我看過太多案例:一個 500 萬的語言復振計畫,大學拿 350 萬當『研究執行費』,再外包 100 萬給技術廠商,部落拿 50 萬叫『田野協力費』。但語料是誰提供的?文化知識是誰的?沒有部落,這個計畫根本做不成,為什麼部落只拿 10%?」
4. 開放資料倡議者 vs. 文化保護者:AI 語料該不該公開?
「語言復振的目標是讓更多人使用,AI 模型應該完全開源,才能最大化影響力。看看 Common Voice(Mozilla 的開源語音資料庫)就是因為開放,才有上百種語言受益。」
「但你看夏威夷語的教訓:2015 年有研究者把夏威夷語語料開源後,有人拿去訓練色情內容生成器。開源很美好,但原住民語言不只是『數據』,是活的文化 — 如果被用在違背文化價值的地方,傷害是永久的。」
如果我們訓練出一個阿美語語音辨識模型,你會選擇:
A) 完全開源
B) 附帶文化授權條款
C) 完全不公開,只給族人使用?
先感謝勇敢的自己第一次用英文演講的方式站在舞台上
獲得這些在執行前需要先思考清楚的問題
看見更多不同國家在語言復振的經驗與實作
因為 O Pinokayan A Lalan 想做的事
不只是「教阿美語」而已
我們正在面對的
是全世界原住民族在數位時代都會遇到的問題
歡迎大家在這裡思想交流,讓我們一起看見更多的聲音與想法!
另外~ 我也想跟大家說,在世界的眼中,我們的文化是獨特且珍貴的,甚至有很多人願意一起守護它。
0:17
12
2 comments
Sasha Huang
5
有幸被邀請到Taiwan Digital Nomad當任講者
O Pinokayan A Lalan.
skool.com/o-pinokayan-a-lalan
語意為 — 回家之路
────────────────────
『 族語離我們越來越遠... 』
相信抵達這個頁面的你
心裡有一塊地方
一直惦記著這件事
────────────────────
而這裡,就是為你而建的
一起回家吧!
Leaderboard (30-day)
Powered by