有幸被邀請到Taiwan Digital Nomad當任講者

Sasha Huang

28d • Tada ci'icel kako!｜勇氣的部分

我與大家一起共創的這個社群理念及未來發展

分享給這些在世界各國憑藉著自己的技能

不限時間地點工作並探索世界數位游牧者

想跟社群大家分享的並不是我演講的內容，而是在各領域的專家給我的回饋/提問：

「紐西蘭毛利人花了十年，才從大學手中拿回自己語言的數據主導權！」

他分享了一個案例：Te Hiku Media（毛利人的部落電台組織）,在 2010 年代發現，所有毛利語的語音資料都被大學和科技公司控制。研究者可以自由使用這些數據訓練 AI，但部落族人想用自己的語料，反而要付費或申請授權。

2. 政府經濟資助與語料的所有權

「政府補助但成果歸屬是阿美族集體還是某政府/學術單位」

他提到澳洲原住民語言復振計畫的教訓:許多部落接受政府經費後，發現「受補助研究成果」依法歸政府所有，部落只有「使用權」，沒有「所有權」。

更極端的案例是加拿大某個因紐特語計畫：大學拿了政府 200 萬加幣補助，產出的語料庫最後授權給 Google，部落完全不知情。

3. 研究經費為何部落總是拿最少?

「我看過太多案例：一個 500 萬的語言復振計畫，大學拿 350 萬當『研究執行費』，再外包 100 萬給技術廠商，部落拿 50 萬叫『田野協力費』。但語料是誰提供的？文化知識是誰的？沒有部落，這個計畫根本做不成，為什麼部落只拿 10%？」

4. 開放資料倡議者 vs. 文化保護者：AI 語料該不該公開?

「語言復振的目標是讓更多人使用，AI 模型應該完全開源，才能最大化影響力。看看 Common Voice（Mozilla 的開源語音資料庫）就是因為開放，才有上百種語言受益。」

「但你看夏威夷語的教訓：2015 年有研究者把夏威夷語語料開源後，有人拿去訓練色情內容生成器。開源很美好，但原住民語言不只是『數據』，是活的文化 — 如果被用在違背文化價值的地方，傷害是永久的。」

如果我們訓練出一個阿美語語音辨識模型，你會選擇：

A) 完全開源

B) 附帶文化授權條款

C) 完全不公開，只給族人使用？

先感謝勇敢的自己第一次用英文演講的方式站在舞台上

獲得這些在執行前需要先思考清楚的問題

看見更多不同國家在語言復振的經驗與實作

因為 O Pinokayan A Lalan 想做的事

不只是「教阿美語」而已

我們正在面對的

是全世界原住民族在數位時代都會遇到的問題

歡迎大家在這裡思想交流，讓我們一起看見更多的聲音與想法！

另外～我也想跟大家說，在世界的眼中，我們的文化是獨特且珍貴的，甚至有很多人願意一起守護它。

0:17

2 comments

O Pinokayan A Lalan.

skool.com/o-pinokayan-a-lalan

語意為 — 回家之路

────────────────────

『族語離我們越來越遠... 』

相信抵達這個頁面的你

心裡有一塊地方

一直惦記著這件事

────────────────────

而這裡，就是為你而建的

一起回家吧！

Leaderboard (30-day)

+26

+20