一直以來,拍片就是我比較難跨越的領域。
因為我沒有系統性地學習過該如何拍片,也不知道要如何剪輯影片,所以一直在調整方向。
本來我買了 Filmora 來做影片剪輯,它算是市場上相對比較簡單好用的軟體,價格上也不太貴,一年大約花了一千八百多塊。
當然,雖然說它的功能很強大,但就是要花時間去學習。
對於我們這種把經營自媒體當作副業的人來說,平常下班之後要做研究,然後還要拍片,實在沒有辦法撥出更多時間來學習剪片。
可是我發現,可以使用 Claude 當作核心,並結合一些開源工具建立 AI 工作流,讓整個流程都能交由 AI 來完成最繁雜的剪片工作。
全程幾乎沒有任何技術難度。你只要知道怎麼樣下載 Claude Desktop,然後讓它去幫你操作就可以了。
---
■ 整套 AI 剪片工作流:八步驟拆解
這套流程串了三個開源工具,加上一個 API。
先看角色分工:
- ffmpeg-full:影片合併、字幕燒入:`brew install ffmpeg-full`
要裝前面三個開源工具,你就直接把 Github 的網址跟 Claude 說,跟它講你要裝這些開源專案,他就會幫你裝好。
但是 ElevenLabs Scribe API 你要自己申請。
價格的話,從每月訂閱費 $6 到 $11 美金,其實也不算太貴。詳情大家可以自己去官網看。
整個流程分八步:
■ 1. 錄影
我用 Filmora 做螢幕錄影,錄完輸出成 mp4 丟到專案目錄。Filmora 在這一步只負責「按下錄影鍵到輸出檔案」這件事。當然也有可能會做一些聲音上的調整,以及稍微加一點素材。
■ 2. 轉錄
video-use 把音訊抽出來送進 ElevenLabs Scribe,回傳 JSON 含每個漢字的起訖時間、speaker_id、音訊事件標籤(笑聲、停頓)。
一支 30 分鐘影片大概花 20 秒、付給 ElevenLabs 0.21 美金。轉錄結果會快取,重剪不會再付一次費用。
■ 3. 繁簡轉換
■ 4. 剪贅詞
我自己講話有一堆口頭禪:「呃」「然後」「就是」「這個」「這樣子」。所以也讓 Claude 寫了腳本檢查逐字稿,找這些無歧義的詞跟停頓 > 0.8 秒的長空白,產出 EDL(edit decision list)給 video-use 用。
剪片時前後留 30ms 緩衝避免爆音。
腳本會自動去刪除這些部分,但是某一些內容可能需要由 LLM 來判斷,例如「這個」是贅字,但是「這個禮拜」是指示代名詞要保留。
■ 5. 迭代剪輯
粗剪 v1 之後,可能還想砍某段(例如離題講太久、後來覺得沒必要的片段)。
所以我的流程設計成「**內容指認 → 列時間 → 確認 → re-render**」這個迴圈:
> 我:再剪掉「我講 remotion 那段」
> Claude:找到了,是 02:15-02:34 這段,逐字稿節錄是「對了講到這個remotion...」,確認剪嗎?
> 我:確認
> Claude:已加進 EDL,重新 render v2
每輪迭代不會重新轉錄,所以不會再花 Scribe 費用。
■ 6. LLM 修字幕
Scribe 產的逐字稿是「字級切」,每個漢字一個 token。直接生成 SRT 會出現「資訊相 → 關的」「純粹手寫 → 程式的」這種斷字。
所以由 Claude 讀完整份 SRT,套用五條規則:
1. **跨行斷字合併**:把破掉的詞接回來,重新切在標點處
2. **重複疊字消掉**:「你,你決定」→「你決定」、「蠻,蠻難執行」→「蠻難執行」
3. **Scribe 聽錯詞表**:「功能師 → 工程師、溫族 → 文組、復雜 → 複雜」
4. **「這個」上下文判斷**:後面接名詞(這個禮拜、這個問題)保留,當虛詞拿掉
5. **時間戳鐵律**:永遠不動,除非合併重切時按字數比例算 split time
■ 7. Remotion 片頭
用 React 寫程式碼產生 5 秒的「Ravan AI 週報」品牌動畫。Remotion 把 JSX 元件當作影片內容,每幀的位置、淡入淡出、彈跳動畫都用程式碼控制。
另外也會去設計每一個章節過場動畫。因為我一部影片長度大概都在 20 到 30 分鐘左右,所以會有章節的需求,希望能依照章節內容進行分段。
在分段的部分,中間可能會參雜一段大約兩秒的影片過場動畫。
■ 8. ffmpeg 合併+燒字幕
最後 ffmpeg 把四段串起來:
```
精華片段 (10-20 秒) → 片頭動畫 → 主體影片 → 片尾
```
精華片段是從主體裡挑一段最有梗的當開頭,目的是抓住前 15 秒留存率(YouTube 演算法看這個)。
---
■ 下一步:自動剪輯短影音
目前這個流程做到一半,還沒有完全做完。
待辦事項如下:
1. 每一個章節的過場動畫都還沒做
2. 之後還要增加一個功能,能夠將原本的影片剪輯成短影音的版本
目前有一個比較難解決的問題。
因為我每一次拍片其實都是做電腦的螢幕錄影,畫面是橫式的,但短影音的版本必須是直式。
原本的畫面其實沒有辦法直接轉成直式,因為如果將影片轉成直式的,就必須剪裁掉某些部分。
而切掉的部分,要嘛是捨棄我的臉,要嘛是留下我的臉但切掉了操作畫面。
所以這部分還需要思考應該要如何呈現。
我們下禮拜再來研究。
---