每次寫完一個 Skill,是不是都經歷這個循環? 寫好 SKILL.md → 跑一次 → 看輸出 → 覺得不太對 → 改指令 → 再跑 → 還是不太對 → 再改… 整個過程全靠你的「感覺」判斷。改了 10 版,不確定第 10 版是不是真的比第 1 版好。一個 Skill 調到穩定,花幾天很正常。 但如果有一套方法能讓 AI 自己調自己的 Skill 呢?今天分享 AutoResearch 的核心邏輯、Binary Eval 這個關鍵技術、以及怎麼套用到你自己的 Skill 上 👇 1️⃣ AutoResearch 的核心邏輯 AutoResearch 是用來自動優化 AI 的框架,原本拿來優化 AI 模型。 核心邏輯很簡單: 定義一個指標 → AI 自動跑多種變體 → 評分 → 保留更好的版本 → 淘汰差的 → 循環 這跟我們調 Skill 是一模一樣的道理。差別只在一點:AutoResearch 把「你靠感覺調」變成了「AI 用數據調」。 700 次自動實驗跑完,找到 20 個有效的優化方向,整體提升 11%。聽起來不多,但重點是:這全部是 AI 自己跑的,不需要人盯。 2️⃣ Binary Eval:讓 AI 穩定評分的關鍵 這裡有一個大部分人不知道的坑。 你可能想:「讓 AI 打分不就好了?」 問題是,用 1-7 分讓 AI 評分,同一個輸出它這次給 5 分,下次給 3 分,結果根本不穩定。AI 打分的變異性太大,你根本無法判斷 A 版本是不是真的比 B 版本好。 ❌ 錯誤做法:讓 AI 用 1-7 分評分 → 每次結果不同,優化方向亂跑 ✅ 正確做法:Binary Eval — 把所有品質標準拆成 yes/no 問題 「有沒有個人化開場?」→ yes 或 no 「CTA 是否只有一個?」→ yes 或 no 「subject line 少於 10 個字?」→ yes 或 no yes/no 的答案每次都一樣,AI 就能穩定判斷哪個版本更好。 這是整個系統能跑起來的關鍵。沒有穩定的評分,自動優化就是空談。 3️⃣ 實際例子:Cold Email Skill 假設你有一個寫 Cold Email 的 Skill。跑出來的信件,有些回覆率高,有些石沉大海。 以前怎麼調? 靠感覺:「好像 subject line 太長了」「CTA 不夠明確」 改完再跑,不確定是不是真的變好了 套用 AutoResearch + Binary Eval 的邏輯: 📊 把 reply rate 設成核心指標 📋 品質標準拆成 10-15 個 yes/no 問題 🔄 AI 自動跑幾十種變體 📈 每輪保留通過率更高的版本 行業平均 cold email reply rate 只有 3.43%,但 top performers 超過 10%。差距就在 Skill 指令的細節裡 — 而這些細節,用 Binary Eval 可以一個一個揪出來。 同樣邏輯可以套用到任何 Skill: 🔸 內容生成 Skill → 指標 = 品質通過率 🔸 SEO 文章 Skill → 指標 = 排名或流量 🔸 圖片生成 Skill → 指標 = 視覺品質通過率 🎯 結論:從「手動調 Skill」升級為「讓 Skill 自己進化」 舊思維:寫好 Skill → 靠感覺微調 → 花幾天找到「還行」的版本 新思維:定義指標 → 拆成 yes/no → 讓 AI 自動跑實驗 → 幾小時內找到最優版本 重點不在你寫得多好,在於你怎麼定義「好」。定義清楚了,AI 會自己找到怎麼做到好 💡 你有什麼 Skill 想用這個方法來優化?歡迎留言分享你的想法 👇