AI 產品開發:Gemini 3.5 Flash 把螢幕與目標交給 AI agent,產品測試會更像交辦任務
我是 Raven,今天看到 @_philschmid 在 X 上分享了一個做法:用 Gemini 3.5 Flash 的 computer use 功能來測試文件。他給 agent 的指令很直接:稽核這個頁面、執行程式碼範例、找出問題。接著 agent 會自己瀏覽頁面、操作、截圖,最後回來給一份報告。
這個功能的意思是,你不只是在聊天框裡請 AI 生成文字。你給它一個螢幕畫面與一個目標,它會自己推論接下來要做什麼。例如該點哪個按鈕、該輸入什麼、該切到哪個頁面、該怎麼確認結果。
這次支援的環境包含瀏覽器、手機與桌面。所以它不只適合網頁流程,也可能用在行動 App 測試、桌面軟體流程檢查、內部工具操作驗證。對產品團隊來說,這會讓很多原本需要人工走一遍的測試工作,變成可以交辦給 agent 的任務。
安全設計也很重要。原文提到它整合了使用者確認、自動停止提示注入攻擊,以及針對提示注入的額外訓練。AI 能看到螢幕並操作畫面,不代表每一步都應該直接放行。尤其是瀏覽器和桌面操作,很容易碰到網頁文字、外部內容、未知指令,所以確認與停止機制會變成基本配備。
我覺得這功能最適合先從文件測試開始用。文件有明確路徑、有步驟、有範例程式碼、有預期結果。你可以要求 agent 逐頁檢查教學是否能跑通,記錄哪一步卡住,截圖保留證據,再整理成回報。這種工作以前很瑣碎,現在可以被包成一個稽核任務。
真正要注意的是任務描述要夠具體。不要只說「幫我看看文件」。可以改成「打開這個 URL,依序執行教學中的程式碼範例,記錄失敗步驟、錯誤訊息、截圖與修正建議」。這樣 agent 才知道什麼叫完成,也比較容易交出可用的報告。
2
0 comments
Kaiyuan Kang
6
AI 產品開發:Gemini 3.5 Flash 把螢幕與目標交給 AI agent,產品測試會更像交辦任務
powered by
社畜進化論|Raven AI
skool.com/decode-ai-ai-2667
不再當每天加班的社畜啦!本社群深入解析 AI Agent 技術應用,利用科技槓桿成為超級個體,打造一人公司!
Build your own community
Bring people together around your passion and get paid.
Powered by