AI 產品開發：Gemini 3.5 Flash 把螢幕與目標交給 AI agent，產品測試會更像交辦任務

我是 Raven，今天看到 @_philschmid 在 X 上分享了一個做法：用 Gemini 3.5 Flash 的 computer use 功能來測試文件。他給 agent 的指令很直接：稽核這個頁面、執行程式碼範例、找出問題。接著 agent 會自己瀏覽頁面、操作、截圖，最後回來給一份報告。

這個功能的意思是，你不只是在聊天框裡請 AI 生成文字。你給它一個螢幕畫面與一個目標，它會自己推論接下來要做什麼。例如該點哪個按鈕、該輸入什麼、該切到哪個頁面、該怎麼確認結果。

這次支援的環境包含瀏覽器、手機與桌面。所以它不只適合網頁流程，也可能用在行動 App 測試、桌面軟體流程檢查、內部工具操作驗證。對產品團隊來說，這會讓很多原本需要人工走一遍的測試工作，變成可以交辦給 agent 的任務。

安全設計也很重要。原文提到它整合了使用者確認、自動停止提示注入攻擊，以及針對提示注入的額外訓練。AI 能看到螢幕並操作畫面，不代表每一步都應該直接放行。尤其是瀏覽器和桌面操作，很容易碰到網頁文字、外部內容、未知指令，所以確認與停止機制會變成基本配備。

我覺得這功能最適合先從文件測試開始用。文件有明確路徑、有步驟、有範例程式碼、有預期結果。你可以要求 agent 逐頁檢查教學是否能跑通，記錄哪一步卡住，截圖保留證據，再整理成回報。這種工作以前很瑣碎，現在可以被包成一個稽核任務。

真正要注意的是任務描述要夠具體。不要只說「幫我看看文件」。可以改成「打開這個 URL，依序執行教學中的程式碼範例，記錄失敗步驟、錯誤訊息、截圖與修正建議」。這樣 agent 才知道什麼叫完成，也比較容易交出可用的報告。

來源：https://x.com/i/status/2069819170477293863

0 comments

AI 產品開發：Gemini 3.5 Flash 把螢幕與目標交給 AI agent，產品測試會更像交辦任務

社畜進化論｜Raven AI

skool.com/decode-ai-ai-2667

不再當每天加班的社畜啦！本社群深入解析 AI Agent 技術應用，利用科技槓桿成為超級個體，打造一人公司！

Suggested communities

Apna Kamao

Pablo Martínez García

AI Automation Society

The AI Advantage

AI Money Lab

Build your own community

Bring people together around your passion and get paid.