Google Gemini 3 Flash:Agentic vision (代理視覺)實測
最近Google Gemini 3 Flash推出的新功能Agentic vision (代理視覺),顧名思義,就是讓模型仿人類的視覺推理、規劃、再行動的日常行為,其過程其實非常簡單直覺,只要給模型一張圖片、輸入問題,模型就能展開自主性的視覺推理、規劃、再行動,全程無須人為干預。 測試Sudoku數獨,設定難度級別:極限。(對多數人來說,此模式成功破關的比例不高。) Sudoku數獨(極限)影片實測: 手指數量測試: 手指數量影片實測: 自己工作中使用的分車表測試: 兩張分車表也沒問題: 兩張分車表也沒問題: 微調班次影片實測: 程式碼測試: 搭配專門處理程式碼的Gems效果: 程式碼影片實測: 圍棋也能使用: 晚上同事要用主管電腦來調閱影像時,結果發現主管電腦出現了這個警告訊息畫面,導致同事只能默默哀嚎、無法操作: 於是我立刻拿出Google Gemini 3.0 Flash(思考型) + Gems,直接當場用手機拍照詢問,果不其然,問題一下子就解決了! 當下心情一整個莫名舒服!能快速、有效、解決眼前的燃眉之急,其實比什麼都重要。 觸發Agentic vision (代理視覺)功能教學: