Google Gemini 3 Flash:Agentic vision (代理視覺)實測

 


最近Google Gemini 3 Flash推出的新功能Agentic vision (代理視覺),顧名思義,就是讓模型仿人類的視覺推理、規劃、再行動的日常行為,其過程其實非常簡單直覺,只要給模型一張圖片、輸入問題,模型就能展開自主性的視覺推理、規劃、再行動,全程無須人為干預。







測試Sudoku數獨,設定難度級別:極限。(對多數人來說,此模式成功破關的比例不高。)






Sudoku數獨(極限)影片實測:





手指數量測試:




手指數量影片實測:



自己工作中使用的分車表測試:





















兩張分車表也沒問題:
   







兩張分車表也沒問題:







微調班次影片實測:






程式碼測試:





搭配專門處理程式碼的Gems效果:





程式碼影片實測:



圍棋也能使用:

















晚上同事要用主管電腦來調閱影像時,結果發現主管電腦出現了這個警告訊息畫面,導致同事只能默默哀嚎、無法操作:




於是我立刻拿出Google Gemini 3.0 Flash(思考型) + Gems,直接當場用手機拍照詢問,果不其然,問題一下子就解決了!

當下心情一整個莫名舒服!能快速、有效、解決眼前的燃眉之急,其實比什麼都重要。









觸發Agentic vision (代理視覺)功能教學:










留言

這個網誌中的熱門文章

AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)

集結當前四種Ai技術最強夢幻組合

提升Google翻譯品質的實用方法和注意事項