「Ai推理」的標準定義是什麼?

本文同步刊登在:



自從ChatGPT-o1模型
(代號「Strawberry」)問世之後,就紛紛開始關心ai模型是否會推理這件事、甚至誤解成只要ai模型會解開數學題目,就能直接解決真實世界中所有問題的奇怪傳聞出現。


(可自動生成Multi-Chain Reasoning提示詞內容的Gem管理工具)






其實「推理」這門領域,是有具體細分「線性推理」(Linear Thinking)與「非線性推理」(Non-Linear Thinking)的區別,一般常見的「數學計算」、「只要有翅膀,就認為所有鳥類都會飛」的推理,都是屬於「線性推理」的範疇。至於複雜多元領域的問題則是屬於「非線性推理」,可以在不同的知識上建立起知識網路來實現複雜推理。





所以,使用「線性推理」(Linear Thinking)來當成智力標準,筆者反而是只覺得低估了專門處理大量複雜內容的「非線性推理」(Non-Linear Thinking)優勢。

因此,若要測試一個Ai模型是否有具備「非線性推理」(Non-Linear Thinking)的能力,我們可以從詐騙集團的對話紀錄、法院已裁定的犯罪案件之紀錄片的對話紀錄、電競賽事勝負預測、商業行為的決策議題來進行驗證。

反之,若要佐證一個Ai模型是僅只具「線性推理」(Linear Thinking)的能力,則可以從目前已知存在的數學題目之類需要採用一步一步才能得到結果的方式進行驗證。


延伸閱讀:
[實測] Claude 3、Google Gemini Pro v1.0、ChatGPT-4 Turbo - 詐騙對話紀錄文本分析測試
[有雷]以「愛、纏、殺:誰是恐怖情人?」進行ai模型推理測試
ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較
棋類遊戲與上下文推理的關係
Claude 3模型與Google Gemini Pro v1.0模型的視覺推理對決
人工智慧模型的前因後果理解挑戰:以ChatGPT與律師需求為例




最後,筆者來分享一個最近自己經常使用在Google Gemini 1.5 Flash的多重思維鏈
(MCR,Multi-Chain Reasoning)提示詞:

「請以拆解任務、規劃子目標並評估結果的方式,推理分析OOOOO」,這是筆者最近頻繁使用到的一句思維鏈提示詞。然後剛好拿一篇待求證的文章,用來測試一個更適合萬用情境的多維思維鏈 + 自動決策選擇知識圖譜的提示詞,對應詐騙訊息效果如下:


(截圖來源出處:cofacts真的假的?)



Google Gemini 1.5 Flash判斷結果如下:










影片測試:




然後是,9x9數獨的部分:




Google Gemini 1.5 Flash的回答:






還記得西元2016年3月橫空出世迎戰李世石的AlphaGo嗎?這回,我們將使用多重思維鏈(MCR,Multi-Chain Reasoning)提示詞,在Google Gemini 1.5 flash上重現AlphaGo在棋類遊戲上技壓眾人的能力。但這次不挑戰圍棋,改挑戰台灣十分熟悉的中國象棋。







多重思維鏈指令(MCR,Multi-Chain Reasoning)的應用:視覺推理,這邊直接上網隨機找真人實測對弈中國象棋:





我們直接以這個對弈畫面來給Google Gemini 1.5 Flash進行判讀


Google Gemini 1.5 Flash判斷結果如下:









然後,換這張對弈截圖來給Google Gemini 1.5 Flash判讀




Google Gemini 1.5 Flash判斷結果如下:











最後是換這張來判讀。



Google Gemini 1.5 Flash判斷結果如下:







  結果,執黑棋的人類玩家選擇認輸了,執紅棋的玩家藉由Gemini 1.5 flash輔佐下獲勝。




實際完整的11分鐘對弈影片:






緊接著簡單示範一下,使用多重思維鏈(MCR,Multi-Chain Reasoning)指令來針對圍棋進行黑子下一步的行動建議。




圍棋開局是這樣:



Google Gemini 1.5 Pro看完開局的建議:






黑子沿途遵循Google Gemini 1.5 Pro的最佳走法建議後,該棋盤長這樣:









圍棋測試總結:

基本上,只要用戶對圍棋擁有最基本規則的了解(例如:厚、薄、氣、眼、劫、活棋、目數...等),搭配多重思維鏈(MCR,Multi-Chain Reasoning)提示詞 + Google Gemini 1.5 Pro整體上就會強到有感,反之,如果用戶完全不會下圍棋、也看不懂圍棋,那麼,就算生成式AI可以針對圍棋給出具體有用的建議內容,就整體成效來說,也會跟著大打折扣,淪為差評。(簡單的說,Google Gemini 1.5 Flash與1.5 Pro都有專家系統,只是關鍵在於用戶本身是不是有涉獵該領域的知識。)





影片實測:

















臨時減班、需要調整發車時間的時候,透過多重思維鏈讓Google Gemini 1.5 Flash逐一檢視各時段的發車時間表。





結果,時間點上真的是非常剛好,在西元2024年10月19日當天,臨時洽好有司機又臨時請病假,敝人馬上就立即使用Google Gemini 1.5 Flash來快速調整發車班次,可真的是有備無患。







當B路線臨時有狀況不能發車,必須要靠A路線,去支援B路線時,同時調整其他A路線的所有發車班次:





影片實測:











透過多重思維鏈(MCR,Multi-Chain Reasoning)讓Google Gemini 1.5 Pro檢測來自ChatGPT-4o的加密錢包代碼,受害事主是在X平台(原推特)上貼文公開表示的。


附上被害人與ChatGPT-4o mini的對話副本全紀錄:
https://chatgpt.com/share/67403c78-6cc0-800f-af71-4546231e6b10






Google Gemini 1.5 Pro使用Gem管理工具進行實測:









使用CoT思維鏈聞名天下的o1-mini判斷結果,居然會把第三方的惡意API列為是安全可信任的。







影片實測:


完整的資安事件報告,內容與Google Gemini 1.5 Pro分析的結果完全一致。


延伸閱讀:
AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)

留言

這個網誌中的熱門文章

[實測] Claude 3、Google Gemini Pro v1.0、ChatGPT-4 Turbo - 詐騙對話紀錄文本分析測試

集結當前四種Ai技術最強夢幻組合