「Ai推理」的標準定義是什麼?
本文同步刊登在:
自從ChatGPT-o1模型(代號「Strawberry」)問世之後,就紛紛開始關心ai模型是否會推理這件事、甚至誤解成只要ai模型會解開數學題目,就能直接解決真實世界中所有問題的奇怪傳聞出現。
其實「推理」這門領域,是有具體細分「線性推理」(Linear Thinking)與「非線性推理」(Non-Linear Thinking)的區別,一般常見的「數學計算」、「只要有翅膀,就認為所有鳥類都會飛」的推理,都是屬於「線性推理」的範疇。至於複雜多元領域的問題則是屬於「非線性推理」,可以在不同的知識上建立起知識網路來實現複雜推理。

所以,使用「線性推理」(Linear Thinking)來當成智力標準,筆者反而是只覺得低估了專門處理大量複雜內容的「非線性推理」(Non-Linear Thinking)優勢。
因此,若要測試一個Ai模型是否有具備「非線性推理」(Non-Linear Thinking)的能力,我們可以從詐騙集團的對話紀錄、法院已裁定的犯罪案件之紀錄片的對話紀錄、電競賽事勝負預測、商業行為的決策議題來進行驗證。
反之,若要佐證一個Ai模型是僅只具「線性推理」(Linear Thinking)的能力,則可以從目前已知存在的數學題目之類需要採用一步一步才能得到結果的方式進行驗證。
[實測] Claude 3、Google Gemini Pro v1.0、ChatGPT-4 Turbo - 詐騙對話紀錄文本分析測試
[有雷]以「愛、纏、殺:誰是恐怖情人?」進行ai模型推理測試
ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較
棋類遊戲與上下文推理的關係
Claude 3模型與Google Gemini Pro v1.0模型的視覺推理對決
人工智慧模型的前因後果理解挑戰:以ChatGPT與律師需求為例
最後,筆者來分享一個最近自己經常使用在Google Gemini 1.5 Flash的多重思維鏈(MCR,Multi-Chain Reasoning)提示詞:
「請以拆解任務、規劃子目標並評估結果的方式,推理分析OOOOO」,這是筆者最近頻繁使用到的一句思維鏈提示詞。然後剛好拿一篇待求證的文章,用來測試一個更適合萬用情境的多維思維鏈 + 自動決策選擇知識圖譜的提示詞,對應詐騙訊息效果如下:
Google Gemini 1.5 Flash判斷結果如下:
影片測試:
Google Gemini 1.5 Flash的回答:
多重思維鏈指令(MCR,Multi-Chain Reasoning)的應用:視覺推理,這邊直接上網隨機找真人實測對弈中國象棋:
我們直接以這個對弈畫面來給Google Gemini 1.5 Flash進行判讀
Google Gemini 1.5 Flash判斷結果如下:
然後,換這張對弈截圖來給Google Gemini 1.5 Flash判讀
Google Gemini 1.5 Flash判斷結果如下:
最後是換這張來判讀。
Google Gemini 1.5 Flash判斷結果如下:
緊接著簡單示範一下,使用多重思維鏈(MCR,Multi-Chain Reasoning)指令來針對圍棋進行黑子下一步的行動建議。
圍棋測試總結:
基本上,只要用戶對圍棋擁有最基本規則的了解(例如:厚、薄、氣、眼、劫、活棋、目數...等),搭配多重思維鏈(MCR,Multi-Chain Reasoning)提示詞 + Google Gemini 1.5 Pro整體上就會強到有感,反之,如果用戶完全不會下圍棋、也看不懂圍棋,那麼,就算生成式AI可以針對圍棋給出具體有用的建議內容,就整體成效來說,也會跟著大打折扣,淪為差評。(簡單的說,Google Gemini 1.5 Flash與1.5 Pro都有專家系統,只是關鍵在於用戶本身是不是有涉獵該領域的知識。)
衍生相關測試:
Google Gemini 1.5 Flash辨識Ai生成圖片系列:
結果,時間點上真的是非常剛好,在西元2024年10月19日當天,臨時洽好有司機又臨時請病假,敝人馬上就立即使用Google Gemini 1.5 Flash來快速調整發車班次,可真的是有備無患。
影片實測:
透過多重思維鏈(MCR,Multi-Chain Reasoning)讓Google Gemini 1.5 Pro檢測來自ChatGPT-4o的加密錢包代碼,受害事主是在X平台(原推特)上貼文公開表示的。
https://chatgpt.com/share/67403c78-6cc0-800f-af71-4546231e6b10
附上相關新聞:
影片實測:
完整的資安事件報告,內容與Google Gemini 1.5 Pro分析的結果完全一致。
AI是否真的會搶走人類的工作?(這篇有實際使用中的職場案例可以解惑)
留言
張貼留言