
*我們挑選了我們認為您會喜歡的產品,並可能透過本頁面的連結獲得佣金。
核心架構與推理能力
GPT-4 在整個會話中作為單一模型運行,使用者需要手動選擇模式(如瀏覽/編程)。推理能力雖強,但固定,處理複雜任務時可能速度較慢。
GPT-5 引入了統一系統,包括:
- 用於即時回應的高速模型
- 解決複雜問題的 GPT-5 Thinking
- 根據任務類型、複雜度、工具需求及使用者明確指令(如「仔細思考這個」)選擇模型的即時路由器
結果是,簡單問題能快速回答,複雜問題則能提供更深入、更可靠的分析。
準確性與幻覺減少
GPT-5 比 GPT-4/4o 更少產生錯誤資訊,且在不確定時會坦誠說明,而不是猜測。奉承比例也顯著降低,透明度提高。
性能與評測結果
在數學、軟體工程、多模態理解和醫療等領域,GPT-5 的表現持續優於 GPT-4/4o。
| 領域 | GPT-4/4o(參考) | GPT-5(參考) | 主要差異 |
|---|---|---|---|
| 競賽數學(AIME) | 強大但不穩定 | 刷新紀錄;pass@1 顯著提高 | 競賽級別準確性大幅提升 |
| 軟體工程(SWE-bench Verified) | 問題解決率中等 | 成功率大幅提高 | 在真實程式庫中的表現顯著改善 |
| 多模態(MMMU 等) | 靜態圖像表現良好 | 在圖像、影片、圖表、空間推理方面更強 | 多模態能力成熟且更可靠 |
| 醫療(HealthBench) | 有用但不穩定 | 迄今最佳;更安全、更精準 | 在現實醫療諮詢中顯著改善 |
多模態能力
GPT-4 引入了多模態輸入,並在靜態圖像任務中表現優秀。GPT-5 更進一步:在圖表、科學插圖、空間任務與影片分析中的準確性更高。
專業領域
編程: GPT-5 能構建完整的應用與網站,管理大型程式庫,並具備更好的美學設計感。
創意寫作: 在文學結構處理、隱喻表達與結尾設計上更佳。
醫療: 能更好地理解上下文,主動發現風險並提出後續問題。
安全性、透明度與風格
GPT-5 引入了安全完成(safe completions)機制:盡可能提供有用且安全的答案,必要時才拒絕,並清楚解釋原因。缺少工具或面對不可能任務時,模型會如實告知。
客製化與使用者體驗
遵循使用者自定義指令的能力顯著增強。新增的預設人格(Cynic、Robot、Listener、Nerd)可快速改變交流風格。
可用性與存取
GPT-5 是 ChatGPT 的預設模型。免費用戶在達到使用上限後會切換到 GPT-5 mini。Plus 與 Team 用戶擁有更高額度,Pro 用戶可使用GPT-5 Pro處理最複雜的任務。
擴展總結:GPT-5 的優勢領域
- 自適應推理: 自動切換快速模式與深度思考模式。
- 減少幻覺: 錯誤率顯著低於 GPT-4/4o。
- 透明度更高: 坦承限制與不確定性。
- 減少奉承: 風格更平衡。
- 大型編程專案: SWE-bench 成功率提高,UI 設計更美觀。
- 創意寫作: 隱喻更豐富,結尾更有力。
- 醫療: 迄今最安全、最精準。
- 多模態: 在圖像、影片、圖表、空間推理上表現更佳。
- 指令遵循: 多步驟任務執行更精準。
- 函數調用: 工具協作能力增強。
- 推理效率: 用更少的 token 達到更高準確率。
- 客製化: 更好地執行指令,支援預設人格。
- 安全訓練: 安全有用的回應,減少不必要的拒絕。
- 減少虛假資訊: 不可能任務中的虛假聲明減少。
- 企業適配性: 更高額度、更可靠,支援 Pro 級推理。
結論: GPT-4 設立了高標準,而 GPT-5 在更智能的推理、更高的實際準確性、更強的多模態能力、更穩固的安全性以及更流暢的使用者體驗方面全面超越了它。