OpenAI

      重磅資訊

      發(fā)布免費大模型GPT-4o,?

      更快、更智能、更安全


      ????太平洋時間2024年5月13號上午10點,OpenAI春季發(fā)布會攜GPT-4o重磅來襲。OpenAI首席技術(shù)官 Mira Murati 表示,更新后的模型“速度更快”,并提高了“文本、視覺和音頻方面的功能”。它將免費向所有用戶開放,付費用戶將繼續(xù)“擁有免費用戶五倍的容量限制”。


      圖片來源: https://twitter.com/OpenAI



      GPT-4o 中的“o”代表“omni”,指的是GPT-4o的多模態(tài)(全能),是朝著更自然的人機交互邁出的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。


      它可以在短至232毫秒的時間內(nèi)響應音頻輸入,平均響應時間為320毫秒(接近人類對話中的響應時間)。雖然在英語文本和代碼方面,GPT-4o與GPT-4 Turbo的性能相當,但在非英語文本方面有了顯著改進,不僅速度更快,同時API費用降低了50%,是GPT-4 Turbo的一半與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面表現(xiàn)尤為出色。


      以下為新模型能力的展示

      01

      能力探索

      02

      模型評估

      通過傳統(tǒng)的基準測試后發(fā)現(xiàn),

      GPT-4o在文本、推理和編碼智能方面達到了GPT-4 Turbo級別性能,

      同時在多語種、音頻和視覺能力方面創(chuàng)造了

      新的里程碑


      >>> 文本評估


      推理能力增強——GPT-4o 在 0 次 COT MMLU(常識問題)上創(chuàng)下了 88.7% 的新高分。所有這些評估都是使用OpenAI的新的simple evals庫進行收集的。此外,在傳統(tǒng)的 5 次無 CoT MMLU 上,GPT-4o 創(chuàng)下了 87.2% 的新高。

      (注:Llama3 400b仍在訓練中)

      ? >>>?音頻ASR性能


      與Whisper-v3相比,GPT-4o顯著提高了所有語言的語音識別性能,特別是對于資源匱乏的語言。

      >>>?音頻翻譯性能


      GPT-4o在語音翻譯方面達到了新的最先進水平,并且在MLS基準測試中優(yōu)于 Whisper-v3。

      >>>?M3Exam 0-Shot結(jié)果


      M3Exam-基準測試既是多語言評估也是視覺評估,包括其他國家標準化測試的多項選擇題,有時還包括圖形和圖表。在所有語言的基準測試中,GPT-4o表現(xiàn)得都比GPT-4更強(團隊省略了斯瓦希里語和爪哇語的視力結(jié)果,因為這些語言的視力問題只有 5 個或更少)。


      ?如果想了解更多有關(guān)GPT-4的內(nèi)容,點擊下面鏈接即可查看?

      https://www.semrush.com/blog/gpt-4/?

      >>>?視覺理解評估


      在圖片視覺理解評估方面,GPT-4o在視覺感知基準測試上達到了最先進的性能。所有視覺評估都是0-shot,包括MMMU、MathVista和ChartQA。

      03

      語言標記

      以下 20 種語言被選為新標記器

      在不同語言家族中壓縮的代表


      04

      模型安全和限制


      GPT-4o通過各種技術(shù)來確保安全,采用了過濾訓練數(shù)據(jù)和通過后期訓練完善模型行為等技術(shù)。并且創(chuàng)建了新的安全系統(tǒng),來為語言輸出提供防護措施。


      另外,OpenAI還根據(jù)準備框架和自愿承諾,對GPT-4o進行了評估。在網(wǎng)絡(luò)安全、CBRN(化學、生物、輻射和核)風險、說服力和模型自主性方面的評估顯示,GPT-4o在任何一個類別中的風險評級均未到達中等以上。這一評估包括在整個模型訓練過程中進行一系列自動和人工評估:測試了模型在安全緩解措施前后的版本,使用了自定義的微調(diào)和提示,以更好地引發(fā)模型的能力。


      除此之外,GPT-4o還經(jīng)過了70多名外部專家在社會心理學、偏差和公平性、虛假信息等領(lǐng)域的大量外部紅隊測試,來確定新增模態(tài)會引入或放大的風險。利用這些經(jīng)驗來完善安全干預措施,以提高與GPT-4o交互的安全性。

      模型限制性示例


      05

      模型可用性


      ??? GPT-4o是OpenAI在深度學習領(lǐng)域的最新進展,也是朝著實際可用性的方向邁出的一步。在過去兩年OpenAI團隊一直致力于提高技術(shù)棧的各個層面的效率, GPT-4o就是這項工作的首個成果,并且其功能將以迭代的方式逐漸提升。


      ??? ChatGPT中已經(jīng)推出GPT-4o的文本和圖像功能(會在免費版和Plus版本中提供),未來幾周內(nèi)還將在ChatGPT Plus中推出帶有GPT-4o的語音模式的新版本。


      ????開發(fā)者現(xiàn)在可以通過API訪問GPT-4o作為文本和視覺模型,與GPT-4 Turbo相比,GPT-4o更快、價格更低且速率限制提高了5倍。OpenAI還計劃在未來幾周內(nèi),將GPT-4o的新音頻和視頻功能支持添加到API中,但目前僅對少數(shù)可信賴的合作伙伴開放。

      詳細內(nèi)容請訪問:https://openai.com/index/hello-gpt-4o/



      END


      點贊(2) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯(lián)系站長

      發(fā)表
      評論
      立即
      投稿
      返回
      頂部