在快速發(fā)展的大型語言模型世界中 (LLM),一個新的挑戰(zhàn)者已經(jīng)出現(xiàn),聲稱其表現(xiàn)優(yōu)于衛(wèi)冕冠軍 OpenAI 的 GPT-4。 Anthropic 是人工智能領(lǐng)域相對較新的參與者,最近宣布了 Claude 3 發(fā)布,這是一個強大的語言模型,具有三種不同的大小:Haiku、Sonnet 和 Opus。
與以前的模型相比,新的 Claude 3 模型顯示出增強的上下文理解,最終導(dǎo)致拒絕更少(如上圖所示)。該公司聲稱 Claude 3 Opus 模型可以媲美甚至超越GPT-4 考慮各種基準(zhǔn)測試的性能。專家們就 Claude 3 作為市場上卓越的語言模型是否優(yōu)于 GPT-4 進行了熱烈的辯論。
這種全面的分析涉及兩種模型的優(yōu)勢、局限性以及跨不同基準(zhǔn)的實際應(yīng)用。
性能:仔細觀察
基準(zhǔn)和分數(shù)
Anthropic 引用基準(zhǔn)分數(shù)來支持其聲稱 Claude 3 Opus 模型優(yōu)于 GPT-4。 Anthropic 引用基準(zhǔn)分數(shù)來支持其說法,即 Claude 3 Opus 模型優(yōu)于 GPT-4。例如,在評估語言模型理解和推理自然語言能力的 GSM8K 基準(zhǔn)測試中,Claude 3 Opus 模型的表現(xiàn)明顯優(yōu)于 GPT-4,得分為 95.0%,而 GPT-4 的得分為 92.0%。 p>
但是,需要注意的是,此比較是針對默認的 GPT-4 模型,而不是高級 GPT-4 Turbo 變體。當(dāng)將 GPT-4 Turbo 納入等式時,情況發(fā)生了變化:在相同的 GSM8K 測試中,GPT-4 Turbo 的得分高達 95.3%,令人印象深刻,超越了 Claude 3 Opus 模型。
與 GPT-4V 類似,Claude 3 也帶有 Vision 支持,并且還創(chuàng)建了跨語言理解、推理等基準(zhǔn)。 Claude 3 系列包含三種型號:即 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。 Sonnet 是 Anthropic 發(fā)布的三個純文本版本的多模態(tài)模型之一,對于大多數(shù)工作負載來說,其速度是 Claude 2 模型的 2 倍。 Claude 3 Haiku 是最快、最便宜的模型,可以在 3 秒內(nèi)輕松處理 10,000 個標(biāo)記的研究論文,而 Opus 在 GPQA、MMLU 和 MMMU 等評估中提供了驚人的結(jié)果,在人類水平的理解等最困難的任務(wù)上表現(xiàn)出流暢性。
輸入/輸出種類
GPT-4 擁有明顯優(yōu)勢的一個領(lǐng)域是它能夠處理各種輸入和輸出格式。 GPT-4 的功能包括理解各種形式的數(shù)據(jù),包括文本、代碼、視覺效果和音頻輸入。它通過理解和組合這些不同的信息來生成精確的輸出。此外,GPT-4V 變體可以通過分析文本或視覺提示來生成新穎且獨特的圖像,使其成為需要視覺內(nèi)容創(chuàng)建的領(lǐng)域的專業(yè)人士的多功能工具。
相比之下,Claude 3 模型僅限于處理文本和視覺輸入,僅生成文本輸出。雖然它可以從圖像中提取見解并讀取圖形和圖表,但它無法像 GPT-4V 那樣產(chǎn)生視覺輸出。此外,Claude 3 Sonnet模型雖然比GPT-3.5更先進,但在整體能力上仍然弱于GPT-4。
提示關(guān)注并完成任務(wù)
兩種模型在遵循提示和完成任務(wù)時都展示了令人印象深刻的功能,但略有差異。 Claude 3 Opus 模型比 GPT-4 具有更先進的提示跟隨技能,通過跟隨給定的提示生成 10 個邏輯輸出,而 GPT-4 只能生成 9 個。然而,Claude 3 Sonnet 模型滯后,僅生成 7 個邏輯句子在同一個測試中。
這表明,雖然頂級 Claude 3 Opus 在提示跟隨方面表現(xiàn)出色,但與 GPT-4 相比,更易于訪問的 Sonnet 模型存在不足。此外,GPT-4 在任務(wù)完成和推理方面的表現(xiàn)可能會因具體任務(wù)和上下文的不同而有所不同。
可訪問性和費用
在可訪問性和成本方面,GPT-4 比 Claude 3 稍有優(yōu)勢。雖然 OpenAI 提供對 GPT-3.5 模型的免費訪問,但訪問 GPT-4 需要訂閱 OpenAI Plus,這涉及到每個模型的成本。月。此訂閱允許用戶訪問 GPT-4 模型及其高級功能,例如自定義 GPT 和網(wǎng)絡(luò)搜索功能。
另一方面,要體驗 Claude 3 Sonnet 模型,用戶只需在 Anthropic 的官方網(wǎng)絡(luò)聊天機器人界面上創(chuàng)建一個帳戶,該界面可在 159 個國家/地區(qū)使用。但是,要訪問更強大的 Claude 3 Opus 模型,用戶必須訂閱 Anthropic 的付費 Claude Pro。
結(jié)論:細致入微的比較
Anthropic 的 Claude 3 Opus 模型和 OpenAI 的 GPT-4 是具有獨特優(yōu)勢的強大語言模型。雖然 Anthropic 聲稱 Claude 3 Opus 在某些任務(wù)中優(yōu)于 GPT-4,但 GPT-4 Turbo 的引入使比較變得復(fù)雜。 GPT-4 Turbo 似乎具有整體優(yōu)勢,在 GSM8K 等基準(zhǔn)測試中得分更高。然而,Claude 3 Opus 擅長遵循提示,在給出提示時生成更多邏輯輸出。兩種型號之間的選擇還可能取決于可訪問性和成本因素,Claude 3 提供了更實惠的選擇來訪問其較低層的型號。
就整體性能而言,GPT-4 Turbo 似乎比 Claude 3 Opus 稍有優(yōu)勢。它在多個旨在測試語言模型在各種任務(wù)中的能力的基準(zhǔn)測試中取得了更高的分數(shù)。這些基準(zhǔn)評估連貫性、事實準(zhǔn)確性和推理能力等因素。然而,值得注意的是,沒有一個基準(zhǔn)可以提供模型性能的完整情況,并且不同的基準(zhǔn)可能有不同的優(yōu)勢。
另一方面,Claude 3 Opus 的突出之處在于它能夠更嚴格地遵循提示并生成與給定指令在邏輯上更加一致的輸出。這在精確遵守提示至關(guān)重要的場景中尤其有價值,例如在特定于任務(wù)的應(yīng)用程序中。
最終,Claude 3 和 GPT-4 之間的決定將取決于用戶的具體需求和優(yōu)先級。
語言模型的未來
隨著人工智能領(lǐng)域不斷快速發(fā)展,這些強大的語言模型之間的競爭可能會加劇。雖然 Claude 3 無疑已強勢進入市場,但 GPT-4 的多功能性和性能使其成為強大的對手。
語言模型和人工智能助手的不斷進步為用戶帶來了巨大的優(yōu)勢。隨著這些技術(shù)變得越來越廣泛,它們有能力改變各個部門并賦予個人和企業(yè)權(quán)力。
無論哪種模型最終處于領(lǐng)先地位,有一個確定性仍然存在:大型語言模型的時代已經(jīng)到來,它們對我們?nèi)粘I詈吐殬I(yè)生涯的影響只會增強。
結(jié)論
Claude 3 和 GPT-4 之間的戰(zhàn)斗只是一場持續(xù)的軍備競賽的開始,這場競賽的目的是開發(fā)日益復(fù)雜和強大的大型語言模型。隨著 Anthropic 和 OpenAI 等公司帶來創(chuàng)新,人工智能世界正在不斷發(fā)展。然而,做出明確的比較或優(yōu)越性主張需要仔細考慮。雖然基準(zhǔn)測試提供了有價值的見解,但現(xiàn)實世界的應(yīng)用程序可能會揭示這些指標(biāo)無法完全捕獲的復(fù)雜性。此外,隨著 GPT-4 Turbo 等新進步迅速改變競爭環(huán)境,情況也在迅速變化。在評估這些復(fù)雜的語言模型時,平衡的視角至關(guān)重要。

品年齡.jpg)
