LMArena
外观
网站类型 | 人工智慧 |
|---|---|
| 成立 | 2025年3月 |
| 原产地 | 美國 |
| 创立者 |
|
| 网址 | lmarena |
| 注册 | 無需註冊 |
| 推出时间 | 2023年5月3日 |
LMArena (原名Chatbot Arena)是一個公開的線上平台,透過匿名、群眾參與的成對比較來評估大型語言模型(LLM)。使用者輸入提示,讓兩個匿名模型生成回覆,再投票選出表現較好的模型,投票後才會顯示模型名稱。使用者也能自行挑選模型進行測試。[1][2]
LMArena在人工智慧領域中具有影響力,許多大型公司會在平台上提供自家語言模型,例如GPT-4o、o1、Gemini [3]和Claude[4] ,並利用平台上的排名推廣產品。該網站甚至被用於發佈尚未正式公開的模型版本。
例如,中國公司DeepSeek在R1模型受到西方媒體關注前的數月,便已在LMArena上測試其原型模型。[5]其他在平台進行預先測試的案例包括:OpenAI以「summit」為代號測試GPT-5的變體,以及Google DeepMind以「nano-banana」為代號測試Gemini-2.5-Flash-Image。[6] [7]
不過,LMArena的評估方法也成為學術界分析的對象,研究指出其存在一定限制並提出改進建議。平台隨後依據相關研究持續更新政策與方法論。[8][9]
參考資料
[编辑]- ^ Hart, Robert. What AI Is The Best? Chatbot Arena Relies On Millions Of Human Votes. Forbes. 2024-07-18 [2025-04-21].
- ^ Kruppa, Miles. The UC Berkeley Project That Is the AI Industry's Obsession. The Wall Street Journal. 2024-12-05 [2025-04-21].
- ^ Nuñez, Michael. Google Gemini unexpectedly surges to No. 1, over OpenAI, but benchmarks don't tell the whole story. VentureBeat. 2024-11-15 [2025-04-21].
- ^ Edwards, Benj. "The king is dead"—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time. Ars Technica. 2024-03-27 [2025-04-21].
- ^ Metz, Rachel. Before DeepSeek Blew Up, Chatbot Arena Announced Its Arrival. Bloomberg News. 2025-02-18 [2025-04-21].
- ^ Ziff, Maxwell. Google Gemini's AI image model gets a 'bananas' upgrade. TechCrunch. 2025-08-26 [2025-08-27].
- ^ Langley, Hugh. Is Google behind a mysterious new AI image generator? These bananas might confirm it. Business Insider. 2025-08-19 [2025-08-27].
- ^ Stokel-Walker, Chris. Hundreds of rigged votes can skew AI model rankings on Chatbot Arena, study finds. Fast Company. 2025-02-06 [2025-04-21].
- ^ Wiggers, Kyle. The AI industry is obsessed with Chatbot Arena, but it might not be the best benchmark. TechCrunch. 2024-09-05 [2025-04-21].