跳至內容

Gemini (語言模型)

維基百科,自由的百科全書
Gemini
開發者Google DeepMind
首次發布2023年12月6日,​2年前​(2023-12-06
當前版本3.0 Pro(2025年11月18日,​24天前​(2025-11-18
前任PaLM 2
語言英語
類型大型語言模型
許可協議專有
網站deepmind.google/technologies/gemini/ 編輯維基數據

Gemini是一個多模態大型語言模型系列,由谷歌DeepMind開發,是LaMDA的後繼,屬於PaLM 2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro、Gemini Flash和Gemini Nano,於2023年12月6日面世,被定位為與OpenAIGPT-4抗衡的產品系列。[1][2][3]

歷史

[編輯]

開發

[編輯]

Google在2023年5月10日的Google I/O上發布了Gemini,這是一個由其子公司Google DeepMind開發的大型語言模型。它被定位為PaLM 2更強大的繼任者,PaLM 2也在該活動中亮相。Google CEO桑達爾·皮查伊表示,Gemini當時仍處於早期開發階段。[4][5]與其他大型語言模型不同,Gemini的獨特之處在於它並非僅在文本語料庫上進行訓練,而是從一開始就被設計為多模態模型,這意味著它可以同時處理多種類型的數據,包括文本、圖像、音頻、視頻和代碼。[6]該模型由DeepMind和Google Brain合作開發,這兩個Google的分支已於前一個月合併為Google DeepMind。[7]在接受《連線》雜誌採訪時,DeepMind的CEO傑米斯·哈薩比斯宣傳了Gemini的先進能力,他相信該算法將勝過OpenAIChatGPT(其基於GPT-4運行)。哈薩比斯強調了DeepMind的AlphaGo項目的優勢——該項目在2016年擊敗圍棋世界冠軍李世乭而舉世聞名,並表示Gemini將結合AlphaGo及其他Google-DeepMind大型語言模型的能力。[8]

推出

[編輯]

2023年12月6日,谷歌在一次虛擬記者招待會上宣布推出了「Gemini 1.0」。[1]它由三個模型組成:Gemini Ultra—用於「高度複雜的任務」,Gemini Pro—用於「廣泛的任務」, 以及Gemini Nano—用於「終端上設備的任務」。 在發布時,Gemini Pro和Gemini Nano分別被整合到Bard(後來更名為Gemini)和Pixel 8 Pro智慧型手機中,而Gemini Ultra則計劃在2024年初用於「Bard Advanced」服務並向開發者提供。Google亦計劃將Gemini整合到其他產品中,包括搜索廣告Chrome、Google Workspace的Duet AI以及AlphaCode 2[3][2] 2024年2月5日,APP正式上線

模型版本

[編輯]

下表列出了Gemini的主要模型版本,描述了每個版本所包含的重大變更:[9][10]

版本 發布日期 狀態[11][12] 描述
Bard 21 March 2023 已棄用 Google首個基於LaMDA的實驗性聊天機器人服務。[13]
1.0 Nano 6 December 2023 已棄用 設計用於設備端任務,並首次應用於Google的Pixel 8 Pro[14]
1.0 Pro 13 December 2023 已棄用 為多樣化的任務而設計。[14]
1.0 Ultra 8 February 2024 已棄用 Google在Gemini 1.0系列中最強大的模型。[14]
1.5 Pro 15 February 2024 已棄用 作為1.0系列模型的繼任者,1.5 Pro提供了顯著增大的上下文窗口(高達100萬個token),是Gemini 1.5系列中功能最強的模型。[15]
1.5 Flash 14 May 2024 已棄用
2.0 Flash 30 January 2025 活躍 由Google開發,專注於多模態、代理能力和速度。[16]
2.0 Flash-Lite 1 February 2025 活躍 首個為成本效益和速度而設計的Gemini Flash-Lite模型。[17]
2.5 Pro 25 March 2025 活躍
2.5 Flash 17 April 2025 活躍
2.5 Flash-Lite 17 June 2025 活躍
3.0 Pro 2025年11月18日 活躍 [18][19]

技術規格

[編輯]

由於Gemini是多模態模型,每個上下文窗口都可以包含多種形式的輸入。不同的模態可以交錯出現,無需按固定順序呈現,從而實現多模態對話。例如,用戶可以用任意順序混合文本、圖片、視頻和音頻來開啟對話,Gemini也可能以同樣自由的順序進行回復。輸入圖像可以是不同的解析度,而視頻則作為圖像序列輸入。音頻以16kHz的頻率進行採樣,然後由通用語音模型(Universal Speech Model)轉換為tokens序列。Gemini的數據集是多模態和多語言的,由「網頁文檔、書籍和代碼組成,並包含圖像、音頻和視頻數據」。[20]

Gemini和Gemma模型是僅解碼器的Transformer,並經過修改以允許在TPU上進行高效的訓練和推理。1.0代的模型使用了多查詢注意力(multi-query attention)。[20]

Gemini模型技術規格
變體 發布日期 參數 上下文長度 (Tokens) 注釋
1.0 Nano-1 6 December 2023 18億 32,768 從「更大的Gemini模型」蒸餾而來,4位量化[20]
Nano-2 6 December 2023 32.5億
Pro 13 December 2023 ?
Ultra 8 February 2024 ?
1.5 Pro 15 February 2024 ? 10,000,000[21][22] 在生產API中為100萬
Flash 14 May 2024

Google未發布Gemini 2.0和Gemini 2.5的技術白皮書。

外界反響

[編輯]

Gemini的發布經歷了長達數月的市場猜測和高度期待,被《麻省理工科技評論》形容為「AI炒作的頂峰」。[23][24] 2023年8月,研究公司SemiAnalysis的分析師迪倫·帕特爾(Dylan Patel)和丹尼爾·尼什爾(Daniel Nishball)發表博文,宣稱Gemini的發布將「吞噬世界」並超越GPT-4,此舉引發了OpenAI CEO薩姆·阿爾特曼在X(原Twitter)上的嘲諷。[25][26] 商業巨頭、OpenAI的聯合創始人埃隆·馬斯克也參與討論,並問道:「是數字錯了嗎?」[27]商業內幕》的休·蘭利(Hugh Langley)評論說,Gemini對谷歌而言是一個成敗的關鍵時刻,他寫道:「如果Gemini表現出色,將有助於谷歌改變其被微軟和OpenAI搶占先機的敘事。如果它令人失望,那麼批評者會更大膽地宣稱谷歌已經落後了。」[28]

在2023年12月Gemini發布後,華盛頓大學名譽教授奧倫·埃齊IONI預言,谷歌與OpenAI之間將展開一場「針鋒相對的軍備競賽」。[29] 加州大學柏克萊分校的教授阿列克謝·埃弗羅斯讚揚了Gemini多模態方法的潛力,[30]聖菲研究所的科學家米蘭妮·米歇爾則稱其「非常複雜」。並非所有人都印象深刻,華盛頓大學的奇拉格·沙阿(Chirag Shah)教授將這次發布比作蘋果公司推出新款iPhone一樣的例行公事。同樣,史丹佛大學的珀西·梁(Percy Liang)、華盛頓大學的艾米麗·本德爾以及高威大學的麥可·馬登(Michael Madden)都警告說,在不了解訓練數據的情況下,很難解讀基準測試的分數。[23][31]快公司》的馬克·蘇利文(Mark Sullivan)認為,谷歌有機會挑戰iPhone的主導市場份額,因為他相信蘋果公司不太可能利用其Siri虛擬助手開發出與Gemini相媲美的功能。[32] 在Gemini發布後的第二天,谷歌股價上漲了5.3%。[33][34] 在Gemini發布時,谷歌發布了一段令人印象深刻的演示視頻,名為「與Gemini的上手體驗」,視頻展示了模型流暢、實時地響應語音和視覺提示的能力。然而,該視頻很快引發了爭議,因為谷歌承認這並非一次真實的實時互動錄影。批評者指出,視頻通過剪輯和後期處理,給用戶帶來了Gemini擁有極低延遲和強大語音對話能力的誤導性印象。根據報道,谷歌澄清該影片是使用了視頻錄影中的靜態圖片幀,並結合文本提示詞來生成Gemini的回應,而非模型實時理解人類語音和連續的視覺畫面。之後,谷歌在視頻的YouTube描述中補充說:「為本次演示之目的,我們縮短了延遲並精簡了Gemini的輸出內容。」[35] Gemini 2.5 Pro實驗版在發布後登頂了衡量人類偏好的基準測試LMArena排行榜,顯示出強大的性能和輸出品質。[36][37] 該模型在評估推理、知識、科學、數學、編碼和長上下文性能的各種基準測試中,均取得了頂尖或極具競爭力的結果。[36][38][37][39] 初步評測強調了其相較於舊版本在推理能力和性能上的提升。[39][40] 同時,已發布的基準測試也顯示,在某些領域,來自AnthropicxAIOpenAI的同期模型仍保持優勢。[38][37]

參見

[編輯]

參考資料

[編輯]
  1. ^ 1.0 1.1 Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI需要付費訂閱. The Wall Street Journal. December 6, 2023 [December 6, 2023]. ISSN 0099-9660. (原始內容存檔於December 6, 2023). 
  2. ^ 2.0 2.1 Liedtike, Michael; O'Brien, Matt. Google launches Gemini, upping the stakes in the global AI race. Associated Press. December 6, 2023 [December 6, 2023]. (原始內容存檔於December 6, 2023). 
  3. ^ 3.0 3.1 Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica. December 6, 2023 [December 6, 2023]. (原始內容存檔於December 6, 2023). 
  4. ^ Grant, Nico. Google Builds on Tech's Latest Craze With Its Own A.I. Products有限度免費查閱,超限則需付費訂閱. The New York Times. May 10, 2023 [August 21, 2023]. ISSN 0362-4331. (原始內容存檔於May 10, 2023). 
  5. ^ Ortiz, Sabrina. Every major AI feature announced at Google I/O 2023. ZDNet. May 10, 2023 [August 21, 2023]. (原始內容存檔於May 10, 2023). 
  6. ^ Milmo, Dan. Google says new AI model Gemini outperforms ChatGPT in most tests. The Guardian. December 6, 2023 [December 6, 2023]. ISSN 0261-3077. (原始內容存檔於December 6, 2023). 
  7. ^ Levy, Steven. Sundar Pichai on Google;s AI, Microsoft's AI, OpenAI, and ... Did We Mention AI?有限度免費查閱,超限則需付費訂閱. Wired. September 11, 2023 [September 12, 2023]. (原始內容存檔於September 11, 2023). 
  8. ^ Knight, Will. Google DeepMind's CEO Says Its Next Algorithm Will Eclipse ChatGPT有限度免費查閱,超限則需付費訂閱. Wired. June 26, 2023 [August 21, 2023]. (原始內容存檔於June 26, 2023). 
  9. ^ Gemini Release updates. Google. [April 9, 2025]. (原始內容存檔於April 9, 2025). 
  10. ^ Gemini models. Google. [April 9, 2025]. (原始內容存檔於April 9, 2025). 
  11. ^ Model versions and lifecycle. Google Cloud. 
  12. ^ Doshi, Tulsee. We're expanding our Gemini 2.5 family of models. The Keyword. Google. June 17, 2025 [12 July 2025]. 
  13. ^ Pichai, Sundar. An important next step on our AI journey. The Keyword. February 6, 2023 [12 July 2025]. 
  14. ^ 14.0 14.1 14.2 Pichai, Sundar; Hassabis, Demis. Introducing Gemini: our largest and most capable AI model. The Keyword. December 6, 2023 [12 July 2025]. 
  15. ^ Pichai, Sundar; Hassabis, Demiss. Our next-generation model: Gemini 1.5. The Keyword. February 15, 2024 [12 July 2025]. 
  16. ^ Pichai, Sundar; Hassabis, Demis; Kavukcuoglu, Koray. Introducing Gemini 2.0: our new AI model for the agentic era. The Keyword. December 11, 2024 [12 July 2025]. 
  17. ^ Mallick, Shrestha; Kilpatrick, Logan. Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. [12 July 2025]. 
  18. ^ Overview Leaderboard | LMArena. lmarena.ai. [2025-11-19] (英語). 
  19. ^ A new era of intelligence with Gemini 3. Google. 2025-11-18 [2025-11-19] (美國英語). 
  20. ^ 20.0 20.1 20.2 Gemini: A Family of Highly Capable Multimodal Models (PDF) (技術報告). Google DeepMind. December 6, 2023 [December 7, 2023]. (原始內容存檔 (PDF)於December 6, 2023). 
  21. ^ Our next-generation model: Gemini 1.5. Google. 15 February 2024 (美國英語). In our research, we've also successfully tested up to 10 million tokens. 
  22. ^ Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (PDF) (技術報告). Google DeepMind. February 15, 2024 [May 17, 2024]. (原始內容存檔 (PDF)於Feb 26, 2024). 
  23. ^ 23.0 23.1 Heikkilä, Melissa; Heaven, Will Douglas. Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype有限度免費查閱,超限則需付費訂閱. MIT Technology Review. December 6, 2023 [December 6, 2023]. (原始內容存檔於December 6, 2023). 
  24. ^ Henshall, Will. Google DeepMind Unveils Its Most Powerful AI Offering Yet有限度免費查閱,超限則需付費訂閱. Time. December 6, 2023 [December 6, 2023]. (原始內容存檔於December 6, 2023).  參數|magazine=與模板{{cite web}}不匹配(建議改用{{cite magazine}}|website=) (幫助)
  25. ^ howdhury, Hasan. AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4有限度免費查閱,超限則需付費訂閱. Business Insider. August 29, 2023 [September 7, 2023]. (原始內容存檔於August 29, 2023). 
  26. ^ Harrison, Maggie. OpenAI Rages at Report that Google's New AI Crushes GPT-4有限度免費查閱,超限則需付費訂閱. Fortune. August 31, 2023 [September 7, 2023]. (原始內容存檔於August 31, 2023). 
  27. ^ Musk, Elon [@elonmusk]. Are the numbers wrong? (推文). August 29, 2023 [October 15, 2023]. (原始內容存檔於September 1, 2023) –透過Twitter. 
  28. ^ Langley, Hugh. Google's make-or-break moment with Gemini is near有限度免費查閱,超限則需付費訂閱. Business Insider. October 1, 2023 [October 5, 2025]. 
  29. ^ Bishop, Todd. Google’s Gemini reveal promises to escalate AI ‘arms race’ with Microsoft and OpenAI. GeekWire. December 6, 2023 [October 5, 2025]. 
  30. ^ Knight, Will. Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT有限度免費查閱,超限則需付費訂閱. Wired. December 6, 2023 [December 6, 2023]. (原始內容存檔於December 6, 2023). 
  31. ^ Madden, Michael G. Google's Gemini: is the new AI model really better than ChatGPT?. The Conversation. December 15, 2023 [February 4, 2024]. (原始內容存檔於December 15, 2023). 
  32. ^ Sullivan, Mark. Gemini-powered Google phones may make Siri even more of an Achilles' heel for the iPhone有限度免費查閱,超限則需付費訂閱. Fast Company. December 6, 2023 [December 7, 2023]. (原始內容存檔於December 7, 2023). 
  33. ^ Soni, Aditya. Alphabet soars as Wall Street cheers arrival of AI model Gemini有限度免費查閱,超限則需付費訂閱. Reuters. December 7, 2023 [February 4, 2024]. (原始內容存檔於December 7, 2023). 
  34. ^ Swartz, Jon. Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit有限度免費查閱,超限則需付費訂閱. MarketWatch. December 7, 2023 [February 4, 2024]. (原始內容存檔於December 7, 2023). 
  35. ^ Kovach, Steve; Elias, Jennifer. Google Faces Controversy over Edited Gemini AI Demo Video. CNBC. 2023-12-08 [2023-12-09]. (原始內容存檔於December 9, 2023) (英語). 
  36. ^ 36.0 36.1 Kavukcuoglu, Koray. Gemini 2.5: Our most intelligent AI model. The Keyword (Google Blog). March 25, 2025 [March 26, 2025]. 
  37. ^ 37.0 37.1 37.2 Google's Gemini 2.5 Pro model tops LMArena by close to 40 points. R&D World. March 25, 2025 [March 26, 2025]. 
  38. ^ 38.0 38.1 Gemini Pro - Technical Details and Benchmarks. Google DeepMind. March 25, 2025 [March 26, 2025]. 
  39. ^ 39.0 39.1 Gemini 2.5 is now available for Advanced users and it seriously improves Google's AI reasoning. TechRadar. March 26, 2025 [March 26, 2025]. 
  40. ^ Gemini 2.5 Pro Exp: How to Access, Features, Applications & More. Analytics Vidhya. March 26, 2025 [March 26, 2025]. 

外部連結

[編輯]