跳转到内容

Gemini (语言模型)

维基百科,自由的百科全书
Gemini
開發者Google DeepMind
首次发布2023年12月6日,​2年前​(2023-12-06
当前版本3.0 Pro(2025年11月18日,​19天前​(2025-11-18
前任PaLM 2
语言英語
类型大型语言模型
许可协议專有
网站deepmind.google/technologies/gemini/ 编辑维基数据

Gemini是一个多模态大型语言模型系列,由谷歌DeepMind开发,是LaMDA的后继,属于PaLM 2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro、Gemini Flash和Gemini Nano,于2023年12月6日面世,被定位为与OpenAIGPT-4抗衡的产品系列。[1][2][3]

历史

[编辑]

開發

[编辑]

Google在2023年5月10日的Google I/O上發布了Gemini,这是一个由其子公司Google DeepMind开发的大型语言模型。它被定位为PaLM 2更强大的继任者,PaLM 2也在该活动中亮相。Google CEO桑达尔·皮查伊表示,Gemini当时仍处于早期开发阶段。[4][5]与其他大型语言模型不同,Gemini的独特之处在于它并非仅在文本语料库上进行训练,而是从一开始就被设计为多模态模型,这意味着它可以同时处理多种类型的数据,包括文本、图像、音频、视频和代码。[6]该模型由DeepMind和Google Brain合作开发,这两个Google的分支已于前一个月合并为Google DeepMind。[7]在接受《连线》杂志采访时,DeepMind的CEO杰米斯·哈萨比斯宣传了Gemini的先进能力,他相信该算法将胜过OpenAIChatGPT(其基于GPT-4运行)。哈萨比斯强调了DeepMind的AlphaGo项目的优势——该项目在2016年击败围棋世界冠军李世乭而举世闻名,并表示Gemini将结合AlphaGo及其他Google-DeepMind大型语言模型的能力。[8]

推出

[编辑]

2023年12月6日,谷歌在一次虚拟记者招待会上宣布推出了“Gemini 1.0”。[1]它由三个模型组成:Gemini Ultra—用于“高度复杂的任务”,Gemini Pro—用于“广泛的任务”, 以及Gemini Nano—用于“终端上设备的任务”。 在發布時,Gemini Pro和Gemini Nano分別被整合到Bard(後來更名為Gemini)和Pixel 8 Pro智慧型手機中,而Gemini Ultra則計劃在2024年初用於“Bard Advanced”服務並向開發者提供。Google亦計劃將Gemini整合到其他產品中,包括搜索广告Chrome、Google Workspace的Duet AI以及AlphaCode 2[3][2] 2024年2月5日,APP正式上線

模型版本

[编辑]

下表列出了Gemini的主要模型版本,描述了每个版本所包含的重大变更:[9][10]

版本 发布日期 状态[11][12] 描述
Bard 21 March 2023 已弃用 Google首个基于LaMDA的实验性聊天机器人服务。[13]
1.0 Nano 6 December 2023 已弃用 设计用于设备端任务,并首次应用于Google的Pixel 8 Pro[14]
1.0 Pro 13 December 2023 已弃用 为多样化的任务而设计。[14]
1.0 Ultra 8 February 2024 已弃用 Google在Gemini 1.0系列中最强大的模型。[14]
1.5 Pro 15 February 2024 已弃用 作为1.0系列模型的继任者,1.5 Pro提供了显著增大的上下文窗口(高达100万个token),是Gemini 1.5系列中功能最强的模型。[15]
1.5 Flash 14 May 2024 已弃用
2.0 Flash 30 January 2025 活跃 由Google开发,专注于多模态、代理能力和速度。[16]
2.0 Flash-Lite 1 February 2025 活跃 首个为成本效益和速度而设计的Gemini Flash-Lite模型。[17]
2.5 Pro 25 March 2025 活跃
2.5 Flash 17 April 2025 活跃
2.5 Flash-Lite 17 June 2025 活跃
3.0 Pro 2025年11月18日 活跃 [18][19]

技术规格

[编辑]

由于Gemini是多模态模型,每个上下文窗口都可以包含多种形式的输入。不同的模态可以交错出现,无需按固定顺序呈现,从而实现多模态对话。例如,用户可以用任意顺序混合文本、图片、视频和音频来开启对话,Gemini也可能以同样自由的顺序进行回复。输入图像可以是不同的分辨率,而视频则作为图像序列输入。音频以16kHz的频率进行采样,然后由通用语音模型(Universal Speech Model)转换为tokens序列。Gemini的数据集是多模态和多语言的,由“网页文档、书籍和代码组成,并包含图像、音频和视频数据”。[20]

Gemini和Gemma模型是仅解码器的Transformer,并经过修改以允许在TPU上进行高效的训练和推理。1.0代的模型使用了多查询注意力(multi-query attention)。[20]

Gemini模型技术规格
变体 发布日期 参数 上下文长度 (Tokens) 注释
1.0 Nano-1 6 December 2023 18亿 32,768 从“更大的Gemini模型”蒸馏而来,4位量化[20]
Nano-2 6 December 2023 32.5亿
Pro 13 December 2023 ?
Ultra 8 February 2024 ?
1.5 Pro 15 February 2024 ? 10,000,000[21][22] 在生产API中为100万
Flash 14 May 2024

Google未发布Gemini 2.0和Gemini 2.5的技术白皮书。

外界反响

[编辑]

Gemini的发布经历了长达数月的市场猜测和高度期待,被《麻省理工科技评论》形容为“AI炒作的顶峰”。[23][24] 2023年8月,研究公司SemiAnalysis的分析师迪伦·帕特尔(Dylan Patel)和丹尼尔·尼什尔(Daniel Nishball)发表博文,宣称Gemini的发布将“吞噬世界”并超越GPT-4,此举引发了OpenAI CEO萨姆·阿尔特曼在X(原Twitter)上的嘲讽。[25][26] 商业巨头、OpenAI的联合创始人埃隆·马斯克也参与讨论,并问道:“是数字错了吗?”[27]商业内幕》的休·兰利(Hugh Langley)评论说,Gemini对谷歌而言是一个成败的关键时刻,他写道:“如果Gemini表现出色,将有助于谷歌改变其被微软和OpenAI抢占先机的叙事。如果它令人失望,那么批评者会更大胆地宣称谷歌已经落后了。”[28]

在2023年12月Gemini发布后,华盛顿大学名誉教授奥伦·埃齐IONI预言,谷歌与OpenAI之间将展开一场“针锋相对的军备竞赛”。[29] 加州大學柏克萊分校的教授阿列克謝·埃弗羅斯赞扬了Gemini多模态方法的潜力,[30]圣菲研究所的科学家米兰妮·米歇尔则称其“非常复杂”。并非所有人都印象深刻,华盛顿大学的奇拉格·沙阿(Chirag Shah)教授将这次发布比作苹果公司推出新款iPhone一样的例行公事。同样,斯坦福大学的珀西·梁(Percy Liang)、华盛顿大学的艾米丽·本德尔以及高威大学的迈克尔·马登(Michael Madden)都警告说,在不了解训练数据的情况下,很难解读基准测试的分数。[23][31]快公司》的马克·苏利文(Mark Sullivan)认为,谷歌有机会挑战iPhone的主导市场份额,因为他相信苹果公司不太可能利用其Siri虚拟助手开发出与Gemini相媲美的功能。[32] 在Gemini发布后的第二天,谷歌股价上涨了5.3%。[33][34] 在Gemini发布时,谷歌发布了一段令人印象深刻的演示视频,名为“与Gemini的上手体验”,视频展示了模型流畅、实时地响应语音和视觉提示的能力。然而,该视频很快引发了争议,因为谷歌承认这并非一次真实的实时互动录像。批评者指出,视频通过剪辑和后期处理,给用户带来了Gemini拥有极低延迟和强大语音对话能力的误导性印象。根据报道,谷歌澄清该影片是使用了视频录像中的静态图片帧,并结合文本提示词来生成Gemini的回应,而非模型实时理解人类语音和连续的视觉画面。之后,谷歌在视频的YouTube描述中补充说:“为本次演示之目的,我们缩短了延迟并精简了Gemini的输出内容。”[35] Gemini 2.5 Pro实验版在发布后登顶了衡量人类偏好的基准测试LMArena排行榜,显示出强大的性能和输出品質。[36][37] 该模型在评估推理、知识、科学、数学、编码和长上下文性能的各种基准测试中,均取得了顶尖或极具竞争力的结果。[36][38][37][39] 初步评测强调了其相较于旧版本在推理能力和性能上的提升。[39][40] 同时,已发布的基准测试也显示,在某些领域,来自AnthropicxAIOpenAI的同期模型仍保持优势。[38][37]

参见

[编辑]

參考資料

[编辑]
  1. ^ 1.0 1.1 Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI需要付费订阅. The Wall Street Journal. December 6, 2023 [December 6, 2023]. ISSN 0099-9660. (原始内容存档于December 6, 2023). 
  2. ^ 2.0 2.1 Liedtike, Michael; O'Brien, Matt. Google launches Gemini, upping the stakes in the global AI race. Associated Press. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023). 
  3. ^ 3.0 3.1 Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023). 
  4. ^ Grant, Nico. Google Builds on Tech's Latest Craze With Its Own A.I. Products有限度免费查阅,超限则需付费订阅. The New York Times. May 10, 2023 [August 21, 2023]. ISSN 0362-4331. (原始内容存档于May 10, 2023). 
  5. ^ Ortiz, Sabrina. Every major AI feature announced at Google I/O 2023. ZDNet. May 10, 2023 [August 21, 2023]. (原始内容存档于May 10, 2023). 
  6. ^ Milmo, Dan. Google says new AI model Gemini outperforms ChatGPT in most tests. The Guardian. December 6, 2023 [December 6, 2023]. ISSN 0261-3077. (原始内容存档于December 6, 2023). 
  7. ^ Levy, Steven. Sundar Pichai on Google;s AI, Microsoft's AI, OpenAI, and ... Did We Mention AI?有限度免费查阅,超限则需付费订阅. Wired. September 11, 2023 [September 12, 2023]. (原始内容存档于September 11, 2023). 
  8. ^ Knight, Will. Google DeepMind's CEO Says Its Next Algorithm Will Eclipse ChatGPT有限度免费查阅,超限则需付费订阅. Wired. June 26, 2023 [August 21, 2023]. (原始内容存档于June 26, 2023). 
  9. ^ Gemini Release updates. Google. [April 9, 2025]. (原始内容存档于April 9, 2025). 
  10. ^ Gemini models. Google. [April 9, 2025]. (原始内容存档于April 9, 2025). 
  11. ^ Model versions and lifecycle. Google Cloud. 
  12. ^ Doshi, Tulsee. We're expanding our Gemini 2.5 family of models. The Keyword. Google. June 17, 2025 [12 July 2025]. 
  13. ^ Pichai, Sundar. An important next step on our AI journey. The Keyword. February 6, 2023 [12 July 2025]. 
  14. ^ 14.0 14.1 14.2 Pichai, Sundar; Hassabis, Demis. Introducing Gemini: our largest and most capable AI model. The Keyword. December 6, 2023 [12 July 2025]. 
  15. ^ Pichai, Sundar; Hassabis, Demiss. Our next-generation model: Gemini 1.5. The Keyword. February 15, 2024 [12 July 2025]. 
  16. ^ Pichai, Sundar; Hassabis, Demis; Kavukcuoglu, Koray. Introducing Gemini 2.0: our new AI model for the agentic era. The Keyword. December 11, 2024 [12 July 2025]. 
  17. ^ Mallick, Shrestha; Kilpatrick, Logan. Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. [12 July 2025]. 
  18. ^ Overview Leaderboard | LMArena. lmarena.ai. [2025-11-19] (英语). 
  19. ^ A new era of intelligence with Gemini 3. Google. 2025-11-18 [2025-11-19] (美国英语). 
  20. ^ 20.0 20.1 20.2 Gemini: A Family of Highly Capable Multimodal Models (PDF) (技术报告). Google DeepMind. December 6, 2023 [December 7, 2023]. (原始内容存档 (PDF)于December 6, 2023). 
  21. ^ Our next-generation model: Gemini 1.5. Google. 15 February 2024 (美国英语). In our research, we've also successfully tested up to 10 million tokens. 
  22. ^ Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (PDF) (技术报告). Google DeepMind. February 15, 2024 [May 17, 2024]. (原始内容存档 (PDF)于Feb 26, 2024). 
  23. ^ 23.0 23.1 Heikkilä, Melissa; Heaven, Will Douglas. Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype有限度免费查阅,超限则需付费订阅. MIT Technology Review. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023). 
  24. ^ Henshall, Will. Google DeepMind Unveils Its Most Powerful AI Offering Yet有限度免费查阅,超限则需付费订阅. Time. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023).  参数|magazine=与模板{{cite web}}不匹配(建议改用{{cite magazine}}|website=) (帮助)
  25. ^ howdhury, Hasan. AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4有限度免费查阅,超限则需付费订阅. Business Insider. August 29, 2023 [September 7, 2023]. (原始内容存档于August 29, 2023). 
  26. ^ Harrison, Maggie. OpenAI Rages at Report that Google's New AI Crushes GPT-4有限度免费查阅,超限则需付费订阅. Fortune. August 31, 2023 [September 7, 2023]. (原始内容存档于August 31, 2023). 
  27. ^ Musk, Elon [@elonmusk]. Are the numbers wrong? (推文). August 29, 2023 [October 15, 2023]. (原始内容存档于September 1, 2023) –通过Twitter. 
  28. ^ Langley, Hugh. Google's make-or-break moment with Gemini is near有限度免费查阅,超限则需付费订阅. Business Insider. October 1, 2023 [October 5, 2025]. 
  29. ^ Bishop, Todd. Google’s Gemini reveal promises to escalate AI ‘arms race’ with Microsoft and OpenAI. GeekWire. December 6, 2023 [October 5, 2025]. 
  30. ^ Knight, Will. Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT有限度免费查阅,超限则需付费订阅. Wired. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023). 
  31. ^ Madden, Michael G. Google's Gemini: is the new AI model really better than ChatGPT?. The Conversation. December 15, 2023 [February 4, 2024]. (原始内容存档于December 15, 2023). 
  32. ^ Sullivan, Mark. Gemini-powered Google phones may make Siri even more of an Achilles' heel for the iPhone有限度免费查阅,超限则需付费订阅. Fast Company. December 6, 2023 [December 7, 2023]. (原始内容存档于December 7, 2023). 
  33. ^ Soni, Aditya. Alphabet soars as Wall Street cheers arrival of AI model Gemini有限度免费查阅,超限则需付费订阅. Reuters. December 7, 2023 [February 4, 2024]. (原始内容存档于December 7, 2023). 
  34. ^ Swartz, Jon. Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit有限度免费查阅,超限则需付费订阅. MarketWatch. December 7, 2023 [February 4, 2024]. (原始内容存档于December 7, 2023). 
  35. ^ Kovach, Steve; Elias, Jennifer. Google Faces Controversy over Edited Gemini AI Demo Video. CNBC. 2023-12-08 [2023-12-09]. (原始内容存档于December 9, 2023) (英语). 
  36. ^ 36.0 36.1 Kavukcuoglu, Koray. Gemini 2.5: Our most intelligent AI model. The Keyword (Google Blog). March 25, 2025 [March 26, 2025]. 
  37. ^ 37.0 37.1 37.2 Google's Gemini 2.5 Pro model tops LMArena by close to 40 points. R&D World. March 25, 2025 [March 26, 2025]. 
  38. ^ 38.0 38.1 Gemini Pro - Technical Details and Benchmarks. Google DeepMind. March 25, 2025 [March 26, 2025]. 
  39. ^ 39.0 39.1 Gemini 2.5 is now available for Advanced users and it seriously improves Google's AI reasoning. TechRadar. March 26, 2025 [March 26, 2025]. 
  40. ^ Gemini 2.5 Pro Exp: How to Access, Features, Applications & More. Analytics Vidhya. March 26, 2025 [March 26, 2025]. 

外部链接

[编辑]