Gemini (语言模型)
此條目可参照英語維基百科相應條目来扩充。 |
| 開發者 | Google DeepMind |
|---|---|
| 首次发布 | 2023年12月6日 |
| 当前版本 | 3.0 Pro(2025年11月18日) |
| 前任 | PaLM 2 |
| 语言 | 英語 |
| 类型 | 大型语言模型 |
| 许可协议 | 專有 |
| 网站 | deepmind |
Gemini是一个多模态大型语言模型系列,由谷歌DeepMind开发,是LaMDA的后继,属于PaLM 2系列的新一代。Gemini包含Gemini Ultra、Gemini Pro、Gemini Flash和Gemini Nano,于2023年12月6日面世,被定位为与OpenAI的GPT-4抗衡的产品系列。[1][2][3]
历史
[编辑]開發
[编辑]Google在2023年5月10日的Google I/O上發布了Gemini,这是一个由其子公司Google DeepMind开发的大型语言模型。它被定位为PaLM 2更强大的继任者,PaLM 2也在该活动中亮相。Google CEO桑达尔·皮查伊表示,Gemini当时仍处于早期开发阶段。[4][5]与其他大型语言模型不同,Gemini的独特之处在于它并非仅在文本语料库上进行训练,而是从一开始就被设计为多模态模型,这意味着它可以同时处理多种类型的数据,包括文本、图像、音频、视频和代码。[6]该模型由DeepMind和Google Brain合作开发,这两个Google的分支已于前一个月合并为Google DeepMind。[7]在接受《连线》杂志采访时,DeepMind的CEO杰米斯·哈萨比斯宣传了Gemini的先进能力,他相信该算法将胜过OpenAI的ChatGPT(其基于GPT-4运行)。哈萨比斯强调了DeepMind的AlphaGo项目的优势——该项目在2016年击败围棋世界冠军李世乭而举世闻名,并表示Gemini将结合AlphaGo及其他Google-DeepMind大型语言模型的能力。[8]
推出
[编辑]2023年12月6日,谷歌在一次虚拟记者招待会上宣布推出了“Gemini 1.0”。[1]它由三个模型组成:Gemini Ultra—用于“高度复杂的任务”,Gemini Pro—用于“广泛的任务”, 以及Gemini Nano—用于“终端上设备的任务”。 在發布時,Gemini Pro和Gemini Nano分別被整合到Bard(後來更名為Gemini)和Pixel 8 Pro智慧型手機中,而Gemini Ultra則計劃在2024年初用於“Bard Advanced”服務並向開發者提供。Google亦計劃將Gemini整合到其他產品中,包括搜索、广告、Chrome、Google Workspace的Duet AI以及AlphaCode 2。[3][2] 2024年2月5日,APP正式上線。
模型版本
[编辑]下表列出了Gemini的主要模型版本,描述了每个版本所包含的重大变更:[9][10]
| 版本 | 发布日期 | 状态[11][12] | 描述 |
|---|---|---|---|
| Bard | 21 March 2023 | 已弃用 | Google首个基于LaMDA的实验性聊天机器人服务。[13] |
| 1.0 Nano | 6 December 2023 | 已弃用 | 设计用于设备端任务,并首次应用于Google的Pixel 8 Pro。[14] |
| 1.0 Pro | 13 December 2023 | 已弃用 | 为多样化的任务而设计。[14] |
| 1.0 Ultra | 8 February 2024 | 已弃用 | Google在Gemini 1.0系列中最强大的模型。[14] |
| 1.5 Pro | 15 February 2024 | 已弃用 | 作为1.0系列模型的继任者,1.5 Pro提供了显著增大的上下文窗口(高达100万个token),是Gemini 1.5系列中功能最强的模型。[15] |
| 1.5 Flash | 14 May 2024 | 已弃用 | |
| 2.0 Flash | 30 January 2025 | 活跃 | 由Google开发,专注于多模态、代理能力和速度。[16] |
| 2.0 Flash-Lite | 1 February 2025 | 活跃 | 首个为成本效益和速度而设计的Gemini Flash-Lite模型。[17] |
| 2.5 Pro | 25 March 2025 | 活跃 | |
| 2.5 Flash | 17 April 2025 | 活跃 | |
| 2.5 Flash-Lite | 17 June 2025 | 活跃 | |
| 3.0 Pro | 2025年11月18日 | 活跃 | [18][19] |
技术规格
[编辑]由于Gemini是多模态模型,每个上下文窗口都可以包含多种形式的输入。不同的模态可以交错出现,无需按固定顺序呈现,从而实现多模态对话。例如,用户可以用任意顺序混合文本、图片、视频和音频来开启对话,Gemini也可能以同样自由的顺序进行回复。输入图像可以是不同的分辨率,而视频则作为图像序列输入。音频以16kHz的频率进行采样,然后由通用语音模型(Universal Speech Model)转换为tokens序列。Gemini的数据集是多模态和多语言的,由“网页文档、书籍和代码组成,并包含图像、音频和视频数据”。[20]
Gemini和Gemma模型是仅解码器的Transformer,并经过修改以允许在TPU上进行高效的训练和推理。1.0代的模型使用了多查询注意力(multi-query attention)。[20]
| 代 | 变体 | 发布日期 | 参数 | 上下文长度 (Tokens) | 注释 |
|---|---|---|---|---|---|
| 1.0 | Nano-1 | 6 December 2023 | 18亿 | 32,768 | 从“更大的Gemini模型”蒸馏而来,4位量化[20] |
| Nano-2 | 6 December 2023 | 32.5亿 | |||
| Pro | 13 December 2023 | ? | |||
| Ultra | 8 February 2024 | ? | |||
| 1.5 | Pro | 15 February 2024 | ? | 10,000,000[21][22] | 在生产API中为100万 |
| Flash | 14 May 2024 |
Google未发布Gemini 2.0和Gemini 2.5的技术白皮书。
外界反响
[编辑]Gemini的发布经历了长达数月的市场猜测和高度期待,被《麻省理工科技评论》形容为“AI炒作的顶峰”。[23][24] 2023年8月,研究公司SemiAnalysis的分析师迪伦·帕特尔(Dylan Patel)和丹尼尔·尼什尔(Daniel Nishball)发表博文,宣称Gemini的发布将“吞噬世界”并超越GPT-4,此举引发了OpenAI CEO萨姆·阿尔特曼在X(原Twitter)上的嘲讽。[25][26] 商业巨头、OpenAI的联合创始人埃隆·马斯克也参与讨论,并问道:“是数字错了吗?”[27]《商业内幕》的休·兰利(Hugh Langley)评论说,Gemini对谷歌而言是一个成败的关键时刻,他写道:“如果Gemini表现出色,将有助于谷歌改变其被微软和OpenAI抢占先机的叙事。如果它令人失望,那么批评者会更大胆地宣称谷歌已经落后了。”[28]
在2023年12月Gemini发布后,华盛顿大学名誉教授奥伦·埃齐IONI预言,谷歌与OpenAI之间将展开一场“针锋相对的军备竞赛”。[29] 加州大學柏克萊分校的教授阿列克謝·埃弗羅斯赞扬了Gemini多模态方法的潜力,[30]而圣菲研究所的科学家米兰妮·米歇尔则称其“非常复杂”。并非所有人都印象深刻,华盛顿大学的奇拉格·沙阿(Chirag Shah)教授将这次发布比作苹果公司推出新款iPhone一样的例行公事。同样,斯坦福大学的珀西·梁(Percy Liang)、华盛顿大学的艾米丽·本德尔以及高威大学的迈克尔·马登(Michael Madden)都警告说,在不了解训练数据的情况下,很难解读基准测试的分数。[23][31] 《快公司》的马克·苏利文(Mark Sullivan)认为,谷歌有机会挑战iPhone的主导市场份额,因为他相信苹果公司不太可能利用其Siri虚拟助手开发出与Gemini相媲美的功能。[32] 在Gemini发布后的第二天,谷歌股价上涨了5.3%。[33][34] 在Gemini发布时,谷歌发布了一段令人印象深刻的演示视频,名为“与Gemini的上手体验”,视频展示了模型流畅、实时地响应语音和视觉提示的能力。然而,该视频很快引发了争议,因为谷歌承认这并非一次真实的实时互动录像。批评者指出,视频通过剪辑和后期处理,给用户带来了Gemini拥有极低延迟和强大语音对话能力的误导性印象。根据报道,谷歌澄清该影片是使用了视频录像中的静态图片帧,并结合文本提示词来生成Gemini的回应,而非模型实时理解人类语音和连续的视觉画面。之后,谷歌在视频的YouTube描述中补充说:“为本次演示之目的,我们缩短了延迟并精简了Gemini的输出内容。”[35] Gemini 2.5 Pro实验版在发布后登顶了衡量人类偏好的基准测试LMArena排行榜,显示出强大的性能和输出品質。[36][37] 该模型在评估推理、知识、科学、数学、编码和长上下文性能的各种基准测试中,均取得了顶尖或极具竞争力的结果。[36][38][37][39] 初步评测强调了其相较于旧版本在推理能力和性能上的提升。[39][40] 同时,已发布的基准测试也显示,在某些领域,来自Anthropic、xAI或OpenAI的同期模型仍保持优势。[38][37]
参见
[编辑]參考資料
[编辑]- ^ 1.0 1.1 Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI
. The Wall Street Journal. December 6, 2023 [December 6, 2023]. ISSN 0099-9660. (原始内容存档于December 6, 2023).
- ^ 2.0 2.1 Liedtike, Michael; O'Brien, Matt. Google launches Gemini, upping the stakes in the global AI race. Associated Press. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023).
- ^ 3.0 3.1 Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023).
- ^ Grant, Nico. Google Builds on Tech's Latest Craze With Its Own A.I. Products
. The New York Times. May 10, 2023 [August 21, 2023]. ISSN 0362-4331. (原始内容存档于May 10, 2023).
- ^ Ortiz, Sabrina. Every major AI feature announced at Google I/O 2023. ZDNet. May 10, 2023 [August 21, 2023]. (原始内容存档于May 10, 2023).
- ^ Milmo, Dan. Google says new AI model Gemini outperforms ChatGPT in most tests. The Guardian. December 6, 2023 [December 6, 2023]. ISSN 0261-3077. (原始内容存档于December 6, 2023).
- ^ Levy, Steven. Sundar Pichai on Google;s AI, Microsoft's AI, OpenAI, and ... Did We Mention AI?
. Wired. September 11, 2023 [September 12, 2023]. (原始内容存档于September 11, 2023).
- ^ Knight, Will. Google DeepMind's CEO Says Its Next Algorithm Will Eclipse ChatGPT
. Wired. June 26, 2023 [August 21, 2023]. (原始内容存档于June 26, 2023).
- ^ Gemini Release updates. Google. [April 9, 2025]. (原始内容存档于April 9, 2025).
- ^ Gemini models. Google. [April 9, 2025]. (原始内容存档于April 9, 2025).
- ^ Model versions and lifecycle. Google Cloud.
- ^ Doshi, Tulsee. We're expanding our Gemini 2.5 family of models. The Keyword. Google. June 17, 2025 [12 July 2025].
- ^ Pichai, Sundar. An important next step on our AI journey. The Keyword. February 6, 2023 [12 July 2025].
- ^ 14.0 14.1 14.2 Pichai, Sundar; Hassabis, Demis. Introducing Gemini: our largest and most capable AI model. The Keyword. December 6, 2023 [12 July 2025].
- ^ Pichai, Sundar; Hassabis, Demiss. Our next-generation model: Gemini 1.5. The Keyword. February 15, 2024 [12 July 2025].
- ^ Pichai, Sundar; Hassabis, Demis; Kavukcuoglu, Koray. Introducing Gemini 2.0: our new AI model for the agentic era. The Keyword. December 11, 2024 [12 July 2025].
- ^ Mallick, Shrestha; Kilpatrick, Logan. Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. [12 July 2025].
- ^ Overview Leaderboard | LMArena. lmarena.ai. [2025-11-19] (英语).
- ^ A new era of intelligence with Gemini 3. Google. 2025-11-18 [2025-11-19] (美国英语).
- ^ 20.0 20.1 20.2 Gemini: A Family of Highly Capable Multimodal Models (PDF) (技术报告). Google DeepMind. December 6, 2023 [December 7, 2023]. (原始内容存档 (PDF)于December 6, 2023).
- ^ Our next-generation model: Gemini 1.5. Google. 15 February 2024 (美国英语).
In our research, we've also successfully tested up to 10 million tokens.
- ^ Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (PDF) (技术报告). Google DeepMind. February 15, 2024 [May 17, 2024]. (原始内容存档 (PDF)于Feb 26, 2024).
- ^ 23.0 23.1 Heikkilä, Melissa; Heaven, Will Douglas. Google DeepMind's new Gemini model looks amazing—but could signal peak AI hype
. MIT Technology Review. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023).
- ^ Henshall, Will. Google DeepMind Unveils Its Most Powerful AI Offering Yet
. Time. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023). 参数|magazine=与模板{{cite web}}不匹配(建议改用{{cite magazine}}或|website=) (帮助) - ^ howdhury, Hasan. AI bros are at war over declarations that Google's upcoming Gemini AI model smashes OpenAI's GPT-4
. Business Insider. August 29, 2023 [September 7, 2023]. (原始内容存档于August 29, 2023).
- ^ Harrison, Maggie. OpenAI Rages at Report that Google's New AI Crushes GPT-4
. Fortune. August 31, 2023 [September 7, 2023]. (原始内容存档于August 31, 2023).
- ^ Musk, Elon [@elonmusk]. Are the numbers wrong? (推文). August 29, 2023 [October 15, 2023]. (原始内容存档于September 1, 2023) –通过Twitter.
- ^ Langley, Hugh. Google's make-or-break moment with Gemini is near
. Business Insider. October 1, 2023 [October 5, 2025].
- ^ Bishop, Todd. Google’s Gemini reveal promises to escalate AI ‘arms race’ with Microsoft and OpenAI. GeekWire. December 6, 2023 [October 5, 2025].
- ^ Knight, Will. Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT
. Wired. December 6, 2023 [December 6, 2023]. (原始内容存档于December 6, 2023).
- ^ Madden, Michael G. Google's Gemini: is the new AI model really better than ChatGPT?. The Conversation. December 15, 2023 [February 4, 2024]. (原始内容存档于December 15, 2023).
- ^ Sullivan, Mark. Gemini-powered Google phones may make Siri even more of an Achilles' heel for the iPhone
. Fast Company. December 6, 2023 [December 7, 2023]. (原始内容存档于December 7, 2023).
- ^ Soni, Aditya. Alphabet soars as Wall Street cheers arrival of AI model Gemini
. Reuters. December 7, 2023 [February 4, 2024]. (原始内容存档于December 7, 2023).
- ^ Swartz, Jon. Gemini, Google's long-awaited answer to ChatGPT, is an overnight hit
. MarketWatch. December 7, 2023 [February 4, 2024]. (原始内容存档于December 7, 2023).
- ^ Kovach, Steve; Elias, Jennifer. Google Faces Controversy over Edited Gemini AI Demo Video. CNBC. 2023-12-08 [2023-12-09]. (原始内容存档于December 9, 2023) (英语).
- ^ 36.0 36.1 Kavukcuoglu, Koray. Gemini 2.5: Our most intelligent AI model. The Keyword (Google Blog). March 25, 2025 [March 26, 2025].
- ^ 37.0 37.1 37.2 Google's Gemini 2.5 Pro model tops LMArena by close to 40 points. R&D World. March 25, 2025 [March 26, 2025].
- ^ 38.0 38.1 Gemini Pro - Technical Details and Benchmarks. Google DeepMind. March 25, 2025 [March 26, 2025].
- ^ 39.0 39.1 Gemini 2.5 is now available for Advanced users and it seriously improves Google's AI reasoning. TechRadar. March 26, 2025 [March 26, 2025].
- ^ Gemini 2.5 Pro Exp: How to Access, Features, Applications & More. Analytics Vidhya. March 26, 2025 [March 26, 2025].