跳转到内容

路径语言模型

维基百科,自由的百科全书
PaLM
开发者Google AI
前任LaMDA
继任Google Gemini
语言英语
类型大型语言模型
网站ai.google/discover/palm2/ 编辑维基数据

路径语言模型(英语:Pathways Language Model,通称:PaLM)是由Google AI开发的5400亿参数密集型解码器专用transformer架构大型语言模型(LLM)[1]。研究人员同时训练了PaLM的精简版本(分别为80亿与620亿参数),以测试模型规模的影响[2]

模型

[编辑]

PaLM具备广泛的任务能力,涵盖常识推理、算术推理、笑话解释、程式码生成及翻译等领域[2][3][4][5]。当结合链式思考提示法时,PaLM在需要多步骤推理的数据集上表现显著提升,例如应用题逻辑推理题型[1][2]

该模型最初于2022年4月公布,并在2023年3月前保持私有状态。当时Google为PaLM及其他多项技术推出API介面[6]。该API最初仅开放给有限数量的开发者使用,这些开发者需加入候补名单方能获取,其后才对公众开放[7]

Google与DeepMind开发了一款名为Med-PaLM的PaLM 540B(参数数量达5400亿)版本,该模型经医疗数据微调后,在医疗问答基准测试中表现超越前代模型[8][9]。Med-PaLM是首个在美国医师执照考试题库中取得合格分数的模型,除能精准回答选择题与开放式问题外,还能提供推理过程并自我评估回答准确性[10]

Google还透过视觉transformer扩展了PaLM,创造出PaLM-E——一款可应用于机器人操作的尖端视觉语言模型[11][12]。该模型能在机器人领域执行任务时展现竞争力,且无需重新训练或微调[13]

2023年5月,Google在年度Google I/O主题演讲中宣布推出PaLM 2[14]。据报导,PaLM 2是一款拥有3,400亿个参数的模型,其训练数据包含3.6兆个词元[15]

2023年6月,Google宣布推出采用PaLM-2架构与初始化的语音转语音翻译系统AudioPaLM[16]

训练

[编辑]

PaLM预先训练于一个包含7800亿个词元的优质语料库,涵盖各类自然语言任务与应用场景。此资料集包含过滤后的网页内容、书籍、维基百科条目、新闻文章、从GitHub开源储存库取得的原始码,以及社群媒体对话[1][2]。该模型基于用于训练Google LaMDA模型的数据集[2] 。该数据集中的社交媒体对话内容占语料库的50%,有助于提升模型的对话能力[2]

PaLM 540B于两个TPU v4丛集上进行训练,每个丛集配备3,072颗TPU v4晶片,连接至768台主机,采用模型并行与资料平行混合架构,此为迄今规模最大的TPU配置[2][17]。此架构透过6,144颗晶片实现高效大规模训练,创下同等规模下大型语言模型最高训练效率纪录:每秒浮点运算次数利用率达57.8%[3]

参见

[编辑]
  • LaMDA,PaLM的前任模型
  • Gemini,PaLM的后任模型

参考资料

[编辑]
  1. ^ 1.0 1.1 1.2 Narang, Sharan; Chowdhery, Aakanksha. Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance. ai.googleblog.com. [17 March 2023] (英语). 
  2. ^ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. PaLM: Scaling Language Modeling with Pathways. 2022. arXiv:2204.02311可免费查阅 [cs.CL]. 
  3. ^ 3.0 3.1 Anadiotis, George. Google sets the bar for AI language models with PaLM. VentureBeat. 12 April 2022 [17 March 2023]. 
  4. ^ Bastian, Matthias. Google PaLM: Giant language AI can explain jokes. the decoder. 5 April 2022 [17 March 2023]. 
  5. ^ Google: Why Is No One Talking About PaLM. seekingalpha.com. 12 December 2022 [17 March 2023] (英语). 
  6. ^ Vincent, James. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. The Verge. 14 March 2023 [17 March 2023]. 
  7. ^ Huffman, Scott; Woodward, Josh. PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications. [17 March 2023] (英语). 
  8. ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. Large Language Models Encode Clinical Knowledge. 2022. arXiv:2212.13138可免费查阅 [cs.CL]. 
  9. ^ MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor. The Medical Futurist. 17 January 2023 [17 March 2023]. 
  10. ^ Matias, Yossi; Corrado, Greg. Our latest health AI research updates. Google. 14 March 2023 [17 March 2023] (美国英语). 
  11. ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; et al. PaLM-E: An Embodied Multimodal Language Model. 2023. arXiv:2303.03378可免费查阅 [cs.LG]. 
  12. ^ Driess, Danny; Florence, Pete. PaLM-E: An embodied multimodal language model. ai.googleblog.com. [17 March 2023] (英语). 
  13. ^ Edwards, Benj. Google's PaLM-E is a generalist robot brain that takes commands. Ars Technica. 7 March 2023 [17 March 2023] (美国英语). 
  14. ^ Lardinois, Frederic. Google launches PaLM 2, its next-gen large language model. TechCrunch. May 10, 2023 [May 10, 2023]. (原始内容存档于May 10, 2023). 
  15. ^ Elias, Jennifer. Google's newest A.I. model uses nearly five times more text data for training than its predecessor. CNBC. 16 May 2023 [18 May 2023]. 
  16. ^ AudioPaLM. google-research.github.io. [2023-06-30]. 
  17. ^ An empirical analysis of compute-optimal large language model training. www.deepmind.com. 12 April 2022 [17 March 2023] (英语).