探花 小宝 谷歌最远大模子登场!掀Agent风暴,放AI芯片大招,夜深突袭OpenAI
发布日期:2024-12-14 14:13 点击次数:125
探花 小宝
作家 | ZeR0 程茜
裁剪 | 漠影
OpenAI 的 12 天"圣诞大礼包"还没熄火,谷歌一忽儿"插队"放出年末大招!
智东西 12 月 12 日报谈,本日,谷歌重磅发布其迄今最远大的 AI 大模子Gemini 2.0,新功能包括原生图像生成和音频输出的多模态输出,并辅助原生调用谷歌搜索、舆图、Lens 等器用。
其第一款新模子是Gemini 2.0 Flash 的实际版块,速率是 1.5 Pro 的两倍。谷歌称,这款新模子专为 AI Agent 期间而遐想,主打多模态 +AI Agent。
av电影天堂基于 Gemini 2.0 Flash,谷歌推出一大波 AI Agent 新品,包括本年 5 月震荡业界的通用 AI 助手原型 Project Astra,还有简略手脚实际性扩张在谷歌浏览器中完成多圭臬复杂任务的 Project Mariner,以及实际性 AI 编程 Agent Jules、游戏 Agent。
Gemini 2.0 的发布,打响了迈向 AI Agent 新天下的要害一枪。
谷歌 CEO 桑达尔 · 皮查伊(Sundar Pichai)说:"若是说 Gemini 1.0 是对于组织和和会信息,那么 Gemini 2.0 是对于使其愈加灵验。"这亦然其专注于 AI Agent、多模态输出的原因所在。
Gemini 和 Gemini Advanced 用户可在桌面端的模子下拉菜单中选拔聊天优化版 Gemini 2.0 来试用。开拓东谈主员可通过 Google AI Studio 和 Vertex AI 在 Gemini API 中运期骗用此模子进行构建。
本周,谷歌运行在搜索的 AI 概览中测试 Gemini 2.0。1 月份,Gemini 2.0 Flash 将全面上市,同期将推出更多模子尺寸。来岁岁首,谷歌会将 Gemini 2.0 扩张到更多谷歌居品中。
Gemini 2.0 背后的中枢硬件也精致揭晓——Trillium TPU。
谷歌文牍其最强 AI 芯片 Trillium TPU 开阔可用,还详备先容了谷歌云 AI 超等计较机架构,包括可集成杰出100,000 颗Trillium 芯片的 Jupiter 积蓄。Trillium 不仅在训诲密集型大谈话模子、MoE 模子上性能更强,而且 AI 训诲和推感性价比更高。亚洲 AI 大模子独角兽AI21 Labs已使用 Trillium 来开拓谈话模子。
此外,谷歌发布了一款名为Deep Research(深度研究)的全新 AI 器用。该器用擅长作念研究使命,稀薄于一位 AI 研究生,帮你只用几分钟就能完成原来需要数小时的研究。
用户输入问题后,它会创建一个多圭臬研究盘算,在用户修改及批准后运行调用 Gemini 机器东谈主真切分析来自网上的相关信息,并把柄其要害发现生成一份详备的抽象文告,并排上信息着手贯穿。用户不错条目 Gemini 扩张某些界限或疗养文告,并将 AI 生成的研究导出到谷歌文档。
该器用面前仅向 Gemini Advanced 订阅者提供英文版,并将于来岁岁首在挪动 App 中提供。
一、Gemini 2.0 首款模子发布!多模态输出、原生调用器用、四大 Agent
谷歌的官方博客涌现,Gemini 2.0 Flash 在要害基准测试中的速率是 1.5 Pro 的两倍。
除了辅助图像、视频和音频等多模式输入外,Gemini 2.0 Flash 当今还辅助多模态输出,举例与文本夹杂的原生生成的图像和可主管的文本转语音(TTS)多谈话音频,还不错原生调用谷歌搜索、代码奉行以登科三方用户界说函数等器用。
为了匡助开拓东谈主员构建动态和交互式应用圭臬,在此基础上,谷歌还发布了具有及时音频、视频流输入以及使用多个组合器用的智商的 Multimodal Live API。
在 AI Agent 方面,谷歌文牍了对实际性功能的更新,包括通用 AI Agent Project Astra、多圭臬任务 AI Agent Project Mariner、AI 编程 Agent Jules、游戏 Agent。
1、通用 AI Agent Project Astra:记取 10 分钟视频,更强 agent 智商
还谨记谷歌本年 5 月展示的通用 AI 助手研究原型 Project Astra吗?
这是一个全视、全听和全回想的实际性 AI 助手,展示了通用 AI 助手的异日功能。你通过安卓 App 或原型眼镜来记载看到的天下,AI 助手不错及时处理文本、图像、视频、音频,分析它所看到的实质并回答平常的问题,还闪耀多国谈话。
由 Gemini 2.0 提供辅助的Project Astra 更新版块,不错已毕 Agent(代理)智商。其最新改造包括:
更好的回想:本年 5 月谷歌展示了早期版块只可记取 45 秒的视频,当今它照旧能回想10 分钟的视频了,不错记取用户与其进行的更多对话和个东谈主偏好,更具个性化。
更好的对话: 能使用多种谈话和夹杂谈话进行交谈,何况简略更好地和会口音和不常见的单词。
新器用用途:使用 Gemini 2.0 的内置 Agent 框架,通过文本、语音、图像和视频回答问题并奉行任务,在需要时调用谷歌搜索、Lens、舆图等应用。
改善蔓延:借助新的流媒体功能和本机音频和会,Agent 以与东谈主类对话疏导的蔓延和会谈话,使对话嗅觉更当然。
谷歌正在扩大 Project Astra 的测试范围,将新的响应纳入更新中,包括优化其对各式口音及不常见单词的和会、减少蔓延、将其集成到一些谷歌居品(如搜索、Lens、舆图等)。
* 后文有更详备的功能演示。
2、多圭臬任务 AI Agent Project Mariner:最好使命收尾 83.5%,为保证安全面前需东谈主类介入
Project Mariner是谷歌在 Gemini 2.0 模子基础上发布的一个实际性功能, 其不错完成多圭臬的复杂任务。
手脚研究原型探花 小宝,Project Mariner 简略和会和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等积蓄元素,然后通过实际性的谷歌扩张圭臬使用这些信息完成任务。
谷歌官方博客涌现,把柄 WebVoyager 基准进行评估,该基准测试 Agent 在端到端信得过天下积蓄任务上的性能,Project Mariner 手脚单一 Agent 建树已毕了 83.5% 的最好使命收尾。
在演示中,Project Mariner 不错同期完成获取表单、找到公司官网、磋议形式等多圭臬任务,Agent 会自动奉行在谷歌搜索中查找电子邮件的过程,且这一过程顶用户不错随时点击暂停和罢手。同期,用户不错看到 Agent 每一步碾儿动的推理圭臬和盘算。
尽管面前 Project Mariner 奉行任务时较慢且并不老是准确,但从时刻上讲,这标明了在浏览器中导航照旧成为可能。
面前,该代理在完成任务时需要东谈主类介入,如 Project Mariner 只可在浏览器的活动选项卡中键入、转化或点击,何况它会在用户奉行某些购买等敏锐操作之前条目用户进行最终证明。
3、AI 编程 Agent Jules:班师集成 GitHub,永恒认识是构建通用 Agent
谷歌还在探索 Agent Jules 的更新。Jules 是一种班师集成到 GitHub 使命进程中的实际性 AI 驱动的编程 Agent。
Jules 不错惩办问题、制定盘算并奉行它,统共过程齐在开拓东谈主员的诱惑和监督下进行。在这一界限,谷歌的永恒认识是构建在统共界限(包括编程)齐有匡助的 AI Agent。
4、游戏 Agent:视频游戏导航,把柄游戏动作推理、及时对话充任游戏交流
谷歌使用 Gemini 2.0 构建了游戏 Agent,不错匡助用户在视频游戏的诬捏天下中导航。Agent 不错仅把柄屏幕上的动作来推理游戏,并在及时对话中提供下一步操作的建议。
面前,研究东谈主员在与 Supercell 等游戏开拓商相助,探索这些 Agent 从《部落袭击》等战术游戏到《Hay Day》等农业模拟器,在各式游戏中诠释功令和挑战的智商。
异日,谷歌还在查抄不错通过将 Gemini 2.0 的空间推理功能应用于机器东谈主时刻来在物理天下中提供匡助的 Agent。
三、通用 AI 助手原型升级!能存储 10 分钟视频,开启 Agent 期间
谷歌发布了由 Gemini 2.0 提供辅助的Project Astra 更新版块的新演示视频。
测试者拿着安设了最新测试版 Project Astra 的 Pixel 手机,在伦敦隔邻遛弯并进行测试。比如收到包含公寓信息的电子邮件,你不错让 AI 助手告诉你门的密码,并记取它。洗衣裳时,把衣裳标签、机器图标拍给 AI 助手,它会告诉测试者正确的洗衣裳形式。
测试者把保举列表拍给 AI 助手,它能搜索列表中的地方,给出相应的信息。
当测试者走在街谈上,扫过食品、雕刻或花草,AI 助手齐能为磋议作出解答。
测试者还把一又友在读的书发给 AI 助手,让它保举合适一又友喜好的礼物,并磋议一又友可能感兴趣兴趣的点。
当偶遇一辆公交车,测试者问 AI 助手"那辆公交车能带我去唐东谈主街隔邻吗?" AI 助手会修起说:"是的,24 路公交车经过莱斯特广场,离唐东谈主街很近。"测试者不时追问路上有什么路标,AI 助手也作出流利地修起:"你可能遭遇的知名地标是威斯敏斯特大教堂、大本钟和特拉法加广场。"
除了使用手机外,测试者也戴上原型眼镜来使用 Project Astra,并建议让它稽查天气预告、磋议傍边的公园是什么、查询能否骑自行车插足、这条路是否有超市等问题。
面前该 AI 助手仍有好多局限性,比如无法侦探个东谈主的电子邮件或像片,在嘈杂的环境中难以分辩多个声息,何况无法奉行建树计时器等操作任务等。
Project Astra 居品司理 Bibo Xu 说:"它正在交融咱们这个期间一些最远大的信息检索系统。"
四、基于 AI Agent,探索保护用户敏锐信息、罢职用户指示战术
在安全方面,谷歌在对多个实际原型进行研究的基础上,正通过迭代实施安全培训、与测试东谈主员和外部巨匠相助,进行平常的风险评估以及安全和保证评估。
谷歌与遭殃与安全委员会 (RSC) 相助以识别和了解潜在风险。
Gemini 2.0 的推理功能使其 AI 辅助红队方法取得首要朝上,包括简约单地检测风险到自动生成评估和训诲数据以收缩风险的智商。
由于 Gemini 2.0 的多模态功能加多了潜在输出的复杂性,其将不时在图像和音频输入和输出方面评估和训诲模子,以匡助训导安全性。
通过 Project Astra,谷歌正在探索针对用户有时中与代理分享敏锐信息的潜在缓解挨次,何况其照旧内置了隐秘截止功能,使用户不错精练删除会话。他们还在不时研究以确保 AI 代理充任可靠的信息着手,何况不会代表您遴选不测操作。
通过 Project Mariner,谷歌正在致力于确保模子学会优先有计划用户指示,而不是第三方的提醒注入尝试,以便它不错识别来自外部着手的潜在坏心指示并严防滥用。这不错严防用户通过电子邮件、文档或网站中遁藏的坏心指示等形式受到诓骗和积蓄垂纶攻击。
五、Gemini 2.0 背后的硬件元勋:谷歌最强 AI 芯片 Trillium TPU 开阔可用
全新 Gemini 2.0 由谷歌本年发布的 Trillium TPU 训诲而成。Trillium 是谷歌第六代 TPU,亦然迄今性能最高的 TPU。
其比拟上一代芯片的优化包括:杰出4 倍的训诲性能,高达3 倍的推理隐约量,能效训导67%,每颗芯片峰值计较性能训导4.7 倍,HBM 容量翻倍,单个 Jupiter 积蓄有10 万颗TPU,高至2.5 倍的每好意思元训诲性能、1.4 倍的每好意思元推感性能。
本日,谷歌文牍如今 Trillium TPU 面向谷歌云客户开阔可用。
Trillium TPU 是谷歌云 AI 超等计较机的要害构成部分,其架构接受了性能优化的硬件、敞开的软件、早先的机器学习框架和纯果真浮滥级模子的集成系统。谷歌还对敞开软件层进行了增强,包括对 XLA 编译器和流行框架的优化,以在 AI 训诲、调优和做事方面已毕大规模的早先性价比。
此外,使用大齐主机 DRAM(补充 HBM)进行主机卸载等功能,提供了更高的后果。
每个 Jupiter 积蓄结构杰出100,000 颗Trillium 芯片,具有 13Pbps 的对分带宽,简略将单个漫衍式训诲任务扩张到数十万个加快器。
以色列 AI 大模子独角兽AI21 Labs已使用 Trillium 来加快开拓下一代复杂谈话模子。
1、扩张 AI 训诲使命负载
Trillium 通过部署 12 个包含 3072 颗芯片的 pod 已毕了 99% 的扩张后果,并在 24 个包含 6144 颗芯片的 pod 中展示了 94% 的扩张后果,以预训诲 gpt3-175b。
谷歌使用 4 片的 Trillium-256 芯片手脚基准,使用 1 片的 Trillium-256 芯片手脚基准,当扩张到 24 个 pod 时,仍可获取杰出 90% 的扩张后果。
在训诲 Llama-2-70B 模子时,测试标明,Trillium 以 99% 的扩张后果已毕了从 4 片 Trillium-256 芯片 pod 到 36 片 Trillium-256 芯片 pod 的近线性扩张。
2、训诲密集型和 MoE 大模子
与前几代居品比拟,Trillium TPU 具有更好的扩张后果。下图表中,其测试展示了与同等规模的 Cloud TPU v5p 集群比拟,Trillium 在 12 pod 规模下的 99% 扩张后果(总峰值 FLOPS)。
与上一代云 TPU v5e 比拟,Trillium 为密集大谈话模子(如 Llama-2-70b 和 gpt3-175b)提供高达 4 倍的训诲速率,为 MoE 模子提供了比上一代云 TPU v5e 快 3.8 倍的训诲。
与 Cloud TPU v5e 比拟,Trillium TPU 提供了 3 倍的 DRAM。在训诲 Llama-3.1-405B 模子时,把柄模子 FLOPs 利用率(MFU)测量,Trillium 的主机卸载功能可将性能训导 50% 以上。
3、优化推感性能和收罗调换
Trillium 也为图像扩散模子和密集大谈话模子提供了最好的 TPU 推感性能。其测试标明,与 Cloud TPU v5e 比拟,Stable Diffusion XL 的相对推理隐约量(每秒图像)训导了 3 倍以上,Llama2-70B 的相对推理隐约量(每秒 token)训导了近 2 倍。
Trillium 是谷歌在离线和做事器推理用例中性能最高的 TPU。下图涌现,与 Cloud TPU v5e 比拟,Stable Diffusion XL 的离线推理相对隐约量(每秒图像数)训导了 3.1 倍,做事器推理相对隐约量训导了 2.9 倍。
除了更好的性能,Trillium 还引入了一个新的聚首调换功能。这个特色允许谷歌的调换系统作念出智能的功课调换决议,从而在一个聚首中有多个副本时训导推理使命负载的总体可用性和后果。
它提供了一种照管运行单主机或多主机推理使命负载的多个 TPU 片的方法,包括通过谷歌 Kubernetes Engine(GKE)。将这些片分组到一个聚首中,不错很容易地疗养副本的数目以得志需求。
4、训导镶嵌密集型模子性能
第三代数据流处理器 SparseCore 更擅长加快动态和数据依赖操作。引入第三代 SparseCore 的 Trillium 将镶嵌密集型模子的性能训导了 2 倍,将 DLRM DCNv2 的性能训导了 5 倍。
5、训导训诲和推感性价比
Trillium 还旨在优化每好意思元的性能。迄今为止,在训诲密集大谈话模子(如 Llama2-70b 和 Llama3.1-405b)中,Trillium 的每好意思元性能比 Cloud TPU v5e 训导了 2.1 倍,比 Cloud TPU v5p 训导了 2.5 倍。
在 Trillium 上生成 1000 张图像的老本比离线推理的 Cloud TPU v5e 低 27%,比在 SDXL 上进行做事器推理的 Cloud TPU v5e 低 22%。
结语:大模子狂飙冲向 Agent 期间
通用东谈主工智能(AGI)热战在年末愈演愈烈。从亚马逊、OpenAI、Meta 到谷歌,一系列重磅发布将大模子的竞争风光推向了新的激越。
其中谷歌是少有的同期在大模子、云表基础设施、端侧智能方面同期占据上风的头部大模子企业。
在日薄西山的大模子竞赛中,执掌安卓操作系统的谷歌对端侧智能和会距离最近、和会最深。通过本日的一系列发布,谷歌进一步强化了 Agent(代理)在智高手机、智能眼镜等端侧建树上的诱东谈主长进。在更远大模子加合手下,Agent 将简略更平常地为东谈主类代劳,帮东谈主类了解周围天下,提前进行多圭臬念念考,并在东谈主类的监督下遴选步履。
但 AI 系统仍具有稀薄多的不成控性。包括谷歌在内,大模子公司在将天下推向 Agent 期间的同期,必须致力确保低风险探花 小宝,截止好安全的标的盘。