机器之心报说念 作家:Sia、杨文 能搜网页、写代码,还能教你打游戏。 OpenAI 接连几天的「轰炸」,照旧让东说念主审好意思疲倦。 行为应付,周三,推出新一代至强 AI 大模子 Gemini 2.0 Flash 。 网友体验先走一波。 就模子所看到的骨子及时对话, 嗅觉就像科幻演义相同。 通过分享屏幕,及时盘考论文,这个计划助理很强啊。 让AI在对话过程中天然地生成图像。 咫尺,一个请示词就能生成包含边幅诠释和配图,食谱blog,一步到位。 据谷歌先容,除了能生成笔墨外,还能径直生成图片和...
机器之心报说念
作家:Sia、杨文
能搜网页、写代码,还能教你打游戏。
OpenAI 接连几天的「轰炸」,照旧让东说念主审好意思疲倦。
行为应付,周三,推出新一代至强 AI 大模子 Gemini 2.0 Flash 。
网友体验先走一波。
就模子所看到的骨子及时对话, 嗅觉就像科幻演义相同。
通过分享屏幕,及时盘考论文,这个计划助理很强啊。

让AI在对话过程中天然地生成图像。

咫尺,一个请示词就能生成包含边幅诠释和配图,食谱blog,一步到位。
据谷歌先容,除了能生成笔墨外,还能径直生成图片和语音。
不仅如斯,2.0 Flash 还能调用第三方应用和服务,比如可以使用谷歌搜索、运行代码等功能。
从今天启动,拓荒者可以通过以下几种样式尝试使用 2.0 Flash 的测试版:
Gemini 的 API 接口谷歌的 AI 拓荒平台:AI Studio 和 Vertex AI
不外,生成图片和语音的功能暂时只对「早期配搭伙伴」灵通,要比及来岁 1 月才会向通盘东说念主灵通。谷歌泄露,在接下来几个月里,会把 2.0 Flash 的多样版块整合到多个居品中,包括:
Android Studio(安卓拓荒器具)Chrome 拓荒器具Firebase(应用拓荒平台)Gemini 代码助手
主力模子 Gemini 2.0
今天发布的 Gemini 2.0 Flash 的实验版块,是 Gemini 2.0 系列的第一个模子,亦然刻下主力模子。
它反应速率快(低蔓延),性能纷乱,代表了谷歌 Gemini 最顶尖的本事水平。
除了速率是「前任」的 2 倍,扶植图像、视频和音频等多模态输入外,2.0 Flash 咫尺还扶植多模态输出,比如原生生成的图像与文本搀杂,以及可截止的多言语文本转语音( TTS )音频。
它还不详原生调用器具,如谷歌搜索、代码履行以收用三方用户自界说函数。

底下这张图展示了 Gemini 不同版块在各项测试中的推崇对比。
总体来看,新模子在编程、数学和多模态处理方面齐有表露升迁,超越是在代码生成方面的越过最为权贵。
趣味趣味的是,在长文材干路( MRCR )这一项上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )推崇差一些,这是少数几个莫得越过的见地之一。

图表展示了Gemini不同版块在各项测试中的推崇对比。
Gemini 2.0 Flash 的郑再版块将于 1 月份推出。但在此时间,谷歌正在发布一个 API —— Multimodal Live API(多模态及时 API ),匡助拓荒者构建具有及时音频和视频流功能的应用圭表。
网友们照旧闲适地玩耍起来。

能帮你画好下一步棋子的位置。来自X网友@robertriachi
使用 Multimodal Live API,拓荒者可以创建及时的多模态应用,这些应用不详接受来自录像头或屏幕的音频和视频输入。该 API 扶植集成多样器具来完成任务,况兼不详处理天然对话模式。
比如,对话中的打断。这和 OpenAI 的 Realtime API 很像。
在对话中天然地生成图像,就像东说念主类聊天时唾手画个暗示图相同天然

对图像的后续裁剪

一边处理及时音频输入,一边履行数据可视化等复杂任务

Project Astra:通用助手的朝阳
本年 5 月份,谷歌发布了通用 AI 助手计划原型 Project Astra ,这是一个多模态 AI 智能体名堂,旨在为用户提供一个不详清爽和反映复杂、动态果然宇宙「 AI 助手」。
此次,谷歌对搭载了 Gemini 2.0 的最新版块 Project Astra 进行了一系列校正:
更指点的对话:Project Astra 咫尺不详用多种言语和搀杂言语进行相通,对多样口音和凄迷词汇的清爽也愈加精确。
新器具的期骗:借助Gemini 2.0,Project Astra 不详使用谷歌搜索、谷歌镜头和谷歌舆图,使其成为你平常生涯中愈加过劲的助手。
更纷乱的追念功能:增强了 Project Astra 的追念材干,并确保你可以截止其追念。它咫尺不详保握长达 10 分钟的会话追念,并能记取你昔时与它进行的更多对话,从而为你提供愈加个性化的服务。
更低的蔓延:通过新的流媒体功能和原生音频清爽本事,智能体不详以接近东说念主类对话的蔓延速率清爽言语。
他们正奋发于于将这些功能引入谷歌居品,如 Gemini app 以及眼镜等其他形态的居品。同期,他们也启动在原型眼镜上测试 Project Astra。
在官方演示视频中,番邦小哥用一部装配了最新测试版 Project Astra 的 Pixel 手机进行测试。
收到一封包含公寓信息的电子邮件后,它可以告诉你公寓大门的密码,并记取它。

只需要使用录像头拍摄一稔上的标签和洗衣机上复杂的按钮,它就能告诉你这件一稔是否能机洗、漂白、烘干,以及洗衣机该怎样使用。

还可以把一又友读过的书发给它,让它以此分析出一又友的念书品尝并推选有关册本。

偶遇一辆巴士,问它是否可以去唐东说念主街隔邻。Project Astra不仅可以搜索出该巴士的行驶阶梯,还能修起出沿线著明地标。

此外,小哥还戴上原型眼镜来测试Project Astra,后果超越酷炫。
只需一个问题指示,它就能进行天气预告、告诉你是否可以骑自行车进公园,搜索全部是否有超市等。

Project Mariner:浏览器版「贾维斯」
Project Mariner 是一个基于 Gemini 2.0 构建的早期计划原型。它通过 Chrome 浏览器插件,能清爽你屏幕上的通盘骨子 —— 岂论是笔墨、代码、图片照旧表单。
它的锐利之处在于,在 WebVoyager 基准测试中,Project Mariner 行为一个闲散智能体竖立,完成网页任务的准确率达到了 83.5% ,这在咫尺来说是超越可以的收货。
天然咫尺可能还有点慢,准确度也不是百分之百,但这项本事正在快速越过。
为了确保安全,谷歌作念了许多看守步骤。
比如,它只可在你刻下翻开的网页标签里操作,要作念一些蹙迫的事情(比如网购)时,还得先问问你本心不本心。这就像有个助手帮你办事,但蹙迫决定照旧由你来作念。
Jules:有训导的编程助手
Jules 是一个懂编程的智能助理,径直集成在 GitHub 责任进程中。假定你有一个圭表问题需要惩处,它能清爽问题,制定惩处决策,然后在你的带领和监督下把代码写出来。
就像是你多了一个有训导的编程搭档,能帮你分析问题、筹谋决策、写代码,但最终的决定权照旧在你手中。你可以随时查验它的责任,确保一切齐适当你的条目。
游戏偏激他畛域的智能体
谷歌 DeepMind 一直可爱用游戏来考验 AI 的材干,就像前几天推出的 Genie 2 ,唯有给它一张图片,它就能创造出可以玩的 3D 宇宙。
咫尺,他们又在 Gemini 2.0 的基础上拓荒了游戏智能体。
它超越异常念念,能看懂你在玩什么游戏,清爽游戏画面里发生的事情,然后及时跟你聊天,给你提出该怎样玩。就像有个资深玩家一又友在摆布指点你。

他们还和 Supercell 这么的大游戏公司配合,在《部落摧毁》这么的战略游戏和《卡通农场》这么的模拟筹谋游戏中测试 AI 。AI 需要清爽不同类型游戏的端正和挑战,这可不是件容易的事。
更锐利的是,这个智能体还能用谷歌搜索,帮你找到网上的游戏攻略和妙技。就像是一个既懂游戏、又知说念去哪找谜底的游伴。
除了在编造宇宙中探索智能体材干,谷歌还在尝试将 Gemini 2.0 的空间推理材干应用于机器东说念主本事,匡助智能体在践诺宇宙中提供匡助,不外咫尺仍处于早期阶段。
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866