2024谷歌I/O发布会Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革？掀起人工智能科技狂潮,开发者大会公布五大黑科技重磅更新！

2024谷歌I O发布会正面硬刚 GPT 4o？掀起科技狂潮开发者大会公布五大黑科技重磅更新！

北京时间周三（5月15日）凌晨，谷歌举办了年度I/O开发者大会，召开了长达两个小时的主题演讲。正如外界预期的那样，人工智能成为了这次活动的中心。通过实时的语音、视频和文本交互震撼了全世界。今天，谷歌展示的 Project Astra 和 Veo，直接对标了目前 OpenAI 领先的 GPT-4o 与 Sora。

　　在演讲中，这家科技巨头发布了众多有关人工智能的产品和服务：

　　一、Gemini的广泛升级

　　谷歌推出了新模型“Gemini 1.5 Flash”，以作为Gemini 1.5 Pro更具成本效益的替代方案，同时仍具有强大的功能。Gemini 1.5 Flash从活动当天开始在谷歌的AI工作室和Vertex AI中提供公开预览版。

　　2月份公布的Gemini 1.5 Pro也将迎来升级，在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万，这将使其能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

　　谷歌CEO皮查伊强调了Gemini在跨语言方面的改进，它将以35种语言向全球所有开发人员提供。皮查伊表示，Gemini 1.5 Pro可以分析PDF和视频以提供摘要，这意味着当用户假期归来后，模型可以将电子邮件和附件一起进行总结。

　　专为在智能手机上运行而设计的Gemini Nano也从纯文本输入扩展到可以图片输入。谷歌表示，“手机将能通过文字、图片、视频、音频，理解用户的世界。”并且整个过程都是在本地运行，不会引发隐私泄露。

　　开源大模型Gemma也将有一系列的更新，定于下月推出的Gemma 2参数量将能达到270亿。最后，谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。

　　二、Veo、Imagen 3、音频概述

　　针对OpenAI的Sora，谷歌也推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量1080P视频。

　　公司表示，Veo可以更好地理解自然语言，从而生成更能代表用户视觉的视频。它还能理解“延时拍摄”等电影术语，以生成各种风格的视频，并让用户更好地控制最终输出。

　　去年，谷歌推出了一款名为“SynthID”的工具，可以在AI生成的图像中嵌入人眼不可见的水印。在今天的大会上，公司宣布正在将这项工具扩展到文本和视频之中。上文提到的视频生成模型Veo，在该平台生成的所有视频都会包含SynthID水印。

　　谷歌还推出了新一代的图像生成模型“Imagen 3”，根据公司的说法该模型可生成迄今为止最高质量的图像，图像中具有更多细节和更少伪影，有助于创建更真实的视觉体验。

　　与Veo一样，Imagen 3也改进了其自然语言功能，可以更好地理解用户提示及其背后的意图。谷歌称，Imagen 3是渲染文本的最佳选择，目前只有选定的创作者才能使用，很快就会在Vertex AI中推出。

　　通过Gemini 1.5 Pro，音频概述（Audio Overview）功能可以基于源文件生成个性化和交互式音频对话。

　　三、AI赋能谷歌搜索

　　作为主业，谷歌自然会大力将AI融进其主导全球的搜索引擎之中。从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

　　同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

　　根据现场演示，搜索引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个AI搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问。

　　许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片，对此，谷歌推出了AI解决方案。借助Gemini，用户可以在Google Photos中通过对话提示来查找他们寻找的图像。

　　在谷歌提供的案例中，一位用户希望看到他的女儿作为游泳运动员随着时间推移的进步，Google Photos自动筛选给出。谷歌表示，这项名为“Ask Photos”的功能将于今年夏季晚些时候推出。

　　四、Astra项目

　　谷歌在大会上宣布了一个名为“Astra”的高级视觉和对话响应智能体项目，即开发能在日常生活中提供帮助的通用AI智能体。媒体分析认为，这个项目旨在开发一种类似《钢铁侠》中人工智能系统“贾维斯”。

　　根据谷歌的说法，为了做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻，从而了解上下文信息并采取行动。

　　谷歌表示，它还需要具备主动性、“会学习”并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟。

　　DeepMind首席执行官Demis Hassabis在台上表示，“将响应时间缩短为对话式的内容是一项艰巨的工程挑战。”

　　五、AI芯片等硬件

　　谷歌推出了第六代TPU（张量处理单元）“Trillium”，将在2024年底向云客户提供。公司表示，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。

　　除了TPU，谷歌也会推出CPU和GPU来支持工作负载。

　　皮查伊也在大会上提到，谷歌云将成为首批提供英伟达Blackwell GPU的云提供商之一，他在演讲中强调了谷歌“与英伟达的长期合作伙伴关系”。

文章版权归作者所有，未经允许请勿转载。

THE END

人工智能资讯
# 人工智能 # GPT-4o # Sora # Gemini # 谷歌I/O发布会 # Project Astra

2024谷歌I/O发布会Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革？掀起人工智能科技狂潮,开发者大会公布五大黑科技重磅更新！

一、Gemini的广泛升级

二、Veo、Imagen 3、音频概述

三、AI赋能谷歌搜索

四、Astra项目

五、AI芯片等硬件

请登录后发表评论

服务器推荐

Google发布Gemini 3.6 Flash翻车！跌出全球智能榜前十！Google 新模型遭遇口碑争议，附个人一些使用体验——变慢/降智/弱智，Gemini现在真的是一团糟，Google版豆包！

ChatGPT 突破 10 亿周活！AI 史上最大用户奇迹背后，OpenAI 正面对一场百亿美元级商业挑战

MCP 迎来重大升级！AI Agent 进入新纪元，模型上下文协议全面重构，未来 AI 工具生态将被重新定义，AI工具接口进入倒计时开始！

Claude Code 迎来重磅升级！砍掉 80% 系统提示词一键瘦身优化，新增 /doctor 诊断命令，AI 编程效率再次提升

Krea 2 商业级电商/室内/建筑洗图工作流首次公开！三套工作流 + 三档预设 + JSON 反推，RAW、Turbo、Depth、4 倍增强一次学会

国产 AI 王炸来了！Kimi K3 正式开源！免费下载全球最大 2.8 万亿参数模型，国产开源 AI 首次逼近闭源天花板

Google 又放王炸！Gemini 3.6 Flash 免费开放，AI 编程、Agent 能力暴涨，开发者必体验的新一代 AI 模型，性能再次刷新纪录

超越 Seedance 2.0？黑森林即将开源 FLUX 3 Dev！Self-Flow 世界模型首次曝光，20 秒音画同步 AI 视频时代来了！

LTX v 2.0 导演台重磅升级！AI 视频多角色、多场景、多参考控制全面增强生成来了，角色一致性暴涨，终于像电影一样可控，一键打造电影级AI 短片

Krea2 + Boogu WebUI v1.0 AI 绘图一键整合包！AI 美女模特角色一致性、换装换背景一键完成，AI电商详情图一键生成神器来了,含图片生成 / 图生图 / LoRA特效 / 工作流！

【客厅 Living Room】现代家居客厅SU模型 Modern Living Room SketchUp Model

3DMAX资源浏览器 [HCG Asset Browser] BOA Asset Browser 0.2.1 For 3ds Max 2025 ~ 2027

别再傻傻给 AI 写提示词了！Loop Engineering 才是让AI Agent全自动干活的终极方法，是时候让 AI 学会“坐上来自己动了”！

ComfyUI 秋葉一键整合包更新！2026 年 6 月最新版 ComfyUI-aki-v2_20260528 儿童节特别版发布（附功能解析）

ComfyUI 小白友好整合包来了！56 套 AI 工作流 + 全套模型全跑通，无报错，下载解压上手就能用，小白也能一键生成专业级 AI 作品 [ 421.2G ]

2026年7月秋葉最新版 ComfyUI V10 中文整合包｜支持 RTX 50/40/30 系显卡，本地环境部署、插件安装教程，AIGC绘画教程，Win/Mac 一键安装

秋葉ComfyUI V9.5中文版重磅更新！全中文界面+中文提示词+一键整合包，50/40/30系显卡轻松跑AI生图，2026最强本地工作流神

Devin 终于可以自定义 AI 编程大模型了！Free 和 Pro 全支持，本地运行零服务器，打造专属 AI 编程助手 For Mac / Windows

2027年-元旦倒计时