一口气盘点 OpenAI 年末12天连续王炸级的发布会内容从工具到AGI，OpenAI的12天进化论颠覆未来

OpenAI于12月5日正式拉开了一场为期12天的重磅发布活动，每天推出一款全新产品或功能，堪称一场人工智能领域的盛宴。本次活动涵盖了从语言模型到视频生成工具的多样化内容，充分展现了OpenAI在AI技术上的突破性进展。以下是此次发布会每天的主要亮点：

更新终于落幕，每天蹲守观看发布会都像在开巧克力盲盒，不知道下一个是什么口味。

在前11天的发布会中，大部分属实非常寡淡，只有三个产品还有些精彩的“滋味”。

总结起来，能称得上重磅的更新包括：o1正式版、Sora、Canvas，它们主要集中在前4天发布。

其中，o1正式版确实提升很大，Sora则是增加了不少对AI生成视频进行更改的产品模式，Canvas可以被视为OpenAI第一次挑战AI工作台的产品尝试。

其次，相对还有些看点的是：和苹果的深度合作，视频通话功能，以及o1-mini的强化微调。

o1-mini的强化微调在专业领域潜力很大，微调简单提升明显。视频通话功能则是那个让人惊艳的“HER”正式上线。和苹果的深度合作对OpenAI来讲也是件大事，更站稳了在AI行业的一哥地位。

Day1：o1满血版上线，ChatGPT Pro订阅服务

OpenAI在第一天的发布会上正式推出了最强推理模型满血版及其Pro版本。模型比之前的o1-preview版本更加完备，性能提升了34%，错误率降低了34%。支持多模态输入。同时，OpenAI推出了ChatGPT Pro订阅服务，价格为每月200美元，提供无限制访问o1和专业版o1。

亮点分析：

01 基础版：适用于日常使用，功能强大、反应迅速。

多模态能力增强：处理文本和图像的能力大幅提升，支持图像内容分析和相关问题解答。
语言理解能力提升：更准确捕捉语言细节和上下文，文本生成、翻译和摘要表现更加流畅自然。
错误率降低：比起预览版，错误率降低了35%，生成内容更加准确可靠。
响应速度提升：速度提升50%，减少用户等待时间，带来更流畅的使用体验。

01 Pro 版本：面向对AI性能要求更高的专业用户，强大而精确。

深度推理能力：可处理复杂的数学和科学问题，支持多步推理和专业计算，思考时间约1-3分钟。
专业领域知识：在科学、数学、编程等领域表现出色，提供专业、准确的解答。
长文本处理能力：支持更长的文本输入和输出，轻松应对长文档处理与内容生成。
自定义能力：提供更多微调选项，用户可根据自身需求进行个性化定制。

Day2：强化微调（ReinforcementFine-Tuning）

OpenAI在第二天的发布会上，介绍了强化微调技术。这是一种新的模型训练方法，支持用户使用少量的训练数据在特定领域创建专家模型。强化微调通过强化学习算法优化模型的输出，使其更符合用户的预期。强化微调预计要到2025年春季才开放给用户。

亮点分析：

少量数据训练：使用极少的样本就能让模型学习到新的推理方式。
强化学习算法：根据用户提供的评分机制不断优化模型的输出。
适用于复杂任务：特别适合需要深入专业知识的领域，如法律、金融、医疗等。

Day3：Sora正式版登场

在第三天的发布会上，OpenAI推出了正式版和新版本 Sora Turbo。Sora是一个视频生成工具，可以根据文本描述生成连贯、逼真的视频内容。Sora支持生成高达1080p分辨率、最长20秒的视频，支持多种视频比例，提供了多种视频编辑功能。现阶段，Sora仅面向ChatGPTPlus和Pro用户开放，Plus用户每月有50条视频生成配额，Pro用户则高达5000条。

亮点分析：

故事板功能：用户通过时间线指导视频中多个动作，创作复杂视频序列。
多种视频编辑功能：包括Remix、Re-cut、Storyboard等，增强创作的逻辑性和流畅度。
视频混合：支持将两个视频场景合并为一个全新场景，生成具有创意的新内容。
高分辨率和时长支持：支持生成1080p分辨率和最长20秒的视频。

Day4：ChatGPT Canvas全面开放，人+AI协作模式启动

第四天的发布会上，OpenAI宣布功能全面开放。从聊天工具升级为生产力工具，Canvas支持用户与ChatGPT在写作和编程方面进行协作，提供了一个共享画布，用户和ChatGPT可以共同编辑文档和代码。

亮点分析：

写作和编程协作：用户可以与ChatGPT共同完成写作和编码项目。
支持Python代码运行： Canvas内置了几乎所有常用的Python库，可以在编写代码时与AI实时协作。
图片识别： Canvas支持图片识别，用户可以上传图片并生成相关的文本内容。
Canvas：提供写作、审稿、编码和图片识别的协作功能。

Day5：OpenAI与苹果合作，ChatGPT集成到Apple Intelligence

第五天的发布会上，OpenAI宣布ChatGPT正式集成到Apple Intelligence。意味着iPhone、iPad和Mac用户可以通过Siri使用ChatGPT的功能。

亮点分析：

Siri支持：用户可以通过Siri语音命令完成更复杂的任务。
写作工具升级：苹果的智能写作工具将引入ChatGPT能力。
视觉智能能力：用户可以利用搜索功能快速识别眼前物品。
ChatGPT集成：在iOS，iPadOS，MacOS生态系统中提供ChatGPT的智能支持。

Day6：OpenAI版「Her」上线，高级语音模型增强

第六天的发布会上，OpenAI为ChatGPT的高级语音模式带来了视频输入和实时屏幕共享功能。使ChatGPT能“看到”用户和周围环境，基于这些视觉信息来更好地理解用户的指令和问题。高级语音模式使用多模态4o模型，可直接输入音频并输出音频，支持语言超过50种，面向移动端用户，Plus和Pro订阅用户开放。

亮点分析：

视频输入功能： ChatGPT的高级语音模式加入了视频输入功能，使其能够“看到”用户。
屏幕共享功能： ChatGPT可以通过屏幕共享功能，帮助用户回复消息、辅助工作和学习等场景。
圣诞老人虚拟角色：用户可以通过高级语音模式与“圣诞老人”进行视频或语音通话。

Day7：ChatGPT发布 Projects 功能

第七天的发布会上，OpenAI推出了 Projects 新功能。支持用户将相关资料、文件、聊天记录等信息集中到一个“Project”中，支持项目管理与写作、文件与数据管理、个性化定制等场景。整合Canvas和ChatGPT Search，面向ChatGPTPlus/Pro用户开放，计划于明年初向企业和教育用户提供。

亮点分析：

项目管理：用户可以创建项目，上传文件，设定个性化指令。
Canvas和ChatGPT Search集成： Projects功能整合了Canvas和网络搜索能力。
多步骤任务执行：为未来执行多步骤任务奠定了基础。
Projects：支持用户上传文件、设置自定义指令、分组聊天和数据等。

Day8：ChatGPT Search全面升级，免费开放

在第8天的发布会上，OpenAI 展示了ChatGPT Search最新搜索功能，基于GPT-4o模型的微调版本。功能通过与第三方搜索提供商及ChatGPT的合作伙伴直接提供的内容相结合，用户能快速并准确地获取所需信息。新增的可搜索信息包括最新体育比分、新闻、股票报价等实时信息。用户可以通过指向相关网络资源的链接获得快速、及时的答案。

亮点分析：

搜索性能提升：搜索速度更快，移动端体验更好，加入了地图体验。

语音搜索整合：用户可以通过语音对话获取实时网络信息。

全球免费开放：搜索功能向全球所有登录用户免费开放。

对话式搜索： ChatGPT能够保持对话上下文、理解用户意图。

Day9：o1推理模型开放 API，成本暴降60%

在第9天的发布会上，OpenAI 宣布了o1模型正式推出API，成本降低60%，可定制升级，新增函数调用，开发者消息和图像分析等功能。是一次重要的技术升级。新模型不仅变得更聪明，还能更快地回应用户需求。实时API进行了全面升级，包括引入WebRTC支持，降低价格以及更灵活的响应控制。

亮点分析：

o1模型API：正式推出满血版o1模型API，支持功能调用、开发者消息、Structured Outputs以及视觉识别等功能。
实时API升级：集成简单的WebRTC功能，GPT-4o音频价格下调60%。
偏好微调：推出基于直接偏好优化（DPO）算法的偏好微调功能。
多语言SDK支持：开放Go和Java SDK测试版，支持多种编程语言。
性能提升： o1模型在多个领域展现出了优秀的表现，如编程能力测试中达到76.6%的高分。

Day10：通过电话和WhatsApp使用ChatGPT

在第10天的发布会上，OpenAI 介绍了通过电话和WhatsApp使用ChatGPT的新功能。这一更新意味着用户可以通过最基础的电话功能或WhatsApp与最先进的AI进行对话，号码是1-800-CHAT-GPT，或者是1-800-242-8478。支持智能手机，老人机和座机等设备。极大地降低了使用门槛。

亮点分析：

电话接入：用户可以通过拨打1-800-CHAT-GPT与ChatGPT进行语音对话。
WhatsApp集成：全球用户可以在WhatsApp上给ChatGPT发消息，提供服务的模型是4o-mini。
简单易用：不需要注册账号，不需要记住密码，只需要像打电话一样简单操作。
跨设备支持：从最新款的iPhone到老式的翻盖机，都能直接和AI对话。
多语言支持： ChatGPT能够提供多语言服务，如教用户用西班牙语交流。

Day11：ChatGPT与Mac应用深度集成

OpenAI在第11天的直播中宣布了ChatGPT与Mac应用的深度集成，特别在编程和写作方面进行了更新。现在，用户可以通过简单的复制粘贴操作，与Warp、XCode等应用协同工作，无需详细交流即可执行任务。此外，ChatGPT还支持在语音模式下与Notion、Apple Notes等应用协同工作。这些新功能已在Mac最新版ChatGPT应用中推出，而Windows用户还需等待。

亮点分析：

桌面应用全新升级：ChatGPT 桌面应用支持与多种应用程序协同工作，包括开发工具和文档编辑工具。通过 ChatGPT 分析 Git 提交数据并生成可视化图表。
实时演示与 Warp 终端、Xcode IDE 的智能协作：展示了 ChatGPT 如何与开发环境无缝协作，为编程任务提供实时支持。在 Xcode 中实现代码自动补全和功能添加。
对 Notion、Apple Notes、Quip 等写作工具的支持：这些功能现已在 Mac 桌面应用上线，Windows用户需等待。
高级语音交互模式：通过语音模式与 ChatGPT 交谈，提供了更加自然和高效的体验。
搜索辅助功能：确保输出信息的准确性，结合搜索功能来优化写作内容。

Day12：最新一代推理模型 o3 和 o3-mini 发布介绍

OpenAI发布了其最强推理模型o3，宣称接近通用人工智能（AGI）。o3在ARC-AGI测试中得分87.5%，远超GPT-3和GPT-4o。o3有完整版和mini版，mini版将于1月底推出。o3在编程竞赛Codeforces中得分2727，数学基准测试AIME 2024中准确率达96.7%。OpenAI将与ARC-AGI基金会合作构建下一个基准测试。

亮点分析：

升级数学推理能力：o3在复杂数学问题上表现出色，在美国AIME数学竞赛中达到了96.7%的准确率，展现出顶级数学家的解题能力。
卓越编程性能：在CodeForces编程竞赛平台上获得2727的ELO分数，超越顶尖程序员水平。
科学问题解决能力：在GPQA科学基准测试中，o3达到87.7%的准确率，超越人类专家平均水平（70%）。
透明推理路径：提供清晰的推理过程，能展示每一步的逻辑思路和中间结论。

据财富杂志报道，这次软银计划从符合条件的股东手中购买最高达 16 亿美元的股票，这些股东必须在两年以上之前获得限制性股票单位才能参与交易。OpenAI 目前拥有超过 2000 名员工。对于符合条件的员工来说，这无疑是一笔丰厚的“年终奖”。

据消息人士透露，所有符合条件的现任员工都可以兑现最多 1000 万美元的股票。这无疑会成为 IT 行业新的造富神话。

在关注OpenAI发布会的同时，人们常常将目光聚焦于 Ilya Sutskever 等技术大牛的贡献，或是 Sam Altman 等领袖人物的卓越领导力。不可否认，强大的技术实力是 OpenAI 的基石。然而，Sam 能够利用他在 Y Combinator 时期积累的关系网、资源和媒体敏锐度，确保产品脱颖而出，获得必要的资源和关注。

而 OpenAI 的“十二天发布”活动无疑是一场精心策划的营销盛宴。通过不断发布新产品，OpenAI 成功地制造了一种紧迫感，让人们觉得 AI 技术的发展日新月异，稍有不慎就会被淘汰。

深入剖析其背后的战略，我们又不难发现，Sam Altman 在其中扮演了关键角色。他就像一位行走的营销机器，总是能够在恰当的时机，以最引人瞩目的方式，将 OpenAI 推向舆论的风口浪尖。

OpenAI 在社交媒体时代展现出了卓越的媒体传播能力，Sam Altman 的营销策略之一就是擅长抢风头。OpenAI 似乎有一堆待发布的产品，但并不急于推出。但当其他公司发布重大消息时，比如在 Reddit、Product Hunt 等平台上引起轰动的内容，Sam 就会选择在同一天或前一天发布自己的公告，从而吸引所有的关注和热度。

2024年2月15日，谷歌发布了Gemini 1.5，具有扩展的上下文窗口，能够处理高达100万个token。	同一天，OpenAI发布了Sora，这是一种文本到视频的AI模型，标志着其进入了AI驱动视频内容创作领域。
2024年5月14日，谷歌I/O 2024大会展示了重大的AI进展，包括对Gemini AI模型的更新以及推出“Project Astra”。	5月13日，OpenAI发布了GPT-4o，这是一种多模态AI，能够实时处理和生成文本、图像和音频。恰好在谷歌I/O 2024大会的前一天。
2024年10月31日，谷歌为其Gemini AI平台引入了实时搜索集成，使其语言模型能够访问来自谷歌搜索的最新信息。	同一天，OpenAI推出了ChatGPT Search，为用户提供了一种通过对话界面访问新闻、体育、股票和天气等最新信息的方式。
2024年12月4日，谷歌通过Vertex AI的私密预览为企业推出了其生成式AI视频模型Veo。	同一天，OpenAI宣布了其“12 Days”活动，其新功能和产品包括备受期待的Sora。

而在 OpenAI“十二天发布”活动期间，谷歌依然按计划在 12 月 12 日发布了 Gemini 2.0 ，提供聊天版本供全球用户使用。随后又在 12 月 16 日，正式放出最新版视频生成模型 Veo 2，实测效果被许多人认为已“超越 Sora”。

12 月 20 日，谷歌再次发布实验性的“Gemini 2.0 Flash Thinking”模型，它以令人印象深刻的推理能力而闻名，可以“明确地展示自己的思维”来解决复杂问题，其水平与物理、化学和生物学博士生相当。OpenAI 紧随随后就发布了 o3 系列模型。

OpenAI 与谷歌之间的竞争，已经成为了 AI 领域最引人瞩目的对决之一。

Sam 的战略布局清晰地表明，他将目光锁定在了科技巨头身上。他的营销策略和公告时机的选择，很大程度上是针对这些大公司的。对比之下，他对 Anthropic 等小型实验室的“忽视”，更像是一种战略性藐视。

这类似于行业中的“王者心态”，如果对小型 AI 实验室（如 Anthropic 或 Cohere）“出手”，不仅会让这些小型实验室获得更多关注，反而让自己显得像是在欺负弱小。相比之下，如果针对不受欢迎的科技巨头（如 Google、Facebook、微软或亚马逊等），则显得自己像“劫富济贫”的英雄，这种形象对公众更加有利。

文章版权归作者所有，未经允许请勿转载。

THE END