“语言只是智能的一个维度。真正的AGI需要理解世界的所有模态。” - Ilya Sutskever
┌─────────────────────────────────────────────────────────────┐
│ 多模态AI发展路径 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 2021: DALL·E → 文本生成图像突破 │
│ CLIP → 视觉-语言对齐 │
│ │
│ 2022: DALL·E 2 → Diffusion模型革命 │
│ Whisper → 通用语音识别 │
│ │
│ 2023: GPT-4V → 视觉理解集成 │
│ DALL·E 3 → 提示词理解升级 │
│ │
│ 2024: Sora → 视频生成突破 │
│ GPT-4o → 原生多模态架构 │
│ │
└─────────────────────────────────────────────────────────────┘
2021年1月5日,OpenAI发布了DALL·E,这个名字巧妙地融合了超现实主义艺术家Salvador Dalí和皮克斯动画角色WALL·E。这不仅是一个有趣的文字游戏,更预示着AI即将在创造力领域掀起一场革命。
核心团队与贡献者
技术架构创新
DALL·E基于120亿参数的自回归Transformer,采用了独特的两阶段架构:
文本输入 → [文本编码器] → 文本Token
↓
图像生成流程:
┌──────────────────────────────────────┐
│ Stage 1: 离散VAE (dVAE) │
│ - 将256×256图像压缩为32×32网格 │
│ - 8192个可能的token值 │
│ - 压缩率:192倍 │
└──────────────────────────────────────┘
↓
┌──────────────────────────────────────┐
│ Stage 2: 自回归Transformer │
│ - 联合建模文本+图像token │
│ - 最大序列长度:1280 tokens │
│ - 文本:256 tokens │
│ - 图像:1024 tokens (32×32) │
└──────────────────────────────────────┘
↓
┌──────────────────────────────────────┐
│ Stage 3: CLIP重排序 │
│ - 生成512个候选 │
│ - CLIP评分选择最佳 │
└──────────────────────────────────────┘
关键突破
训练数据与规模
2022年4月6日,DALL·E 2的发布标志着图像生成技术的范式转变。从自回归模型转向扩散模型,不仅提升了图像质量,还将分辨率提升到1024×1024。
技术革新团队
架构革命:从VQ-VAE到Diffusion
DALL·E 2 架构:
┌───────────────────────────────────────────────┐
│ 文本输入 │
└────────────────┬──────────────────────────────┘
↓
┌───────────────────────────────────────────────┐
│ 文本编码器(CLIP) │
│ 输出:文本嵌入向量 │
└────────────────┬──────────────────────────────┘
↓
┌───────────────────────────────────────────────┐
│ Prior模型 │
│ 作用:文本嵌入 → 图像嵌入 │
│ 类型:自回归或Diffusion │
└────────────────┬──────────────────────────────┘
↓
┌───────────────────────────────────────────────┐
│ Diffusion Decoder (unCLIP) │
│ 输入:图像嵌入 + 噪声 │
│ 过程:逐步去噪(1000步) │
│ 输出:64×64 → 256×256 → 1024×1024 │
└───────────────────────────────────────────────┘
核心技术突破
性能提升 | 指标 | DALL·E | DALL·E 2 | 提升幅度 | |——|———|———-|———-| | 分辨率 | 256×256 | 1024×1024 | 16× | | FID分数 | ~28 | ~10 | 64% ↓ | | CLIP分数 | 0.88 | 0.95 | 8% ↑ | | 人类偏好 | 基准 | 71.7% | - | | 推理速度 | ~60s | ~20s | 3× |
新增能力
2023年9月20日发布的DALL·E 3代表了文本理解能力的质变,特别是在遵循复杂指令和生成文字方面的突破。
技术负责人更新
关键创新:提示词理解革命
提示词处理流程对比:
DALL·E 2:
用户输入 → 直接生成
↓
经常误解复杂描述
DALL·E 3:
用户输入 → GPT-4改写 → 详细描述 → 生成
↓ ↓ ↓
简单指令 补充细节 保持意图
示例转换:
输入:"画一只猫"
GPT-4改写:"一只毛茸茸的橙色虎斑猫,坐在阳光照射的
窗台上,背景是模糊的室内植物,柔和的下午光线,
写实风格,温暖的色调"
技术突破
安全性增强
┌────────────────────────────────────────────────────────┐
│ DALL·E系列架构演进 │
├────────────────────────────────────────────────────────┤
│ │
│ DALL·E (2021) DALL·E 2 (2022) DALL·E 3 (2023)│
│ ↓ ↓ ↓ │
│ VQ-VAE Diffusion Enhanced │
│ + + Diffusion │
│ Autoregressive CLIP Guide + │
│ GPT-4 │
│ Integration │
│ │
│ 特点: 特点: 特点: │
│ • 离散token • 连续潜空间 • 智能改写 │
│ • 自回归生成 • 逐步去噪 • 精确理解 │
│ • CLIP重排序 • 分层生成 • 文字渲染 │
│ │
│ 优势: 优势: 优势: │
│ • 创新性强 • 质量高 • 易用性强 │
│ • 组合泛化 • 可控性好 • 理解准确 │
│ │
│ 限制: 限制: 限制: │
│ • 分辨率低 • 提示词敏感 • 成本较高 │
│ • 速度慢 • 文字生成差 • 审核严格 │
│ │
└────────────────────────────────────────────────────────┘
计算资源演进 | 版本 | 参数量 | 训练数据 | GPU时间 | 推理成本 | |——|——–|———-|———|———-| | DALL·E | 12B | 250M对 | ~40K GPU小时 | $0.10/图 | | DALL·E 2 | ~3.5B | 650M对 | ~100K GPU小时 | $0.05/图 | | DALL·E 3 | ~10B? | 1B+对 | ~200K GPU小时 | $0.08/图 |
影响力与应用
2021年1月5日,与DALL·E同日发布的CLIP(Contrastive Language-Image Pre-training)虽然没有获得同等的媒体关注,但其技术影响力可能更为深远。CLIP不仅成为了DALL·E 2的核心组件,更开创了视觉-语言理解的新范式。
核心团队
革命性的训练范式
CLIP训练架构:
┌──────────────────────────────────────────────────────┐
│ 训练数据 │
│ 4亿个图像-文本对 │
└──────────────┬──────────────┬────────────────────────┘
↓ ↓
┌──────────┐ ┌──────────┐
│图像编码器│ │文本编码器│
│ ViT/ResNet│ │Transformer│
└────┬─────┘ └────┬─────┘
↓ ↓
图像特征I 文本特征T
↓ ↓
┌────────────────────────────────┐
│ 对比学习目标函数 │
│ 最大化:I·T (匹配对) │
│ 最小化:I·T (非匹配对) │
└────────────────────────────────┘
批次内对比示例(N=32768):
┌─────────────────────────────────────┐
│ I₁ I₂ I₃ ... Iₙ (图像特征) │
│ T₁ T₂ T₃ ... Tₙ (文本特征) │
│ │
│ 相似度矩阵: │
│ ┌─────────────┐ │
│ │✓ · · · · · │ I₁·T₁ (匹配) │
│ │· ✓ · · · · │ I₂·T₂ (匹配) │
│ │· · ✓ · · · │ ... │
│ │· · · · · ✓ │ Iₙ·Tₙ (匹配) │
│ └─────────────┘ │
│ 对角线=1,其他=0 │
└─────────────────────────────────────┘
技术创新点
CLIP最令人震撼的能力是零样本识别——无需任何特定数据集的训练即可进行分类。
零样本分类机制
# CLIP零样本分类伪代码
def zero_shot_classifier(image, class_names):
# 1. 将类名转换为提示词
text_prompts = [f"a photo of a {name}" for name in class_names]
# 2. 编码图像和文本
image_features = image_encoder(image)
text_features = text_encoder(text_prompts)
# 3. 计算相似度
similarities = cosine_similarity(image_features, text_features)
# 4. 返回最相似的类别
return class_names[argmax(similarities)]
性能突破
| 数据集 | CLIP Zero-shot | ResNet-50 (监督) | 超越专用模型 |
|---|---|---|---|
| ImageNet | 76.2% | 76.3% | ✓ |
| CIFAR-10 | 95.0% | 96.5% | 接近 |
| CIFAR-100 | 79.8% | 84.0% | 接近 |
| STL-10 | 99.3% | 99.0% | ✓ |
| Oxford Pets | 88.9% | 93.5% | 接近 |
| Food-101 | 92.9% | 90.0% | ✓ |
提示词工程的诞生
CLIP催生了”提示词工程”这一新领域:
基础提示词:
"a photo of a {object}"
改进版提示词模板:
"a photo of a {object}, a type of {category}"
"a {style} rendering of a {object}"
"a {quality} photo of the {adjective} {object}"
领域特定模板:
医学影像:"an X-ray of {condition}"
卫星图像:"a satellite photo of {terrain}"
艺术作品:"a painting in the style of {artist} depicting {subject}"
CLIP成为了OpenAI多模态技术栈的基石,支撑着整个生态系统。
CLIP在OpenAI生态中的应用:
┌──────────────┐
│ CLIP │
│ 视觉-语言桥梁│
└───────┬──────┘
│
┌────────────┴────────────┐
↓ ↓ ↓
┌────────┐ ┌────────┐ ┌────────┐
│DALL·E 2│ │ GPT-4V │ │Flamingo│
│图像生成│ │视觉理解│ │多模态LM│
└────────┘ └────────┘ └────────┘
↓ ↓ ↓
应用层:
• 图像搜索 • 内容审核 • 视觉问答
• 图像编辑 • 风格迁移 • 场景理解
CLIP的衍生应用
对学术界的影响
CLIP引发了视觉-语言模型研究的爆发:
| 后续模型 | 机构 | 创新点 | 发布时间 |
|---|---|---|---|
| ALIGN | 18亿参数,更大规模 | 2021.02 | |
| Florence | Microsoft | 统一视觉任务 | 2021.11 |
| CoCa | 对比+生成双目标 | 2022.05 | |
| BLIP | Salesforce | 噪声数据处理 | 2022.01 |
| Chinese-CLIP | 中科院 | 中文适配 | 2022.11 |
工业应用案例
CLIP的局限性与改进
局限性:
┌─────────────────────────────────┐
│ • 细粒度识别能力不足 │
│ • 抽象概念理解有限 │
│ • 计数能力较弱 │
│ • 空间关系理解不准确 │
│ • 存在社会偏见 │
└─────────────────────────────────┘
↓
改进方向:
┌─────────────────────────────────┐
│ • 更大规模训练(CLIP-ViT-G/14) │
│ • 多语言支持(mCLIP) │
│ • 细粒度对比学习 │
│ • 负样本挖掘优化 │
│ • 公平性与偏见缓解 │
└─────────────────────────────────┘
开源影响力
2022年9月21日,OpenAI发布了Whisper,这个开源的自动语音识别(ASR)系统以其惊人的鲁棒性和多语言能力,重新定义了语音识别的标准。与以往专注于特定语言或场景的系统不同,Whisper展现了通用语音理解的可能性。
项目背景与动机
Whisper的诞生源于一个简单但深刻的洞察:互联网上存在海量的音频-文本配对数据,如YouTube视频字幕、播客转录、有声书等。这些数据虽然质量参差不齐,但规模足够大时,可以训练出极其鲁棒的模型。
核心团队
数据收集的创新
Whisper训练数据规模:
┌────────────────────────────────────────────┐
│ 680,000小时音频数据 │
├────────────────────────────────────────────┤
│ │
│ 数据来源分布: │
│ • YouTube字幕 ~40% │
│ • 播客转录 ~20% │
│ • 有声书 ~15% │
│ • 新闻广播 ~10% │
│ • 会议录音 ~10% │
│ • 其他 ~5% │
│ │
│ 语言分布: │
│ • 英语 ~50% │
│ • 中文/日语/韩语 ~15% │
│ • 欧洲语言 ~20% │
│ • 其他96种语言 ~15% │
│ │
│ 数据特点: │
│ • 弱监督:字幕可能有错误 │
│ • 多样性:各种口音、噪声环境 │
│ • 真实性:非实验室录音 │
│ │
└────────────────────────────────────────────┘
弱监督学习的优势
多语言能力突破
Whisper在多语言识别上的表现令人惊叹,特别是在低资源语言上:
| 语言类别 | 语言示例 | WER (Word Error Rate) | 对比商业系统 |
|---|---|---|---|
| 高资源语言 | 英语 | 4.2% | Google: 4.9% |
| 中文 | 8.1% | 百度: 7.2% | |
| 西班牙语 | 5.3% | Azure: 6.1% | |
| 中资源语言 | 日语 | 7.5% | AWS: 9.2% |
| 德语 | 6.2% | Google: 7.0% | |
| 法语 | 5.8% | Azure: 6.5% | |
| 低资源语言 | 印地语 | 15.2% | Google: 22.1% |
| 阿拉伯语 | 13.8% | AWS: 19.5% | |
| 土耳其语 | 11.4% | Azure: 16.3% |
鲁棒性测试结果
不同噪声环境下的性能(英语):
┌─────────────────────────────────────────────┐
│ 环境类型 WER 传统ASR 性能保持率 │
├─────────────────────────────────────────────┤
│ 安静室内 3.8% 3.5% 92% │
│ 办公室噪声 5.2% 8.1% 85% │
│ 街道噪声 7.1% 15.3% 78% │
│ 音乐背景 8.9% 21.7% 71% │
│ 多人交谈 11.2% 28.5% 65% │
│ 电话质量 12.5% 19.8% 68% │
│ 重口音说话者 9.3% 18.2% 74% │
└─────────────────────────────────────────────┘
特殊能力
开源决策的战略意义
OpenAI选择开源Whisper标志着其策略的重要转变:
开源影响力统计(发布后12个月):
┌──────────────────────────────────────┐
│ GitHub统计: │
│ • Stars: 62K+ │
│ • Forks: 6.5K+ │
│ • Contributors: 200+ │
│ │
│ 使用统计: │
│ • PyPI月下载: 2M+ │
│ • Hugging Face模型下载: 10M+ │
│ • 商业应用: 5000+公司 │
│ │
│ 衍生项目: │
│ • WhisperX (带说话人分离) │
│ • Whisper.cpp (C++实现) │
│ • WhisperJAX (JAX加速版) │
│ • Buzz (桌面应用) │
│ • 各种移动端口 │
└──────────────────────────────────────┘
生态系统繁荣
社区贡献与改进
| 改进项目 | 贡献者 | 性能提升 | 特点 |
|---|---|---|---|
| WhisperX | m-bain | 速度12x | 批处理优化 |
| faster-whisper | guillaumekln | 速度4x,内存50% | CTranslate2引擎 |
| whisper.cpp | ggerganov | 移动端可用 | 纯C++实现 |
| whisper-jax | sanchit-gandhi | 速度70x | TPU优化 |
Transformer编码器-解码器架构
Whisper架构详解:
┌──────────────────────────────────────────────┐
│ 输入音频(30秒片段) │
│ 16kHz采样 │
└─────────────────┬────────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ 特征提取(Log-Mel频谱) │
│ 80个mel bins × 3000时间步 │
└─────────────────┬────────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ 编码器(Encoder) │
│ 基于Transformer的架构 │
├──────────────────────────────────────────────┤
│ 配置: │
│ • Tiny: 39M参数, 4层, 384维 │
│ • Base: 74M参数, 6层, 512维 │
│ • Small: 244M参数, 12层, 768维 │
│ • Medium: 769M参数, 24层, 1024维 │
│ • Large: 1550M参数, 32层, 1280维 │
│ │
│ 组件: │
│ • 多头自注意力(Multi-Head Attention) │
│ • 前馈网络(FFN) │
│ • 层归一化(Layer Norm) │
│ • 残差连接 │
└─────────────────┬────────────────────────────┘
↓
┌──────────────────────────────────────────────┐
│ 解码器(Decoder) │
│ 自回归文本生成 │
├──────────────────────────────────────────────┤
│ 特殊tokens: │
│ • <|startoftranscript|> │
│ • <|language|> │
│ • <|task|> (transcribe/translate) │
│ • <|notimestamps|> / <|timestamps|> │
│ • <|endoftext|> │
│ │
│ 生成过程: │
│ 1. 条件设置(语言、任务) │
│ 2. 逐token生成 │
│ 3. 束搜索(beam search)优化 │
└──────────────────────────────────────────────┘
关键技术创新
# 任务定义示例
tasks = {
"transcribe": "转录原始语言",
"translate": "翻译成英语",
"detect_language": "检测语言",
"align": "生成时间戳",
"voice_activity": "检测语音活动"
}
性能基准对比
各模型版本性能对比:
┌──────────────────────────────────────────────┐
│ 模型 参数 速度 内存 英语WER 多语言 │
├──────────────────────────────────────────────┤
│ Tiny 39M 32x ~1GB 8.9% 较差 │
│ Base 74M 16x ~1GB 6.2% 一般 │
│ Small 244M 6x ~2GB 4.8% 良好 │
│ Medium 769M 2x ~5GB 4.2% 优秀 │
│ Large 1550M 1x ~10GB 3.8% 最佳 │
└──────────────────────────────────────────────┘
注:速度以Large为基准(1x)
2024年2月15日,OpenAI发布Sora震撼了整个AI界。这个能够生成长达60秒高质量视频的模型,不仅在视觉效果上达到了惊人的真实感,更重要的是展现了对物理世界规律的初步理解,被认为是通向AGI的重要里程碑。
项目起源与愿景
Sora的开发始于2023年初,当时DALL·E 3的成功让团队意识到,下一个前沿是时间维度的建模。Sam Altman在内部会议上提出:”如果我们要构建真正理解世界的AI,它必须理解事物如何随时间变化。”
核心团队构成
从2D到4D的维度扩展
生成模型的维度演进:
┌───────────────────────────────────────────────┐
│ │
│ DALL·E (2D) → Sora (4D) │
│ 空间: X×Y 空间: X×Y×Z │
│ 静态图像 时间: T │
│ 3D理解+时序 │
│ │
│ 技术跨越: │
│ • 单帧 → 多帧序列 │
│ • 局部一致 → 全局时空一致 │
│ • 纹理生成 → 物理模拟 │
│ • 2D投影 → 3D场景理解 │
│ │
└───────────────────────────────────────────────┘
技术架构创新:Diffusion Transformer for Video
Sora架构示意:
┌─────────────────────────────────────────────────┐
│ 输入处理层 │
├─────────────────────────────────────────────────┤
│ 文本提示 → CLIP编码 → 文本嵌入 │
│ 参考图像 → 视觉编码 → 图像嵌入(可选) │
│ 视频编辑 → 原始视频 → 视频嵌入(可选) │
└──────────────────┬──────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 时空补丁化(Spacetime Patches) │
├─────────────────────────────────────────────────┤
│ • 将视频分解为4D patches │
│ • 空间: 16×16像素块 │
│ • 时间: 2-4帧组 │
│ • 总patches数: ~10,000-50,000 │
└──────────────────┬──────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ Diffusion Transformer核心 │
├─────────────────────────────────────────────────┤
│ 参数规模: ~30B(推测) │
│ 层数: 48-64层 │
│ 注意力机制: │
│ • 空间自注意力(同一帧内) │
│ • 时间自注意力(跨帧) │
│ • 时空交叉注意力 │
│ │
│ 特殊设计: │
│ • 3D位置编码 │
│ • 运动向量预测 │
│ • 物理约束层 │
└──────────────────┬──────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 视频解码与后处理 │
├─────────────────────────────────────────────────┤
│ • 超分辨率: 480p → 1080p │
│ • 帧插值: 24fps → 60fps │
│ • 时序平滑 │
│ • 色彩校正 │
└─────────────────────────────────────────────────┘
核心挑战与解决方案
视频生成最大的挑战是保持时空一致性——物体在移动时保持形状、颜色、纹理的稳定,场景的光照、透视关系合理。
1. 对象持久性(Object Permanence)
传统方法 vs Sora方法:
传统(逐帧生成):
Frame 1: 红色汽车
Frame 2: 橙色汽车(颜色漂移)
Frame 3: 变形的汽车(形状不稳定)
Sora(全局优化):
┌──────────────────────────────────┐
│ 对象追踪与锚定系统 │
│ • 对象ID分配 │
│ • 特征向量持久化 │
│ • 跨帧特征对齐 │
│ • 遮挡处理 │
└──────────────────────────────────┘
结果:对象在整个视频中保持一致
2. 运动连贯性
Sora通过学习物理先验实现自然的运动:
| 运动类型 | 传统方法问题 | Sora解决方案 | 效果提升 |
|---|---|---|---|
| 行走 | 脚步飘移 | 接触点约束 | 95%真实感 |
| 流体 | 不自然流动 | 流体动力学建模 | 89%真实感 |
| 刚体 | 穿模现象 | 碰撞检测机制 | 92%准确率 |
| 布料 | 僵硬不自然 | 材质属性建模 | 87%真实感 |
| 表情 | 不连续跳变 | 面部肌肉约束 | 91%流畅度 |
3. 场景一致性
Sora的场景理解层次:
┌────────────────────────────────────┐
│ 全局场景图(Scene Graph) │
├────────────────────────────────────┤
│ 几何层: │
│ • 3D空间布局 │
│ • 相机参数(焦距、角度) │
│ • 深度图估计 │
│ │
│ 语义层: │
│ • 对象关系(上下、前后、包含) │
│ • 功能关系(支撑、遮挡) │
│ │
│ 物理层: │
│ • 重力方向 │
│ • 光源位置 │
│ • 材质属性 │
│ │
│ 时序层: │
│ • 事件顺序 │
│ • 因果关系 │
└────────────────────────────────────┘
物理规律的隐式学习
Sora展现出的物理理解能力令人惊叹,虽然它并没有显式编程物理引擎,但通过大规模学习获得了物理直觉:
1. 重力与支撑
2. 光影关系
3. 材质属性
训练数据的革命性规模
Sora训练数据估算:
┌──────────────────────────────────────┐
│ 视频数据源: │
│ • YouTube: ~1000万小时 │
│ • 游戏引擎生成: ~500万小时 │
│ • 电影/电视: ~200万小时 │
│ • 无人机footage: ~100万小时 │
│ • 科学模拟: ~50万小时 │
│ │
│ 数据预处理: │
│ • 分辨率标准化 │
│ • 场景分割 │
│ • 质量筛选(去除低质量、抖动) │
│ • 标注生成(自动+人工) │
│ │
│ 总计:~1850万小时高质量视频 │
│ 文本描述:~100亿条 │
└──────────────────────────────────────┘
能力展示案例分析
| 场景类型 | 展示能力 | 技术难度 | 实现质量 |
|---|---|---|---|
| 东京街景漫步 | 复杂场景、人群动态 | ★★★★★ | 95% |
| 咖啡中的倒影 | 流体模拟、光学效果 | ★★★★☆ | 92% |
| 雪中的狗 | 毛发、粒子效果 | ★★★★☆ | 90% |
| 历史场景重现 | 风格一致性 | ★★★☆☆ | 88% |
| 虚构生物 | 创造性生成 | ★★★★★ | 93% |
当前局限性
尽管Sora取得了突破性进展,仍存在明显局限:
Sora的失败案例分析:
┌────────────────────────────────────────┐
│ 物理违反: │
│ • 玻璃杯破碎后自动复原 │
│ • 人物穿墙而过 │
│ • 影子方向不一致 │
│ │
│ 逻辑错误: │
│ • 左右手互换 │
│ • 数量不守恒(5个苹果变6个) │
│ • 因果顺序颠倒 │
│ │
│ 细节缺陷: │
│ • 文字渲染错误 │
│ • 手指数量异常 │
│ • 镜像反射错误 │
└────────────────────────────────────────┘
计算成本分析
| 指标 | 数值 | 对比DALL·E 3 |
|---|---|---|
| 训练成本 | ~$5000万 | 50× |
| 训练时长 | 3个月 | 6× |
| GPU需求 | 10,000× H100 | 20× |
| 推理成本 | $1-2/分钟 | 100× |
| 生成时间 | 2-5分钟/10秒视频 | 30× |
未来发展路线图
2024-2026 Sora演进预测:
┌───────────────────────────────────────┐
│ 2024 Q3-Q4: │
│ • API开放(受限访问) │
│ • 分辨率提升至4K │
│ • 生成速度优化2× │
│ │
│ 2025: │
│ • 实时编辑能力 │
│ • 音频同步生成 │
│ • 3D场景导出 │
│ • 可控相机运动 │
│ │
│ 2026: │
│ • 交互式视频生成 │
│ • 长视频(5分钟+) │
│ • 多视角一致性 │
│ • 游戏引擎集成 │
└───────────────────────────────────────┘
对行业的影响
通向AGI的意义
Ilya Sutskever评价:”Sora不仅是视频生成工具,更是理解物理世界的开始。当AI能够想象事物如何变化,预测未来会发生什么,我们就接近了真正的智能。”