Bernini AI

使用 Bernini AI 生成 & 编辑视频免费 & 开源

Bernini AI 将 MLLM 语义规划器与 DiT 渲染器结合，在统一模型中完成视频生成与编辑。由字节跳动打造，基于 Apache 2.0 协议发布，在线即可使用 — 无需 H100、无需安装、无需信用卡。

免费 & 开源生成 & 编辑一体化无需 GPU

选择模型

Prompt*

画幅比例

分辨率

时长

33-15

支持 3 到 15 秒。

一个模型，覆盖所有任务

Bernini AI 横跨生成与编辑两大方向，支持七种任务类型 — 文字、图片和视频任意组合。

文生视频

用自然语言描述场景，Bernini AI 从零生成视频。MLLM 规划器先生成构图、运动和风格推理，再由 DiT 渲染器输出帧序列。

视频编辑（V2V）

上传源视频，用文字描述你想做的改动，Bernini AI 在保留未编辑区域的同时精准应用修改。替换物体、变换天气、重新风格化 — 全都通过一句话完成。

参考图生视频（R2V）

上传最多五张参考图片，控制主体外观、材质、风格或天气。Bernini AI 将这些参考图作为语义锚点，生成与你的创意意图相匹配的连贯视频。

参考图引导编辑（RV2V）

将源视频与参考图片结合，实现材质替换、物体交换、风格迁移或天气变化。渲染器利用源 VAE 特征在编辑过程中保留画面细节。

内容插入

将提供的图片或视频作为参考内容放入已有场景中。非常适合产品展示、Logo 植入或将元素合成到实拍素材中。

文生图 & 图片编辑

Bernini AI 同样支持文生图和图生图编辑。相同的语义规划管线同时覆盖静态图和动态视频 — 无需在不同工具之间切换。

三步开始创作

无需 GPU、无需安装、无需配置。只需打开浏览器。

1. 描述你想要的效果

输入提示词，描述你想创建的视频或想应用的编辑。对于基于参考的任务，上传源图片或视频片段。Bernini AI 同时理解文字、图片和视频输入。

2. 选择任务并生成

选择文生视频、参考图生视频或提示词驱动的视频编辑。MLLM 语义规划器在抽象空间中生成目标场景，DiT 渲染器合成视频帧。调整提示词或更换参考素材，多次迭代。

3. 下载并使用你的视频

根据视频长度和复杂度，生成在几分钟内完成。下载结果并用于社交媒体、营销、客户项目或创意作品 — Apache 2.0 协议覆盖商业用途。

为创作者而生，适配任何工作流

从社交内容到研究实验，Bernini AI 融入你的创作体系 — 免费且开源。

社媒创作者

为 TikTok、Instagram Reels 和 YouTube Shorts 生成和编辑视频，无需为工具付费。从文字提示开始，或用一句话编辑已有素材。免费开源意味着零重复成本。

营销 & 广告团队

用文字提示编辑现有素材，快速测试视频变体 — 换背景、替换产品、调整视觉风格，无需重新拍摄。内容插入功能可将 Logo 和产品干净地放入现有画面。

独立开发者 & 构建者

Apache 2.0 协议许可。将模型集成到你自己的应用中、修改权重、或在 Hopper GPU 上自部署。基于 Wan2.2 和 Qwen2.5-VL 构建 — 视频 AI 产品的全开源技术栈。

AI 研究者 & 学生

Bernini 在视频编辑任务上达到领先闭源模型的一线水平，尤其在主体一致性方面表现出色。开放权重和可复现代码使其成为视频生成与编辑研究的优秀基线。

设计师 & 视觉艺术家

使用最多五张参考图片锁定生成片段中的主体、材质色板或视觉风格。参考引导编辑可在保持构图和镜头运动不变的同时，对素材进行复杂的材质和风格变换。

Bernini AI 的独特之处

三项架构决策让 Bernini 区别于单一功能的视频生成器。

语义规划 — 先生成理解，再生成像素

大多数视频生成器直接从提示词跳到像素。Bernini AI 在中间插入了语义规划步骤：MLLM 先在语义空间中对构图、物体关系和运动逻辑进行推理，再渲染任何一帧。结果是：视频能更精准地遵循复杂的多步骤指令。

一个模型，同时搞定生成与编辑

大多数 AI 视频工具将生成和编辑拆分为不同模型——有时甚至是不同产品。Bernini AI 在单一统一架构中同时处理文生视频、视频编辑、参考图生视频、内容插入和图片任务。

开源，Apache 2.0 — 没有任何附加条件

免费使用、自由修改、自由分发、自由商用。权重在 Hugging Face 上，代码在 GitHub 上。没有积分、没有订阅陷阱、没有厂商锁定。对比那些按每次生成收费的闭源商业模型。

为实际使用而设计

从个人创作者到开发团队，Bernini AI 让每个人都能轻松使用 AI 视频生成。

无需 GPU

通过托管服务在任何设备上在线使用 Bernini AI。自部署可供有 Hopper GPU 的团队使用，但你不需要拥有 GPU 就能上手。

支持商业用途

Apache 2.0 协议意味着你生成的输出归你所有。可用于社交媒体、广告投放、客户项目和产品视频，无需额外授权费用。

字节跳动背书

由全球顶级 AI 研究机构字节跳动构建并开源。论文发表于 arXiv（2605.22344），提供可复现的基准评测和开放权重。

技术亮点

支撑 Bernini AI 生成与编辑能力的关键规格和架构创新。

SA-3D RoPE 编码

分段感知 3D 位置编码区分不同视觉输入的 token，保持源素材、参考图和生成内容之间的清晰分离。

480p–720p @ 24fps

可配置分辨率高达 720p、帧率高达 24fps。视频长度可通过帧数配置，每次生成通常为 2 至 15 秒。

7 种任务类型

T2V、I2V、V2V、RV2V、R2V、内容插入和 T2I — 全部在单一统一架构中完成，无需多个独立模型。

MLLM + DiT 架构

语义规划器（Qwen2.5-VL）先对构图和运动进行推理，然后 DiT 渲染器（Wan2.2）合成实际的视频帧。

什么是 Bernini AI — 以及为什么它值得关注

Bernini AI 是字节跳动的开源统一 AI 视频生成与编辑框架 — 你可以从文字提示生成视频、通过描述改动来编辑已有素材、以及从参考图片驱动新片段，全部在一个模型中完成。大多数 AI 视频工具只能做一件事：要么从文字生成，要么编辑素材，要么从图片生成动画。Bernini AI 在一个架构中完成所有这些任务。基于 MLLM 的语义规划器先对场景进行推理，然后基于 DiT 的渲染器将该计划转化为实际视频帧。结果：复杂提示词的指令遵循更好，编辑时未改动区域的一致性更强。基于 Apache 2.0 协议发布，权重在 Hugging Face 上，代码在 GitHub 上，论文发表于 arXiv（2605.22344，2026 年 5 月）。

从文字生成视频、用提示词编辑已有素材、从参考图片创建新片段 — 全部在一个模型中。

两阶段架构：MLLM 语义规划器先推理，DiT 渲染器后生成帧。

Apache 2.0 开源：免费使用、自由修改、商用部署无许可限制。

免费起步，按需扩展

Bernini AI 免费且开源。在线托管服务提供免费试用额度 — 无需信用卡即可开始。

Basic

$15.9/月

解锁视频和图片生成。包含 1,200 积分，可生成约 600 张基础图片，每张消耗 2 积分。

每月包含 1,200 积分
最多可生成约 600 张基础图片，每张 2 积分
约 20 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

Pro

$29.9/月

适合稳定的图片和视频生产。包含 3,000 积分，可生成约 1,500 张基础图片，每张消耗 2 积分。

每月包含 3,000 积分
最多可生成约 1,500 张基础图片，每张 2 积分
约 50 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

Max

$69.9/月

适合团队和高频生产。包含 8,000 积分，可生成约 4,000 张基础图片，每张消耗 2 积分。

每月包含 8,000 积分
最多可生成约 4,000 张基础图片，每张 2 积分
约 133 个标准视频，每个视频 60 积分
解锁高级视频和图片模型，包括 Kling、Veo、Seedance、LTX、Nano Banana、GPT Image 2 等
支持文生图、图生图、文生视频、图生视频、首尾帧视频和运动控制
包含完整商业使用权
24/7 客户支持
导出视频无水印

加购

需要更多积分？

一次性购买，随时补充积分，可与任意方案配合使用。

$9.9600积分

30 天内有效600 积分可解锁高级模型。可生成约 300 张基础图片（每张 2 积分），或约 10 个标准视频。30 天内有效积分包同样可解锁高级视频和图片生成能力，仅积分数量和有效期不同

常见问题

Bernini AI 是什么？

Bernini AI 是字节跳动开源的视频生成与编辑框架，基于 Apache 2.0 协议发布。它将 MLLM 语义规划器与 DiT 渲染器结合，在单一模型中处理文生视频、视频编辑、参考图生视频和内容插入等任务。

Bernini AI 真的免费吗？

是的。Bernini AI 由字节跳动基于 Apache 2.0 协议发布。模型权重在 Hugging Face 上免费获取，代码在 GitHub 上开源，个人和商业项目均可免费使用，无需支付许可费用。自部署需要 Hopper 级别 GPU，但托管在线服务让你无需拥有 GPU 硬件即可使用。

没有 GPU 可以使用 Bernini AI 吗？

可以 — 通过托管模型的在线服务使用。自部署需要 Hopper GPU（H100/H800）以获得最佳性能，但托管平台在云端运行模型，你可以在任何设备上生成和编辑视频，无需 GPU、无需安装、无需配置。

Bernini AI 能生成什么样的视频？

Bernini AI 默认生成 480p 分辨率、16fps 的视频，可配置至 720p/24fps。视频长度可通过帧数配置，通常为 2 至 15 秒。支持文生视频、参考图生视频（最多 5 张参考图）、视频编辑和内容插入。

Bernini AI 与 Kling、Runway、Veo 相比如何？

在字节跳动自己的评测中，Bernini AI 在视频编辑任务上达到领先闭源模型的一线水平，尤其在主体一致性方面表现突出。原始文生视频的视觉质量仍落后于最强的闭源系统。核心取舍：闭源模型在视觉精细度上可能略优，而 Bernini 提供更强的编辑一致性、开放权重和零许可费用。

Bernini AI 能编辑我已经有的视频吗？

可以。视频到视频编辑（V2V）是核心能力。上传源视频，用文字提示描述改动，Bernini AI 在保留未编辑区域的同时应用修改。参考引导编辑（RV2V）可添加参考图片来控制编辑过程中的材质、物体或风格。

我用 Bernini AI 创作的视频归我所有吗？

是的。由于 Bernini AI 基于 Apache 2.0 协议发布，你生成的输出归你所有。你可以将其用于商业目的 — 社交媒体、广告、客户项目、产品视频 — 不受模型许可的限制。

什么是语义规划？

语义规划是 Bernini AI 的两阶段方法。第一阶段：MLLM 规划器在嵌入空间中对场景进行推理 — 物体、运动、构图。第二阶段：DiT 渲染器根据该计划合成实际视频帧。这种分离意味着模型在生成像素之前会先「思考」要生成什么，从而实现更好的指令遵循。

准备好用 Bernini AI 创作了吗？

免费开始生成和编辑视频 — 无需 GPU、无需信用卡、没有任何附加条件。

免费在线试用