Stable Diffusion 3:功能有哪些提升与改进?

Group_1.jpg

周四,Stability AI 宣布推出 Stable Diffusion 3,这是该公司图像生成 ai 模型的最新和最强大的版本。该模型采用扩散变换架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。

 Stable Diffusion 3使用更新的“扩散变压器”,该技术于 2022 年首创,但在 2023 年进行了修订,现已实现可扩展性。OpenAI 令人印象深刻的视频生成器 Sora 显然也遵循类似的原理(该论文的合著者 Will Peebles 继续共同领导 Sora 项目)。 Stable Diffusion 3 系列模型(采用称为“提示”的文本描述并将其转换为匹配图像)的大小范围从 8 亿到 80 亿个参数不等。尺寸范围允许不同版本的模型在各种设备(从智能手机到服务器)上本地运行。

Stable Diffusion 3的性能提升与改进:

1、增强的多主题处理能力:新模型显著提升了对包含多个主题或元素的提示的理解和处理能力。这使得用户能够在单一提示中描述更为复杂的场景,而模型则能够基于这些描述更准确地生成图像。

2、图像质量提升:Stable Diffusion 3在生成图像的质量上实现了显著提升,包括更精细的细节表现、更准确的颜色匹配以及更自然的光影效果。这些进步让生成的图像更逼真,更好地捕捉用户的创意意图。

3、改善的拼写和文本处理:该版本在处理包含文本元素的图像时(例如标语、标签等),展现了更优的拼写和文本理解能力。这意味着模型能更准确地识别和渲染提示中的文字,即便是在复杂的视觉背景下也能做到。

4、采用新型扩散变换技术:Stable Diffusion 3引入了一种新型扩散变换技术,类似于Sora,为模型赋予了更强大的图像生成能力。Transformer是一种深度学习模型,专为逐步构建图像细节而设计,以产生高质量的视觉内容。

5、流匹配及其他技术改进:模型整合了流匹配技术及其他技术改进,以进一步提高生成图像的质量和多样性。流匹配技术帮助模型更好地理解和模拟图像中的动态元素和结构,让生成的图像在视觉上更加连贯和自然。

6、利用Transformer技术的进步:Stable Diffusion 3充分利用了Transformer技术的最新进展,不仅扩展了模型的能力,还使其能够处理多模态输入。这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更多的灵活性和精确度。

尽管目前已经提及了一些关键的技术创新,Stability AI计划很快发布更多的技术细节。这些细节将为技术社区和感兴趣的用户提供对Stable Diffusion 3技术基础和创新点的深入了解。

尽管Stable Diffusion 3尚未得到广泛应用,Stability却表示,测试一旦结束,用户便能免费下载其权重,并在本地环境中运行它。Stability在声明中提到:“正如之前模型的预览阶段一样,这一阶段对于在正式发布前收集反馈、优化性能和提升安全性极为重要。”

最近,Stability一直在探索多种图像合成技术。除了SDXL和SDXL Turbo外,该公司上周还推出了Stable Cascade,这是一种通过三阶段过程将文字生成图像的合成技术。另外,Stability AI的另一款文生视频图生视频产品Stable Video,也在这次公测中推出,为用户提供了更多选择。

收藏
最新工具
汇创鸭AI
汇创鸭AI

新一代AI驱动的SEO营销平台,它通过导入已有产品素材,AI自主...

黑狐配音
黑狐配音

影视解说与短剧配音的专属王者,面向中文创作者,提供文字转语音、声...

NanoPhoto AI
NanoPhoto AI

一个集成多个AI模型的一站式内容生成平台,面向内容创作者、营销人...

Paico
Paico

Pixso面向产品经理、设计师和研发团队推出的AI原生UI设计生...

Picset
Picset

跳帧工场开发的一款电商场景AI视觉生成工具,主要解决电商作图中「...

灵珠AI
灵珠AI

零门槛AI创作平台,用户不需要懂编程,在网页端像聊天一样输入创意...

iMini AI
iMini AI

一个一站式超级AI创作智能体,它把 GP、Claude、Gemi...

Vidu Claw
Vidu Claw

Vidu推出的一个面向内容创作的AI创意员工智能体,可以通过对话...

BuzzPlay
BuzzPlay

一个 AI互动内容创作与分享平台。你可以用一句话、一个梗、一个角...

Yoroll
Yoroll

一个 AI原生互动视频游戏平台,用户不需要写代码,输入想法就能生...