Stable Diffusion 3:功能有哪些提升与改进?

Group_1.jpg

周四,Stability AI 宣布推出 Stable Diffusion 3,这是该公司图像生成 ai 模型的最新和最强大的版本。该模型采用扩散变换架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。

 Stable Diffusion 3使用更新的“扩散变压器”,该技术于 2022 年首创,但在 2023 年进行了修订,现已实现可扩展性。OpenAI 令人印象深刻的视频生成器 Sora 显然也遵循类似的原理(该论文的合著者 Will Peebles 继续共同领导 Sora 项目)。 Stable Diffusion 3 系列模型(采用称为“提示”的文本描述并将其转换为匹配图像)的大小范围从 8 亿到 80 亿个参数不等。尺寸范围允许不同版本的模型在各种设备(从智能手机到服务器)上本地运行。

Stable Diffusion 3的性能提升与改进:

1、增强的多主题处理能力:新模型显著提升了对包含多个主题或元素的提示的理解和处理能力。这使得用户能够在单一提示中描述更为复杂的场景,而模型则能够基于这些描述更准确地生成图像。

2、图像质量提升:Stable Diffusion 3在生成图像的质量上实现了显著提升,包括更精细的细节表现、更准确的颜色匹配以及更自然的光影效果。这些进步让生成的图像更逼真,更好地捕捉用户的创意意图。

3、改善的拼写和文本处理:该版本在处理包含文本元素的图像时(例如标语、标签等),展现了更优的拼写和文本理解能力。这意味着模型能更准确地识别和渲染提示中的文字,即便是在复杂的视觉背景下也能做到。

4、采用新型扩散变换技术:Stable Diffusion 3引入了一种新型扩散变换技术,类似于Sora,为模型赋予了更强大的图像生成能力。Transformer是一种深度学习模型,专为逐步构建图像细节而设计,以产生高质量的视觉内容。

5、流匹配及其他技术改进:模型整合了流匹配技术及其他技术改进,以进一步提高生成图像的质量和多样性。流匹配技术帮助模型更好地理解和模拟图像中的动态元素和结构,让生成的图像在视觉上更加连贯和自然。

6、利用Transformer技术的进步:Stable Diffusion 3充分利用了Transformer技术的最新进展,不仅扩展了模型的能力,还使其能够处理多模态输入。这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更多的灵活性和精确度。

尽管目前已经提及了一些关键的技术创新,Stability AI计划很快发布更多的技术细节。这些细节将为技术社区和感兴趣的用户提供对Stable Diffusion 3技术基础和创新点的深入了解。

尽管Stable Diffusion 3尚未得到广泛应用,Stability却表示,测试一旦结束,用户便能免费下载其权重,并在本地环境中运行它。Stability在声明中提到:“正如之前模型的预览阶段一样,这一阶段对于在正式发布前收集反馈、优化性能和提升安全性极为重要。”

最近,Stability一直在探索多种图像合成技术。除了SDXL和SDXL Turbo外,该公司上周还推出了Stable Cascade,这是一种通过三阶段过程将文字生成图像的合成技术。另外,Stability AI的另一款文生视频图生视频产品Stable Video,也在这次公测中推出,为用户提供了更多选择。

收藏
最新工具
Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...

Sandtris
Sandtris

一款把经典俄罗斯方块和流沙物理效果结合的休闲游戏。玩家需要利用沙...

Maze Toys
Maze Toys

一个以迷宫游戏为主的网站,提供多种类型的迷宫玩法,包括Mini、...

AiPyApp
AiPyApp

一款以Python为核心的开源新人工智能体助手,结合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式设计工具,整合了图像、视频、文档/PDF、...

Intangible AI
Intangible AI

创意行业空间智能AI平台,通过简洁的3D界面与空间智能技术解决A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作台,基于自研法律大模型的AI智能体...