Nexus-Gen:开源全能图像模型,具备GPT-4o相媲美的图像理解、生成和编辑能力
Nexus-Gen是ModelScope 团队开源的图像模型,其图像理解、生成和编辑能力可与 GPT-4o 媲美。该模型融合了 MLLMs 的文本建模与扩散模型的图像渲染技术,并采用独特的高维特征空间建模方式,有效解决了传统自回归模型在推理时易出现的误差累积问题。通过分别训练自回归和扩散模型,Nexus-Gen 的图像生成质量得到明显。此外,它还使用了开源社区提供的 25M 数据进行训练,以推动 All-to-All 模型的发展。
Nexus-Gen功能特征
1. 图像理解
精准识别与分析:Nexus-Gen能够准确理解图像中的各种元素,包括物体、场景、文字等。例如,在光学字符识别(OCR)任务中,它可以高精度地识别图像中的文字内容,并理解其语义。
多领域适应性:该模型在多个领域表现出色,涵盖通用视觉问答、语言理解、计数、代码解析、数学和科学任务等。例如,在视觉问答任务中,它可以根据图像内容回答复杂的问题,如“图中有哪些动物,它们在做什么?”
上下文理解:Nexus-Gen不仅关注图像本身,还能结合文本描述理解图像的上下文。例如,当给出一张带有说明文字的图像时,它可以根据文本和图像的结合来更准确地解释图像内容。
2. 图像生成
高质量图像合成:Nexus-Gen可以生成高质量的图像,无论是简单的物体还是复杂的场景。例如,根据文本描述“一只在草地上奔跑的金色猎犬”,它可以生成一张清晰、逼真的图像。
创意与细节:该模型能够根据文本提示生成具有创意和细节的图像。例如,描述“未来城市的夜景,霓虹灯闪烁,飞行汽车穿梭其中”,它可以生成具有未来感和科技感的图像。
风格化生成:Nexus-Gen支持多种风格的图像生成,包括写实风格、卡通风格、油画风格等。用户可以通过指定风格来生成符合需求的图像。
3. 图像编辑
多样化编辑操作:Nexus-Gen支持多种图像编辑操作,包括对象修改、对象添加、对象移除、颜色更改和风格转换等。例如,用户可以要求“将这张照片中的红色花朵改为蓝色”,或者“在图片中添加一只蝴蝶”。
精准控制:该模型能够根据文本指令精准地进行编辑操作。例如,用户可以要求“将图片中的天空换成夕阳背景”,Nexus-Gen能够准确识别并替换背景。
多步骤编辑流程:Nexus-Gen可以处理复杂的多步骤编辑任务。例如,用户可以要求“先将图片中的旧车换成新车,然后将背景改为城市街道”,它能够依次完成这些操作。
Nexus-Gen应用场景
1. 内容创作
创意设计:设计师可以利用Nexus-Gen快速生成创意图像,作为设计的起点或灵感来源。例如,在设计广告海报时,可以根据文案生成初步的视觉效果。
插画与绘画:艺术家可以使用该模型生成插画或绘画的草图,然后在此基础上进行进一步创作。例如,根据故事描述生成插画草图,节省创作时间。
2. 广告与营销
广告素材生成:广告公司可以利用Nexus-Gen快速生成广告所需的图像素材。例如,根据广告文案生成产品展示图、场景图等。
个性化广告:根据用户的需求和偏好,生成个性化的广告图像。例如,根据用户的兴趣生成符合其喜好的产品推荐图像。
3. 游戏开发
游戏场景与角色生成:游戏开发者可以利用Nexus-Gen生成游戏中的场景和角色。例如,根据游戏剧情描述生成游戏地图或角色形象。
游戏素材库扩展:快速生成大量游戏素材,丰富游戏内容。例如,生成不同风格的建筑、道具等。
4. 教育与培训
教学辅助:教师可以利用Nexus-Gen生成教学所需的图像,帮助学生更好地理解课程内容。例如,在自然科学教学中生成动植物的图像。
虚拟实验室:生成虚拟实验场景和操作步骤的图像,帮助学生进行虚拟实验。例如,生成化学实验的图像,展示实验过程。
5. 娱乐与社交
个性化头像与图片:用户可以根据自己的喜好生成个性化的头像或图片,用于社交媒体。例如,生成带有个人特色的卡通头像。
创意照片编辑:在社交媒体上分享创意照片编辑作品。例如,将普通照片编辑成具有艺术风格的图像,增加趣味性。
安装与使用
安装步骤
安装DiffSynth - Studio:从源码克隆并安装,命令为git clone https://github.com/modelscope/DiffSynth-Studio.git,进入目录后执行pip install -e.。
安装依赖:执行pip install -r requirements.txt。
若要进行微调,安装ms - swift:pip install ms-swift -U。
准备模型:运行python download_models.py。
功能脚本使用
图像理解:运行python image_understanding.py。
图像生成
使用详细提示进行图像生成:运行python image_generation.py。
使用Nexus - Gen进行提示润色并生成图像:运行python image_generation_with_selfpolish.py。
图像编辑:运行python image_editing.py。
项目链接
论文:https://arxiv.org/pdf/2504.21356
github:https://github.com/modelscope/Nexus-Gen
modelscope:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40