在使用人工智能创建和编辑照片时,经常会遇到几个问题。我想移动照片中的玻璃,但玻璃变形了。他们想从不同的角度看照片,但那个角度是完全错误的。他们想要调整两个物体的前后位置,但这也会造成遮挡混乱、比例失衡……4月8日,新京报贝壳财经记者从京东获悉,京东发现研究院近日正式开放其内部开发的JoyAI-Image-Edit图像模型,以解决上述问题。京东研究院称,该模型是业界首个内置“空间智能”的开源模型,最终让AI真正“理解”和“编辑”空间。原来的2D修饰已更新为3D空间重塑,并且所有模型推理代码均开放,以便开发者可以直接在应用程序中使用。据官方消息,JoyAI-Image-Edit遵循现实世界的空间规律,从空间位置、多视图相干性、相机识别到场景推理等维度进行全面建模。我们在许多空间编辑技术上取得了进展,包括相机坐标的透视变换、物体的空间位移旋转以及几何结构的精确控制。将空间认知深度融入文本和图像生成过程,构建完整的空间理解任务和数据系统。全面支持15种通用编辑功能,有利于准确绘制长文本。具体来说,该模型打破了AI“图像理解”和“图像生成”之间的障碍,让AI不仅能够产生逼真的图像外观,还能准确理解图像背后的空间结构。在剪辑过程中,主体图像和场景结构保持完整和稳定,使得多视角空间布局更加连贯。即使您移动对象、更改视点以及调整对象之间的关系,场景的几何规则也会保持不变。遮挡、光线和阴影自然且风格化,没有扭曲或杂乱。京东发现研究院相关负责人告诉新京报贝壳财经记者,JoyAI-Image-Edit的主要改进在于克服了以往开源模型无法克服的空间理解问题,拥有三大辨识度极高的空间编辑功能: 视角变换:用户可以通过自然语言指定相机的角度方位、倾斜角度和缩放级别,模型保持视野。假设场景的几何一致性,生成新的透视图像。空间漫游:支持连续视点移动,在空间中生成逻辑一致的多视图图像序列,类似于在 3D 场景中“行走”。 C控制物体的空间关系:在场景整体结构保持稳定的情况下,对特定物体进行平移、缩放等空间变换,同时确保遮挡和光影关系自然合理。在突破性突破的同时,JoyAI-Image-Edit全面支持15种常用编辑功能,深度覆盖高频内容创作需求。无论您是替换、删除或添加对象,还是传输一般样式或调整细节,它们的模型都提供高性能。该模型结合尖端的空间编辑技术,能够准确地表示长文本,并从多个角度产生一致的结果。即使在成都等行业的高难度作业中,它也能表现出出色的性能,几乎在任何场景下都能实现无盲区的高效生产。京东高级副总裁何晓东在接受北京日报采访时表示ews贝壳财经记者认为,通用人工智能有两个方向。一个方向是多模式,其中大型模型需要视觉功能。未来,还可能延伸到嗅觉和触觉。另一个方向是实体智能,例如机器人、机械臂和无人驾驶车辆,它们可以将通用人工智能转化为物理世界。该模型聚焦体现智能领域,同时也探索了多场景的应用层面。 JoyAI-Image-Edit模型可广泛应用于电商内容制作、创意设计制作、智能图像处理、3D模型重建、嵌入式智能视觉识别等各个领域,极大提高了AI图像技术在复杂空间场景下的适应性和实用性。尤其是在具身智能领域,空间理解能力是机器人“理解”的根本基础。“站立世界”,该模型的发布也为相关技术的发展提供了重要的基础能力。体现智能相关测试图。受访者提供 在智能测量领域,我们展示了在物理灵活性领域,只需输入自然语言单词(如“机器人的左手举起”)并选择图像框中的目标区域,即可精确控制特定物体的运动、姿态、旋转角度等。在机器人执行家务的真实场景中,模型生成了机器人举手的新姿势,完全保留了背景环境、物体的空间关系和物理理性。2025年,京东计划完成嵌入式智能领域的重大设计,基于JoyAI大模型的底层能力,我们正式推出了JoyInside的“拥有智能”解决方案。将高EQ交互系统集成到智能家电、机器人等终端硬件中。将IA的认知和情感能力深度融合在硬件设备上,实现更符合人类习惯的自然交互。此后,京东不断探索构建嵌入式智能生态系统。另一方面,我们迭代了JoyInside平台的技术版本,更新了语音、多模态识别等核心功能。同时,我们将加快在行业的落地,通过开放接口、联合开发等模式与多家消费电子企业、机器人企业达成合作,推动嵌入式智能技术在家庭陪伴、日常服务等场景的大规模应用。京东发现研究院相关负责人表示,JoyAI-Image-Edit开源是京东在多模态AI模型领域的重点设计,而AI图像编辑则可以重新实现从平面到宇宙的大跨越。未来,该模型将继续在更多场景落地,不断探索实现空间智能的价值。新京报贝壳财经记者 编辑:郑子娟 纠错:杨官娟 王鑫