智谱AI新突破:CogView4文生图模型,首个开源支持汉字生成达SOTA

发布时间:2025-03-05 14:54:22 来源:互联网

智谱AI最新发布的CogView4模型在文本到图像生成领域取得了突破性进展,成为首个能够生成汉字的开源模型,并在DPG-Bench基准测试中荣获榜首,标志着开源文生图模型的新高度。这一创新成果不仅遵循Apache 2.0协议,更为图像生成领域带来了前所未有的技术革新。

据悉,CogView4模型以其卓越的复杂语义对齐和指令跟随能力,能够支持中英双语输入,无论文本长度如何,均能生成指定范围内的任意分辨率图像。这一特性使得CogView4在广告、短视频等创意领域具有广泛的应用潜力。

在DPG-Bench基准测试中,CogView4凭借其出色的表现脱颖而出,成为开源文生图模型中的佼佼者。DPG-Bench测试主要评估模型在复杂语义对齐和指令跟随方面的能力,而CogView4无疑在这一领域树立了新的标杆。

CogView4的两大技术性创新尤为引人注目。首先,它支持中英双语提示词输入,擅长理解和遵循中文提示词,这在开源文生图模型中尚属首次。通过采用具备双语能力的GLM-4 encoder,并结合中英双语图文对进行训练,CogView4成功实现了双语提示词输入功能。这一创新使得模型能够更好地满足中文用户的创意需求,如古诗文中的意境描绘等。

其次,CogView4支持输入任意长度的提示词,并能够生成指定范围内的任意分辨率图像。这一特性极大地提升了用户创作的自由度,同时也提高了训练效率。为了实现这一目标,CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码方式支持不同分辨率的图像生成任务。模型还采用了Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

作为首个遵循Apache 2.0协议的图像生成模型,CogView4的开源将极大地推动AI技术的普及和应用。智谱AI表示,将继续增加ControlNet、ComfyUI等生态支持,并推出全套的微调工具包,以满足更多用户的需求。CogView4的最新版本将于3月13日上线智谱清言平台,供用户下载和使用。

作为国内最早的开源大模型公司之一,智谱AI始终致力于推动AI技术的普惠发展。2025年被定为智谱开源年,公司将陆续开源基础模型、推理模型、多模态模型、Agent模型等,为AI技术的创新和应用注入新的活力。

本周热门教程

1
成品网站1.1.719如何优化网站设计并提升用户体验?

成品网站1.1.719如何优化网站设计并提升用户体验?

2024/11/09

2
如何根据7777777亚洲和欧洲尺码表选择最合适的服装尺寸?

如何根据7777777亚洲和欧洲尺码表选择最合适的服装尺寸?

2024/12/07

3
91网站永久免费看视频,如何享受最好的观看体验?你需要了解这些!

91网站永久免费看视频,如何享受最好的观看体验?你需要了解这些!

2025/01/11

4
大BBBBBB老人的爱情与财运为何能成为他成功的关键?

大BBBBBB老人的爱情与财运为何能成为他成功的关键?

2025/02/12

5
大BBBBBB老人爱情与财运的成功秘诀:如何在平凡中找到幸福与财富

大BBBBBB老人爱情与财运的成功秘诀:如何在平凡中找到幸福与财富

2025/02/15

6
鲁大师影院免费观看版:畅享高清视听体验,随时随地轻松观看最新影片

鲁大师影院免费观看版:畅享高清视听体验,随时随地轻松观看最新影片

2024/12/28

7
免费PS大片调色视频播放软件下载推荐

免费PS大片调色视频播放软件下载推荐

2024/10/22

8
jmcomic2最新网页入口

jmcomic2最新网页入口

2024/10/31

9
熄灯后的寝室,如何化解PH值的郁寒,打造温馨舒适的生活环境

熄灯后的寝室,如何化解PH值的郁寒,打造温馨舒适的生活环境

2024/11/18

10
2024年最新4虎网名精选:让你瞬间脱颖而出的创意名称

2024年最新4虎网名精选:让你瞬间脱颖而出的创意名称

2024/11/20