哈喽,大家好,老寰这篇评论,主要来分析12 月 8 日重磅发布!美团生图模型开源,多端可用还支持连续改图

2025 年 12 月 8 日,美团正式发布并开源图像生成模型 LongCat-Image
这款仅 6B 参数的模型瞄准文生图与单图编辑核心场景,在编辑可控性和中文文字渲染上实现重大突破,达到开源 SOTA 水准。
无论是普通用户还是开发者,都能通过 APP、网页端直接体验,模型权重与代码也已同步开放,给 AI 生图领域带来了新选择。

核心突破:编辑可控 + 中文渲染双管齐下

LongCat-Image 采用文生图与图像编辑同源的统一架构,通过渐进式学习策略,在 6B 参数规模下实现了多能力协同提升。

在图像编辑领域,它在 GEdit-Bench、ImgEdit-Bench 等多个基准测试中拿下开源 SOTA 成绩,面对复杂编辑要求不易出现风格漂移和结构失真。
针对中文渲染痛点,模型覆盖 8105 个规范汉字进行预训练,最终在 ChineseWord 评测中取得 90.7 分,大幅领先现有开源模型。

实测表现:连续改图稳定,真实感拉满

实测中,LongCat-Image 的连续编辑能力表现亮眼。以《疯狂动物城 2》相关图片测试,从像素风格到彩色重绘,再到乐高主题改造,角色结构始终稳定,构图未出现明显错误。



产品渲染场景中,玩偶在不同光照环境下的绒毛细节、光影变化都接近真实质感,成功避开了 AIGC 常见的 “塑料感” 陷阱。
不过在复杂排版场景下,中文小字仍存在乱码、中英文混杂问题,游戏界面生成的审美也与当下主流产品有差距。

多端可用:用户零门槛,开发者可开源共建
为了方便不同群体使用,美团同步提供了多种体验方式。

移动端用户可通过 LongCat APP 体验文生图、图生图功能;网页端用户则能直接访问https://longcat.ai/ 进行创作。

开发者更能通过开源渠道获取资源,Hugging Face 和 GitHub 均已同步模型权重与代码,支持二次开发与创新。

行业意义:开源赛道再添猛将,实用化成核心方向

LongCat-Image 的推出,没有走单纯堆参数的路线,而是聚焦 “编辑可控性” 和 “中文渲染” 这两个实用痛点。
其综合评测显示,人类主观评分(MOS)已接近 Seedream4.0 等商业模型水平,图像编辑的并列对比胜率也领先多数开源模型。

美团的开源举措不仅为开发者提供了 “高性能、低门槛” 的工具,也推动 AI 生图技术向更贴近真实应用场景的方向发展,让技术普惠成为可能。
