AnyStory - 阿里通义推出的高保真个性化文本到图像生成框架

2025-04-10 12:02:26

8人浏览

AnyStory是什么

AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架，实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段，AnyStory结合强大的ReferenceNet和CLIP视觉编码器，对主体特征进行高保真度的编码，捕捉丰富的细节和语义信息。ReferenceNet支持高分辨率输入，与去噪U-Net的特征空间对齐，为生成图像提供坚实的细节基础；CLIP视觉编码器则负责提取主体的粗略概念，确保生成的图像与文本描述紧密对齐。在路由阶段，解耦的实例感知主体路由器能准确感知并预测主体在潜在空间中的位置，引导主体条件的注入，有效避免了多主体生成中常见的主体混合问题，使每个主体能在生成的图像中保持其独特的特征和细节。

AnyStory的主要功能

高保真度单主体个性化：AnyStory能生成具有特定主体的高保真度图像，捕捉到丰富的细节和语义信息，使生成的图像与文本描述紧密对齐。
免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。
上一篇：Uni-AdaFocus - 清华大学推出通用的高效视频理解框架
下一篇：SHMT - 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术