腾讯开源全国首个中文原生DiT架构文生图模型 可免费商用

PigSay 2024-05-14 阅读:875

腾讯推出全新升级的混元文生图大模型,并开放源代码

腾讯公司最近宣布,其混元文生图大模型已经完成全面升级,并且现在对所有企业和个人开发者开放源代码。开发者可以在Hugging Face平台和Github上免费获取到包括模型权重、推理代码和算法在内的完整模型套件,且该模型支持商业用途。

中文原生DiT架构的开创性模型

此次升级后的混元文生图大模型采用了行业内首个中文原生的DiT(Diffusion With Transformer)架构,支持中英文双语输入和理解,拥有高达15亿的参数量。

性能卓越,国际领先

根据评测数据,腾讯的混元文生图大模型在效果上远超其他开源模型,如Stable Diffusion,是目前最优秀的开源文生图模型之一,整体性能达到国际领先水平。

技术创新与算法优化

腾讯混元文生图团队自2023年7月起便致力于基于DiT架构的模型研发。团队不仅优化了模型的长文本理解能力,支持最多256个字符的内容输入,还在算法层面实现了多轮生图和对话能力,允许在初始生成的图片基础上通过自然语言描述进行调整,以获得更满意的效果。

中文理解的深度优化

混元文生图大模型是首个具备中英文双语理解及生成能力的DiT模型,特别在处理古诗词、俚语、传统建筑、中华美食等中国元素时表现出色。

技术难点的突破

面对Transformer架构在文生图领域的应用难点,腾讯混元文生图团队通过算法层的改进和数据质量的优化,成功构建了基于DiT架构的文生图模型,并在原DiT基础上进行了创新性改进。

工程加速与效率提升

为了提升模型训练与运行效率,腾讯混元文生图团队构建了专属的工程加速工具库,并利用腾讯自研的Angel机器学习平台,显著提升了训练和推理的速度。

效果提升明显

细粒度语义理解(语义理解准确,准确性提升,同时画面质感提升)

“一只长靴猫手持亮银色的宝剑,身着铠甲,眼神坚毅,站在一堆金币上,背景是暗色调的洞穴,图像上有金币的光影点缀。”

复杂语义理解&质感提升

“一张细致的照片捕捉到了一尊雕像的形象,这尊雕像酷似一位古代法老,头上出人意料地戴着一副青铜蒸汽朋克护目镜。这座雕像穿着复古时髦,清爽的白色T恤和合身的黑色皮夹克,与传统的头饰形成鲜明对比。背景是简单的纯色,突出了雕像的非传统服装和蒸汽朋克眼镜的复杂细节。”

人像真实感与画面质感

“中年亚洲男性穿着休闲装在办公室中微笑着,他的表情充满自信,展现出优雅的气质。”

中国元素

“水墨画,一条蜿蜒的山径,杏花如雪般铺满道路两侧,花瓣随风飘落,显得格外美丽,背景是春天的山野,镜头是中景。”

实际应用与开源共享

腾讯混元文生图大模型已经在多个业务场景中得到应用,如广告创意、新闻内容生产等。此次开源,旨在与行业共享腾讯在文生图领域的实践经验,推动中文文生图技术研发和应用,共建下一代视觉生成开源生态。

腾讯文生图负责人芦清林表示,腾讯混元文生图的研发理念是实用主义,致力于将研究成果转化为实际应用,并希望通过开源,促进大模型技术的发展。

截至目前,腾讯已在Github上开源超过170个项目,获得了超过47万开发者的关注和认可。