Meta 另一款基于 token 的全新 AI 图像生成模型 CM3leon：更高效先进

时间：2024-01-12 12:19:30

职员之家(ChinaZ.com) 7月末17日消息:Meta 正在继续推进对近期分解式计算机静态的分析，并公布了近期科技成果，名为 CM3leon（发音近似于「chameleon（MLT-）」）。

图片来自 Meta

CM3leon 是一个可用文本到影像成立和影像到文本成立的多模态典范静态，对于启动时分解影像标题比较有用。

计算机分解的影像在也就是说现在不是新概念，较广可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 现在取得了很大取得成功。

新鲜的是 Meta 正在用到构建 CM3leon 的新技术以及 Meta 据称该典范静态能够做到的可靠性。

也就是说文本到影像分解新技术主要依赖 diffusion 静态（Stable Diffusion 的名字称做此）来成立影像。CM3leon 则采用了各有不同的工具：基于 token 的自回归静态。

Meta 的分析其他部门在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的分析分析科技成果里确信：「近年来，由于可靠性强大且相对于计算成本较低，diffusion 静态在影像分解指导工作里占据领先地位。相比之下，众所周知基于 token 的自回归静态也能诱发出色的结果，众所周知在全局影像连贯总体能够，但典范训练和推理的成本要高得多。」

Meta 的分析其他部门现在能够通过 CM3leon 实际演示基于 token 的自回归静态实际上可以比基于 diffusion 静态的工具愈来愈高效。

Meta 的分析其他部门在一篇其网站文中里确信：「尽管用到的计算资源比之前基于 Transformer 的工具少了五倍，CM3leon 在文本到影像分解总体做到了最先进的可靠性。」

CM3leon 的理论上指导工作原理在某种程度上与现有的文本分解静态类似。

Meta 的分析其他部门首先进行了一个检索增强的实典范训练下一阶段。与仅从的网络上得来公开可用的影像各有不同，这种工具现在给基于 diffusion 静态的静态导致了一些法律终究，Meta 选择了一条各有不同的道路。

Meta 的分析分析科技成果反驳：「在文本到影像分解层面，影像数据集来源的道德严重影响现在引发了较广的讨论。在本分析里，我们只用到 Shutterstock 上的经过授权的影像。因此，我们可以避免与影像所有权和归属相关的担忧，同时不则会牺牲可靠性。」

在实典范训练以后，CM3leon 静态经过一下一阶段有监督微调（SFT），Meta 的分析其他部门据称这种工具诱发了高度建模的结果，无论是资源透过还是影像质量。SFT 是 OpenAI 可用典范训练 ChatGPT 的一种工具。Meta 在分析分析科技成果里反驳，SFT 可用典范训练静态思考复杂提示，在分解任务里比较有用。

分析科技成果里反驳：「我们发掘出，指导调整总体提高了多模态静态在影像标题分解、动态问答、基于文本的撰稿和必需影像分解等各种任务里的可靠性。」

通过发送给 Meta 在关于 CM3leon 的其网站文中里分享的分解影像样本集，结果令人印象深深，吻合地显示了静态思考复杂的多下一阶段提示，从而分解了分辨率极高的影像。

目前，CM3leon 仍然是一个分析项目，尚不吻合 Meta 是否则会在其的平台的一个服务里公开提供这项新技术。鉴于它的强大可靠性和愈来愈高的分解效率，CM3leon 及其分解式计算机工具有可能超越分析下一阶段再次得到应用。

新冠特效药叫什么
液体止鼾器有副作用么
江中多维元素片怎么服用
吃坏肚子一直拉肚子怎么办
经常看手机眼睛干涩滴什么眼药水

上一篇：刘德华掉进法拉利抄袭门，谁最受伤？

下一篇：何祚庥对医学的态度非常明确，已经最终定论