您现在的位置:首页 >> 环保科技

Meta 另一款基于 token 的全新 AI 图像生成模型 CM3leon:更高效先进

时间:2024-01-12 12:19:30

职员之家(ChinaZ.com) 7月末17日消息:Meta 正在继续推进对近期分解式计算机静态的分析,并公布了近期科技成果,名为 CM3leon(发音近似于「chameleon(MLT-)」)。

图片来自 Meta

CM3leon 是一个可用文本到影像成立和影像到文本成立的多模态典范静态,对于启动时分解影像标题比较有用。

计算机分解的影像在也就是说现在不是新概念,较广可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 现在取得了很大取得成功。

新鲜的是 Meta 正在用到构建 CM3leon 的新技术以及 Meta 据称该典范静态能够做到的可靠性。

也就是说文本到影像分解新技术主要依赖 diffusion 静态(Stable Diffusion 的名字称做此)来成立影像。CM3leon 则采用了各有不同的工具:基于 token 的自回归静态。

Meta 的分析其他部门在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的分析分析科技成果里确信:「近年来,由于可靠性强大且相对于计算成本较低,diffusion 静态在影像分解指导工作里占据领先地位。相比之下,众所周知基于 token 的自回归静态也能诱发出色的结果,众所周知在全局影像连贯总体能够,但典范训练和推理的成本要高得多。」

Meta 的分析其他部门现在能够通过 CM3leon 实际演示基于 token 的自回归静态实际上可以比基于 diffusion 静态的工具愈来愈高效。

Meta 的分析其他部门在一篇其网站文中里确信:「尽管用到的计算资源比之前基于 Transformer 的工具少了五倍,CM3leon 在文本到影像分解总体做到了最先进的可靠性。」

CM3leon 的理论上指导工作原理在某种程度上与现有的文本分解静态类似。

Meta 的分析其他部门首先进行了一个检索增强的实典范训练下一阶段。与仅从的网络上得来公开可用的影像各有不同,这种工具现在给基于 diffusion 静态的静态导致了一些法律终究,Meta 选择了一条各有不同的道路。

Meta 的分析分析科技成果反驳:「在文本到影像分解层面,影像数据集来源的道德严重影响现在引发了较广的讨论。在本分析里,我们只用到 Shutterstock 上的经过授权的影像。因此,我们可以避免与影像所有权和归属相关的担忧,同时不则会牺牲可靠性。」

在实典范训练以后,CM3leon 静态经过一下一阶段有监督微调(SFT),Meta 的分析其他部门据称这种工具诱发了高度建模的结果,无论是资源透过还是影像质量。SFT 是 OpenAI 可用典范训练 ChatGPT 的一种工具。Meta 在分析分析科技成果里反驳,SFT 可用典范训练静态思考复杂提示,在分解任务里比较有用。

分析科技成果里反驳:「我们发掘出,指导调整总体提高了多模态静态在影像标题分解、动态问答、基于文本的撰稿和必需影像分解等各种任务里的可靠性。」

通过发送给 Meta 在关于 CM3leon 的其网站文中里分享的分解影像样本集,结果令人印象深深,吻合地显示了静态思考复杂的多下一阶段提示,从而分解了分辨率极高的影像。

目前,CM3leon 仍然是一个分析项目,尚不吻合 Meta 是否则会在其的平台的一个服务里公开提供这项新技术。鉴于它的强大可靠性和愈来愈高的分解效率,CM3leon 及其分解式计算机工具有可能超越分析下一阶段再次得到应用。

新冠特效药叫什么
液体止鼾器有副作用么
江中多维元素片怎么服用
吃坏肚子一直拉肚子怎么办
经常看手机眼睛干涩滴什么眼药水