1. 🚀 MobileDiffusion 是一种专为移动设备设计的高效潜在扩散模型,可在半秒内天生高质量512x512图像

2. 🧠 通过优化模型架构,包括Diffusion UNet和图像解码器,MobileDiffusion展现了在打算效率上的出色表现。

3. 🌐 该技能有望在移动设备上推动快速图像天生体验,拓展了天生模型在提高用户体验和应对隐私问题方面的潜在运用。

站长之家(ChinaZ.com)2月1日 :在谷歌一项项名为“MobileDiffusion”的研究中,Google的研究员先容了一种新颖的移动设备上文本天生图像的方法。
传统的文本天生图像模型常日须要弘大的参数和强大的打算能力,而MobileDiffusion则专为移动设备设计,具有在半秒内天生高质量图像的潜力。

只需05秒MobileDiffusion在手机设备上就能实现快速文本生成图像

据理解,文本天生图像模型的相对低效性紧张源于两个紧张寻衅。
首先,扩散模型的固有设计哀求通过迭代去噪天生图像,须要对模型进行多次评估。
其次,模型架构的繁芜性导致参数数量弘大,打算本钱高昂。

虽然先前的研究紧张集中在减少函数评估次数上,但移动设备上纵然进行少量评估步骤也可能很慢。
因此,MobileDiffusion致力于办理这些问题,通过优化模型架构和采取DiffusionGAN实现一步采样,从而在移动设备上实现快速文本天生图像。

MobileDiffusion的设计遵照潜在扩散模型,包括三个组件:文本编码器、扩散UNet和图像解码器。

文本编码器利用适用于移动设备的小型模型CLIP-ViT/L14。

对付扩散UNet,研究职员深入研究了Transformer块和卷积块的效率,并采取UViT架构来提高打算效率。
与此同时,他们通过在UNet的深层段利用轻量级可分离卷积层,优化了卷积块的性能。

一些扩散 UNet 的比较。

图像解码器方面,他们演习了一个变分自编码器(VAE),通过修剪原始的宽度和深度设计了轻量级解码器架构。

VAE 重修。
MobileDiffusion的 VAE 解码用具有比 SD(Stable Diffusion)更好的视觉质量。

为了进一步提高效率,研究职员采取了DiffusionGAN稠浊模型来实现一步采样。
通过利用预演习的扩散UNet初始化天生器和判别器,简化了演习过程。
该模型通过在少于10,000次迭代内收敛的微调过程,实现了文本天生图像的高效演习。

DiffusionGAN 微调的图示。

实验结果显示,MobileDiffusion在iOS和Android设备上表现出色,能够在半秒内天生512x512高质量图像。
这种快速的图像天生速率为移动设备上的各种有趣用例供应了潜在可能性。
研究职员表示,MobileDiffusion的高效性和小模型尺寸使其成为移动支配的空想选择,有望在用户在输入文本提示时供应快速的图像天生体验。

下图展示了 MobileDiffusion 与 DiffusionGAN 一步采样天生的示例图像。
模型其相对较小的模型尺寸(仅 520M 参数)使其特殊适宜移动支配,MobileDiffusion 可以为各个领域天生高质量的多样化图像。

用不同的运行时优化器丈量了 MobileDiffusion 在 iOS 和 Android 设备上的性能。
下面报告了延迟数字。
可以看到MobileDiffusion非常高效,可以在半秒内运行天生512x512的图像。
这种速率可能会在移动设备上实现许多有趣的用例。

MobileDiffusion的研究展示了在移动设备上实现快速文本天生图像的潜在前景,并承诺在运用该技能时遵照Google的负任务人工智能实践。

官方博客:https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html

论文网址:https://arxiv.org/abs/2311.16567

产品入口:https://top.aibase.com/tool/mobilediffusion