Apple 发表 AI 图像压缩编解码器 PICO 同等画质下数据量最多缩至三分之一

Apple 研究团队发表以机器学习为基础的图像压缩编解码器「PICO」(Perceptual Image Codec,知觉图像编解码器)。凭借人类视觉感知最佳化设计,在同等画质下,数据量最多可缩至传统编解码器的三分之一。研究人员称 PICO 为业界首个同时具备实用性,并直接针对人类视觉系统进行最佳化的学习型编解码器。

PICO 的压缩优势

根据 Apple 研究页面,PICO 相较 AV1、AV2、VVC、ECM 及 JPEG-AI,可达到 2.3 至 3 倍位元率节省,即同样画质所需的数据量仅为传统标准的三分之一至不足一半。与现有顶尖学习型编解码器相比,PICO 亦进一步实现 20% 至 40% 的位元率削减。

与传统编解码器(如 JPEG、PNG、HEIC)不同,PICO 采用神经网络学习图像压缩与复原方式,训练过程结合了知觉品质损失、GAN 损失,以及专门抑制小字体模糊和砖状色块的损失函数。Apple 论文解释,GAN 损失可令压缩后的头发丝、布料纹理等细节看起来更自然。但同时存在生成原图并不存在之图案的风险,因此研究团队加入了专项对策加以抑制。

端上效能表现

在 iPhone 17 Pro Max 上,PICO 最快可以 230 毫秒完成 1,200 万像素图像的编码,复码则只需 150 毫秒,速度比大多数顶尖 ML 编解码器在 V100 GPU 上运行时更快。虽然与 HEIC 等在装置上高度最佳化的传统编解码器相比仍有差距,但已大幅缩窄学习型编解码器在实用性方面的落差。

Apple 为 PICO 加入「跨装置兼容性」设计,确保在不同装置或不同实作版本之间均能正确复码。部分运算过程采用确定性设计,以避免浮点运算差异导致复码失败的问题。

人类主观评估方法

Apple 采用 CLIC 2020 Test、Kodak 及 DIV2K 三个资料集进行评估,邀请 610 位评估者就基准图像与两种复原图像进行配对比较,合计搜集 74,925 件回应。评估者的偏好结果以贝叶斯 Elo 分数换算,客观呈现各编解码器的知觉品质排名。

PICO 局限性

Apple 论文指出,PICO 针对自然图像的知觉品质最佳化,在压缩动漫插图等高度简化的合成图像时,有时需要比传统编解码器更高的位元率才能达到相同品质。Apple 研究团队为找到最佳模型架构,探索了数百万种神经网络配置,目标是在压缩率、视觉品质与实用效能三方面取得最佳平衡。

资料来源:Apple Machine Learning Research

说说我的看法