Apple 发表 AI 图像压缩编解码器 PICO 同等画质下数据量最多缩至三分之一 - 科技酷玩

Apple 研究团队发表以机器学习为基础的图像压缩编解码器「PICO」（Perceptual Image Codec，知觉图像编解码器）。凭借人类视觉感知最佳化设计，在同等画质下，数据量最多可缩至传统编解码器的三分之一。研究人员称 PICO 为业界首个同时具备实用性，并直接针对人类视觉系统进行最佳化的学习型编解码器。

PICO 的压缩优势

根据 Apple 研究页面，PICO 相较 AV1、AV2、VVC、ECM 及 JPEG-AI，可达到 2.3 至 3 倍位元率节省，即同样画质所需的数据量仅为传统标准的三分之一至不足一半。与现有顶尖学习型编解码器相比，PICO 亦进一步实现 20% 至 40% 的位元率削减。

与传统编解码器（如 JPEG、PNG、HEIC）不同，PICO 采用神经网络学习图像压缩与复原方式，训练过程结合了知觉品质损失、GAN 损失，以及专门抑制小字体模糊和砖状色块的损失函数。Apple 论文解释，GAN 损失可令压缩后的头发丝、布料纹理等细节看起来更自然。但同时存在生成原图并不存在之图案的风险，因此研究团队加入了专项对策加以抑制。

端上效能表现

在 iPhone 17 Pro Max 上，PICO 最快可以 230 毫秒完成 1,200 万像素图像的编码，复码则只需 150 毫秒，速度比大多数顶尖 ML 编解码器在 V100 GPU 上运行时更快。虽然与 HEIC 等在装置上高度最佳化的传统编解码器相比仍有差距，但已大幅缩窄学习型编解码器在实用性方面的落差。

Apple 为 PICO 加入「跨装置兼容性」设计，确保在不同装置或不同实作版本之间均能正确复码。部分运算过程采用确定性设计，以避免浮点运算差异导致复码失败的问题。

人类主观评估方法

Apple 采用 CLIC 2020 Test、Kodak 及 DIV2K 三个资料集进行评估，邀请 610 位评估者就基准图像与两种复原图像进行配对比较，合计搜集 74,925 件回应。评估者的偏好结果以贝叶斯 Elo 分数换算，客观呈现各编解码器的知觉品质排名。

PICO 局限性

Apple 论文指出，PICO 针对自然图像的知觉品质最佳化，在压缩动漫插图等高度简化的合成图像时，有时需要比传统编解码器更高的位元率才能达到相同品质。Apple 研究团队为找到最佳模型架构，探索了数百万种神经网络配置，目标是在压缩率、视觉品质与实用效能三方面取得最佳平衡。

资料来源：Apple Machine Learning Research