arXiv (ML)AI
Apple M3 Ultraでのリアルタイム拡散モデル推論の体系的最適化
Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
NVIDIAのGPUを用いたリアルタイム画像生成技術は急速に進化していますが、Apple Siliconなどのnon-CUDAプラットフォームにおける最適化研究は極めて限定的でした。本研究は、Apple M3 Ultra(60コアGPU、512GB統合メモリ搭載)を対象として、リアルタイムカメラimg2img変換の実現を目指し、10段階にわたる包括的な最適化実験を実施しました。
研究チームが検討した最適化手法は多岐にわたります。CoreML変換、量子化、Token Merging、Neural Engineの活用、コンパクトモデルの探索、フレーム補間、kNN探索ベースの合成、pix2pix-turbo、光学フロー基盤のフレームスキップ、そして知識蒸留など、各アプローチの有効性を定量的に評価しました。最終的には、知識蒸留に特化したモデルであるSDXS-512をCoreML変換し、3スレッドのカメラパイプラインと組み合わせることにより、512x512解像度で22.7 FPSのリアルタイムカメラimg2img変換を達成しました。
本研究の主要な貢献は、CUDAで確立された最適化知見がApple Siliconの統合メモリアーキテクチャ上では必ずしも有効でないことを体系的に示したことです。研究結果により、量子化からのスピードアップが得られないこと、並列推論の無効性、大規模モデルに対するNeural Engineの不適切性など、NVIDIAのGPUとは根本的に異なる最適化環境が明らかになりました。これらの知見は、Apple Silicon上での拡散モデル推論に関する実践的なガイドラインとして、今後の開発に貴重な指針を提供します。