<ul><li>Apple has released AIMv2, a family of state-of-the-art open-set vision encoders.</li><li>AIMv2 improves upon existing models in multimodal understanding and object recognition tasks.</li><li>It incorporates a multimodal autoregressive pre-training framework with a Vision Transformer (ViT) encoder and a causal multimodal decoder.</li><li>AIMv2 achieves strong performance, scalability, and versatility in various applications, setting a new standard for open-set visual encoders.</li></ul>

Apple Releases AIMv2: A Family of State-of-the-Art Open-Set Vision Encoders

Discover more