📄 Paper de la Semana: PaliGemma 2

🎯 ¿Por qué es relevante?

Mientras todos miran a los modelos gigantes, Google lanzó PaliGemma 2, una familia de modelos de visión-lenguaje (VLMs) diseñados específicamente para ser pequeños, rápidos y fáciles de adaptar (fine-tune). Con variantes de 3B, 10B y 28B, estos modelos están pensados para desarrolladores que necesitan integrar visión artificial en aplicaciones reales sin requerir un cluster de H100s.

🔬 Detalles Técnicos

PaliGemma 2 refina la receta de su predecesor combinando componentes de primer nivel:

  1. Encoder Visual: Utiliza SigLIP-So400m, un encoder de visión altamente eficiente que captura detalles finos de las imágenes mejor que CLIP tradicional.
  2. Decoder de Lenguaje: Basado en Gemma 2, aprovechando las mejoras en razonamiento y comprensión de texto de la última familia abierta de Google.
  3. Resolución Dinámica: Acepta imágenes en múltiples resoluciones (224px, 448px, 896px), permitiendo un trade-off flexible entre velocidad y capacidad para leer texto pequeño o ver detalles diminutos.
  4. Transfer Learning: A diferencia de modelos “chat” generalistas, PaliGemma 2 está pre-entrenado para ser fine-tuneado en tareas específicas (detección de objetos, segmentación, OCR, captioning), logrando resultados SOTA en su categoría de tamaño.

💡 Opinión

PaliGemma 2 es el “modelo obrero” que necesitábamos. No te va a escribir un poema sobre la imagen, pero si necesitas un sistema que detecte defectos en una línea de producción, lea facturas o analice radiografías, y que corra en una sola GPU modesta, esta es la mejor herramienta en el mercado ahora mismo. La especialización vence a la generalización en el borde (edge).