📄 Paper de la Semana: PaliGemma 2
- Paper: PaliGemma 2: A Family of Versatile VLMs for Transfer
- Autores: Google DeepMind
- Publicación: 4 de diciembre, 2025
- HuggingFace: google/paligemma-2
🎯 ¿Por qué es relevante?
Mientras todos miran a los modelos gigantes, Google lanzó PaliGemma 2, una familia de modelos de visión-lenguaje (VLMs) diseñados específicamente para ser pequeños, rápidos y fáciles de adaptar (fine-tune). Con variantes de 3B, 10B y 28B, estos modelos están pensados para desarrolladores que necesitan integrar visión artificial en aplicaciones reales sin requerir un cluster de H100s.
🔬 Detalles Técnicos
PaliGemma 2 refina la receta de su predecesor combinando componentes de primer nivel:
- Encoder Visual: Utiliza SigLIP-So400m, un encoder de visión altamente eficiente que captura detalles finos de las imágenes mejor que CLIP tradicional.
- Decoder de Lenguaje: Basado en Gemma 2, aprovechando las mejoras en razonamiento y comprensión de texto de la última familia abierta de Google.
- Resolución Dinámica: Acepta imágenes en múltiples resoluciones (224px, 448px, 896px), permitiendo un trade-off flexible entre velocidad y capacidad para leer texto pequeño o ver detalles diminutos.
- Transfer Learning: A diferencia de modelos “chat” generalistas, PaliGemma 2 está pre-entrenado para ser fine-tuneado en tareas específicas (detección de objetos, segmentación, OCR, captioning), logrando resultados SOTA en su categoría de tamaño.
💡 Opinión
PaliGemma 2 es el “modelo obrero” que necesitábamos. No te va a escribir un poema sobre la imagen, pero si necesitas un sistema que detecte defectos en una línea de producción, lea facturas o analice radiografías, y que corra en una sola GPU modesta, esta es la mejor herramienta en el mercado ahora mismo. La especialización vence a la generalización en el borde (edge).
