0 El pipeline en una mirada
Un codificador (CNN/ViT) convierte la imagen en N características; Slot Attention las agrupa en K slots con T iteraciones de atención competitiva; un decodificador renderiza cada slot por separado y se componen. La única supervisión es el error de reconstrucción (MSE): las máscaras de objeto emergen gratis.
CNN / ViT
x ∈ ℝN×D
×T iteraciones
S ∈ ℝK×D
+ máscaras
1 Competición y convergencia
Cada punto es una característica; cada círculo grande es un slot. En cada iteración: (a) los slots compiten por cada característica vía un softmax sobre los slots, y (b) cada slot se mueve a la media ponderada de lo que ganó. El color de cada punto es la mezcla de los colores de los slots según su atención → así ves la asignación suave. Esto es, literalmente, el núcleo de Slot Attention (con q=k=v identidad ≈ k-medias suave).
Iteración 0 · movimiento medio de slots —
τ baja → competición dura (casi argmax). α alta → el slot salta al nuevo centroide; α baja → se mueve despacio (como la GRU).
2 La matriz de atención y sus dos ejes
La decisión que hace a Slot Attention centrado en objetos es el eje del softmax. Arrastra las características y los slots del mini lienzo y mira cómo cambia la matriz A ∈ ℝN×K. Cambia entre las tres vistas:
3 Segmentación emergente
Ahora una "escena": cada celda es una característica [x, y, R, G, B]. Corremos Slot Attention y coloreamos cada celda por el slot que la gana. Sin etiquetas, los slots se reparten los objetos. Pulsa Auto y mira emerger la segmentación a la derecha.
Iteración 0
Más peso a la posición → slots más compactos espacialmente (regiones); menos peso → agrupa por color aunque esté disperso.
4 Lo que viene: al espacio hiperbólico
Todo lo geométrico se reduce a dos operaciones: la similitud (un producto escalar) y la agregación (la media ponderada / centroide). Para hacer Slot Attention hiperbólico sustituimos el producto escalar por una distancia hiperbólica y la media ponderada por un centroide hiperbólico. En el modelo de Lorentz ese centroide tiene forma cerrada y es numéricamente estable —la razón por la que es preferible a la bola de Poincaré, que satura en el borde. Eso es la Parte 2.
Proyecto HyperbolicSlot · Javier Ródenas · 2026. Demos sin dependencias externas; las matemáticas corren en tu navegador.