ubhyperbolic · notas de investigación

Slot Attention, visualmente

Slot Attention convierte un conjunto de N vectores de características en un conjunto pequeño y fijo de K vectores —los slots— donde cada uno tiende a ligarse a un objeto. Y lo aprende sin etiquetas, solo reconstruyendo. La mejor intuición: es un k-medias suave y diferenciable. Juega con los tres demos para verlo.

Parte 1 de la serie. Después: el mismo mecanismo en el espacio hiperbólico (modelo de Lorentz).

0 El pipeline en una mirada

Un codificador (CNN/ViT) convierte la imagen en N características; Slot Attention las agrupa en K slots con T iteraciones de atención competitiva; un decodificador renderiza cada slot por separado y se componen. La única supervisión es el error de reconstrucción (MSE): las máscaras de objeto emergen gratis.

Imagen
Codificador
CNN / ViT
Características
x ∈ ℝN×D
Slot Attention
×T iteraciones
Slots
S ∈ ℝK×D
Decodificador
+ máscaras

1 Competición y convergencia

Cada punto es una característica; cada círculo grande es un slot. En cada iteración: (a) los slots compiten por cada característica vía un softmax sobre los slots, y (b) cada slot se mueve a la media ponderada de lo que ganó. El color de cada punto es la mezcla de los colores de los slots según su atención → así ves la asignación suave. Esto es, literalmente, el núcleo de Slot Attention (con q=k=v identidad ≈ k-medias suave).

Iteración 0 · movimiento medio de slots

τ baja → competición dura (casi argmax). α alta → el slot salta al nuevo centroide; α baja → se mueve despacio (como la GRU).

2 La matriz de atención y sus dos ejes

La decisión que hace a Slot Attention centrado en objetos es el eje del softmax. Arrastra las características y los slots del mini lienzo y mira cómo cambia la matriz A ∈ ℝN×K. Cambia entre las tres vistas:

3 Segmentación emergente

Ahora una "escena": cada celda es una característica [x, y, R, G, B]. Corremos Slot Attention y coloreamos cada celda por el slot que la gana. Sin etiquetas, los slots se reparten los objetos. Pulsa Auto y mira emerger la segmentación a la derecha.

Escena
Slots (segmentación)

Iteración 0

Más peso a la posición → slots más compactos espacialmente (regiones); menos peso → agrupa por color aunque esté disperso.

4 Lo que viene: al espacio hiperbólico

Todo lo geométrico se reduce a dos operaciones: la similitud (un producto escalar) y la agregación (la media ponderada / centroide). Para hacer Slot Attention hiperbólico sustituimos el producto escalar por una distancia hiperbólica y la media ponderada por un centroide hiperbólico. En el modelo de Lorentz ese centroide tiene forma cerrada y es numéricamente estable —la razón por la que es preferible a la bola de Poincaré, que satura en el borde. Eso es la Parte 2.

Proyecto HyperbolicSlot · Javier Ródenas · 2026. Demos sin dependencias externas; las matemáticas corren en tu navegador.