Resumen
Este trabajo estudia una versión acotada y defendible de la idea de “fragmentar” un modelo de lenguaje: dividir un Transformer decoder-only entrenado en bloques de capas contiguas, ejecutar reconstrucciones parciales como prefijos ordenados del stack, y verificar si el reensamblaje completo restaura exactamente el comportamiento del checkpoint original bajo decodificación fija.
[E] El objeto experimental es SmolLM2-135M, un modelo decoder-only distribuido públicamente mediante Hugging Face, cuya configuración publicada especifica un stack de 30 capas, tamaño oculto de 576, 9 cabezas de atención y 3 cabezas key/value, bajo una configuración tipo LlamaForCausalLM. Esto fija con precisión el espacio de índices de capas sobre el que se define la fragmentación contigua.
[E] En la corrida reportada, los checkpoints parciales mostraron colapso por repetición, colapso a espacios en blanco y degeneración a puntuación antes de la recuperación final. [E] El checkpoint final de 30 capas reprodujo exactamente la salida base determinista, token por token, bajo el mismo prompt y la misma configuración de generación.
[M] La lectura conceptual del experimento es que la coherencia generativa no reside de forma aislada en una única capa, sino que emerge como una restricción progresiva distribuida a lo largo de la pila. [S] A una escala mayor, esto sugiere una agenda donde los modelos pueden concebirse menos como archivos monolíticos y más como estructuras reensamblables, verificables y potencialmente distribuibles.
1. Introducción
Los modelos de lenguaje suelen presentarse como objetos unitarios: un conjunto de pesos que se carga y se ejecuta como una sola entidad. Sin embargo, desde el punto de vista funcional, un Transformer es una composición secuencial de bloques. Cada capa transforma el estado residual y contribuye a refinar la distribución final sobre el vocabulario. Esa estructura secuencial hace natural la pregunta experimental central de este trabajo: ¿qué ocurre cuando el modelo no se trata como una unidad indivisible, sino como una pila reconstruible por prefijos contiguos de capas?
El experimento no intenta probar una novedad de serialización a nivel de bytes, ni pretende introducir un método de compresión. En lugar de ello, reduce el problema a algo más limpio: tomar un checkpoint público y estudiar, bajo condiciones controladas, dos operaciones separadas. Primero, ejecutar prefijos parciales de profundidad para observar degradación funcional. Segundo, recomponer los mismos bloques contiguos, en el mismo orden, y verificar si la función original reaparece exactamente.
Esta distinción es importante porque la literatura previa sobre early exit, skipping o particionamiento generalmente persigue acelerar inferencia o reducir memoria, mientras que aquí el foco está en una pregunta diferente: si los mismos sub-bloques de un checkpoint pueden retirarse y reintroducirse sin pérdida, y qué forma toma el colapso cuando la profundidad aún no es suficiente.
2. Marco conceptual y mapa de literatura
El fenómeno que interesa mapear en la literatura tiene tres definiciones operacionales. [E] Fragmentación por rangos contiguos de capas: dividir un Transformer decoder-only en bloques que preservan el orden de las capas. [E] Decodificación con stack parcial: generar usando sólo un prefijo del stack y observar desviaciones respecto del modelo completo. [E] Reensamblaje determinista: restaurar los bloques originales en el orden original y comprobar si la salida coincide exactamente con la del baseline bajo una configuración fija de generación.
Tuned Lens y Logit Lens motivan la idea de que las capas intermedias contienen distribuciones parciales o “creencias” todavía en refinamiento. Geva et al. refuerzan esta lectura al describir a las FFN como promotoras de conceptos en espacio de vocabulario.
CALM, LayerSkip, FREE, LayerDrop y FlexiDepth muestran que reducir profundidad puede ahorrar cómputo, pero que la fidelidad temprana suele requerir mecanismos, entrenamiento o ruteo explícito.
La literatura de model stitching estudia cuándo segmentos de redes pueden conectarse con poca pérdida. En este trabajo, el reensamblaje es el caso límite trivial: la alineación óptima dentro del mismo modelo es la identidad.
GPipe, Megatron-LM y FlexGen enmarcan el particionamiento por capas como una abstracción estándar de sistemas. Este trabajo añade una lente conductual: equivalencia exacta tras recomposición.
[E] La base del argumento está bien soportada por la literatura: los Transformers son pilas secuenciales de capas y sus predicciones se refinan progresivamente a través de la profundidad. [M] Por ello, truncar profundidad no es “quitar un poco de calidad” de manera vaga, sino cambiar la función efectivamente computada. Un prefijo de capas es un modelo diferente, aunque esté embebido dentro del mismo checkpoint original.
[E] La familia SmolLM2 aporta una ventaja poco común: además del checkpoint final, se publican checkpoints intermedios cada 240,000 pasos, aproximadamente cada 250B tokens, con el propósito explícito de apoyar investigación en interpretabilidad y dinámica de aprendizaje. [M] Esto convierte a SmolLM2-135M no sólo en un sustrato reproducible para estudiar profundidad, sino en un posible eje adicional para estudiar emergencia a través del tiempo de entrenamiento.
3. Metodología
El experimento se ejecuta enteramente en local. Cada fragmento es un programa Python activo que coloca un subconjunto de pesos en un directorio de sandbox dentro de artifacts/quorum/. Tras cada llegada, el sistema recompone el prefijo contiguo más largo disponible y materializa un checkpoint reconstruido en artifacts/reassembled/. Luego se corre generación determinista y se registran tanto el texto producido como el tiempo de ejecución.
| Parámetro | Valor |
|---|---|
| Modelo | HuggingFaceTB / SmolLM2-135M |
| Arquitectura | Decoder-only Transformer, configuración tipo LlamaForCausalLM |
| Número de capas | 30 |
| Prompt | The capital of France is |
| Modo de generación | Determinista, do_sample=False |
| Tokens nuevos máximos | 24 |
| Regla de reensamblaje | Reconstruir el prefijo contiguo más largo presente |
| Fragmentación | 4 rangos contiguos a lo largo de las 30 capas |
3.1 Plan de fragmentación
| Índice | Nombre | Rango de capas | Número de capas | Incluye pesos base |
|---|---|---|---|---|
| 0 | fragment_00 | 0–7 | 8 | Sí |
| 1 | fragment_01 | 8–15 | 8 | No |
| 2 | fragment_02 | 16–22 | 7 | No |
| 3 | fragment_03 | 23–29 | 7 | No |
[E] La decisión metodológica clave es usar prefijos contiguos y no subconjuntos arbitrarios de capas ni trozos de bytes. Sólo así la curva de degradación tiene interpretación funcional. Un prefijo de profundidad conserva el orden composicional del modelo; un conjunto aleatorio no implementa una versión “más pequeña” del mismo proceso, sino una función difícil de justificar teóricamente.
[M] Bajo esta formulación, cada checkpoint parcial puede entenderse como una versión del modelo donde el refinamiento iterativo de representaciones se detuvo temprano. Esto conecta de manera natural con Tuned Lens, Logit Lens y la literatura de early exit, sin confundir diagnóstico de capa con equivalencia funcional total.
4. Resultados experimentales
La corrida reportada produjo una recuperación completa en el checkpoint final y fallas estructuradas en los checkpoints parciales. El baseline del modelo completo generó una secuencia determinista concreta; el objetivo del reensamblaje fue verificar si esa misma secuencia reaparecía exactamente una vez restaurado el stack completo.
| Baseline | |
|---|---|
| Tiempo | 3.23 s |
| Tokens generados | 24 |
| Coincidencia checkpoint final | Sí |
the capital of the country. The capital of France is the capital of the country. The capital of
4.1 Salidas por checkpoint
| Checkpoint | Capas activas | Rangos | Tiempo | Etiqueta | Salida observada |
|---|---|---|---|---|---|
| 1/4 | 8 | 0–7 | 0.87 s | Repetition loop | , and and, and, and, and, and, and, and, ... |
| 2/4 | 16 | 0–7, 8–15 | 1.59 s | Whitespace collapse | [sólo espacios en blanco] |
| 3/4 | 23 | 0–7, 8–15, 16–22 | 1.26 s | Punctuation / repetition collapse | . . con fuerte degeneración |
| 4/4 | 30 | 0–7, 8–15, 16–22, 23–29 | 1.46 s | Coherent | Coincide exactamente con el baseline |
Coherencia observada vs profundidad activa
[E] El dato experimental más fuerte es la recuperación exacta al restaurar las 30 capas. [M] Esto vuelve muy improbable que la degradación parcial se deba a corrupción de pesos o a errores de serialización no detectados, y apoya la interpretación de que la causa principal de los fallos parciales es la falta de profundidad suficiente, no la mutación del checkpoint.
5. Discusión
Los modos de fallo observados son consistentes con la literatura, aunque no están completamente tipificados por una sola fuente previa. Tuned Lens y Logit Lens sugieren que las predicciones intermedias se refinan capa a capa; Geva et al. describen a las FFN como actualizaciones aditivas que promueven conceptos en espacio de vocabulario. Early-exit papers como CALM, LayerSkip y FREE muestran que recortar profundidad puede ser viable, pero que la fidelidad temprana es frágil si no hay mecanismos específicos para sostenerla.
Interpretación plausible: el modelo conserva una dinámica local de continuación de tokens frecuentes, pero todavía no estabiliza una trayectoria semántica coherente.
Interpretación plausible: hay señal residual suficiente para mantener una salida formal válida, pero no la estructura semántica necesaria para sostener contenido lingüístico útil.
Interpretación plausible: parte del andamiaje lingüístico reaparece, pero la trayectoria de refinamiento aún no converge al comportamiento final del modelo completo.
La recomposición de los mismos bloques, en el mismo orden, restaura la función original bajo la configuración determinista empleada.
[E] La literatura previa apoya directamente que las predicciones de capas intermedias son decodificables y que truncar o saltarse capas puede degradar el comportamiento. [S] Lo que no estaba establecido de manera directa por una única fuente es una taxonomía de fallos concreta para prefijos contiguos en un modelo pequeño y público como SmolLM2-135M; ahí es donde este experimento aporta evidencia empírica propia.
También es útil separar este trabajo del diagnóstico de capas. El Logit Lens proyecta estados intermedios al vocabulario, pero eso no significa que esa proyección sea idéntica a correr un modelo truncado como función efectiva. Aquí se mide la conducta de un prefijo real del stack bajo generación autoregresiva, no sólo una lectura diagnóstica de activaciones.
6. Aporte y novedad frente al trabajo previo
[E] La literatura previa ya sustenta tres piezas importantes: (1) las predicciones intermedias contienen estructura parcialmente formada; (2) early exit y layer skipping son posibles pero sensibles; y (3) el particionamiento por capas es una abstracción estándar en sistemas. El valor distintivo de este trabajo no está en contradecir eso, sino en combinarlo bajo un protocolo diferente.
- Perturbación experimental, no atajo de inferencia. La mayoría de métodos de early exit buscan mantener calidad con menos cómputo. Aquí el truncamiento se usa como perturbación controlada para mapear degradación, mientras que el reensamblaje funciona como prueba de identidad funcional.
- Reensamblaje como caso identidad del stitching. En model stitching normalmente se aprende una capa de alineación entre redes distintas. En este trabajo la alineación es trivial: recomponer el mismo modelo consigo mismo. Eso convierte a la recuperación exacta en una prueba directa de invariancia conductual, más que en una comparación de compatibilidad entre representaciones heterogéneas.
- Equivalencia conductual exacta sobre una abstracción de sistemas estándar. GPipe y FlexGen justifican el corte por capas como operación natural de ejecución. El aporte aquí es pedir una condición más fuerte que la usual: no sólo “misma tarea” o “pérdida similar”, sino coincidencia determinista token por token tras la recomposición completa.
[M] En ese sentido, el trabajo puede describirse como la introducción de una lente de invariancia conductual sobre una operación ya familiar para los sistemas de ML: particionar y recomponer un stack secuencial de capas.
7. Limitaciones
El estudio es deliberadamente estrecho. Usa un único prompt, una sola configuración determinista de generación y una única corrida principal reportada. Esto permite una lectura limpia del fenómeno, pero restringe el alcance de las conclusiones.
- [E] No se reportan todavía métricas automáticas de calidad textual, sólo etiquetas humanas interpretables.
- [E] No se cuantifica varianza temporal mediante múltiples repeticiones por checkpoint.
- [E] No se explora aún el eje de tiempo de entrenamiento aprovechando checkpoints intermedios de SmolLM2-135M.
- [M] Los modos de fallo observados podrían depender del prompt y del tipo de continuación solicitada.
- [M] La equivalencia exacta puede ser sensible a detalles de implementación, backend numérico o diferencias de plataforma aun cuando los pesos sean idénticos.
8. Trabajo futuro
El conjunto de fuentes recopiladas por la revisión de literatura abre una agenda experimental bastante clara.
- Explorar el eje entrenamiento × profundidad. Repetir el experimento sobre checkpoints intermedios de SmolLM2-135M para estudiar si la degradación por prefijos cambia a lo largo del aprendizaje.
- Agregar métricas ligeras de calidad. Complementar las etiquetas humanas con medidas como repetitividad, diversidad léxica, entropía de salida o distancia respecto al baseline.
- Hacer barridos de granularidad. Comparar divisiones 2/4/6 y quizá cortes capa-por-capa para observar dónde ocurre la transición hacia la recuperación funcional.
- Analizar sensibilidad por token. FlexiDepth sugiere que distintos tipos de tokens exigen distinta profundidad; por tanto, convendría estudiar qué partes de una secuencia colapsan primero bajo truncamiento.
- Conectar con diagnósticos de capa. Superponer resultados de prefijos reales con visualizaciones tipo Tuned Lens para comparar “lo que parece creer el modelo” con “lo que realmente produce cuando se trunca”.
Referencias
Bibliografía integrada a partir del mapa de literatura proporcionado por Deep Research. Las entradas se agrupan por función conceptual dentro del artículo.