Fragmentación y Reensamblaje Contiguo de Capas en SmolLM2-135M

Navegación

Resumen 1. Introducción 2. Marco y literatura 3. Metodología 4. Resultados 5. Discusión 6. Aporte y novedad 7. Limitaciones 8. Trabajo futuro Referencias

Etiquetas epistémicas

[E] Establecido

[M] Modelo / inferencia

[S] Especulación

Resultado central

Los checkpoints parciales colapsan en modos de fallo distintos; la recomposición completa del stack original recupera exactamente la salida determinista de referencia.

Hipótesis operacional

[M] truncar profundidad equivale a detener temprano un proceso iterativo de refinamiento de predicciones; reensamblar el mismo stack, en el mismo orden y con la misma computación numérica, debe restaurar la función original salvo errores de implementación o no-determinismo.

Resumen

Este trabajo estudia una versión acotada y defendible de la idea de “fragmentar” un modelo de lenguaje: dividir un Transformer decoder-only entrenado en bloques de capas contiguas, ejecutar reconstrucciones parciales como prefijos ordenados del stack, y verificar si el reensamblaje completo restaura exactamente el comportamiento del checkpoint original bajo decodificación fija.

[E] El objeto experimental es SmolLM2-135M, un modelo decoder-only distribuido públicamente mediante Hugging Face, cuya configuración publicada especifica un stack de 30 capas, tamaño oculto de 576, 9 cabezas de atención y 3 cabezas key/value, bajo una configuración tipo LlamaForCausalLM. Esto fija con precisión el espacio de índices de capas sobre el que se define la fragmentación contigua.

[E] En la corrida reportada, los checkpoints parciales mostraron colapso por repetición, colapso a espacios en blanco y degeneración a puntuación antes de la recuperación final. [E] El checkpoint final de 30 capas reprodujo exactamente la salida base determinista, token por token, bajo el mismo prompt y la misma configuración de generación.

[M] La lectura conceptual del experimento es que la coherencia generativa no reside de forma aislada en una única capa, sino que emerge como una restricción progresiva distribuida a lo largo de la pila. [S] A una escala mayor, esto sugiere una agenda donde los modelos pueden concebirse menos como archivos monolíticos y más como estructuras reensamblables, verificables y potencialmente distribuibles.

1. Introducción

Los modelos de lenguaje suelen presentarse como objetos unitarios: un conjunto de pesos que se carga y se ejecuta como una sola entidad. Sin embargo, desde el punto de vista funcional, un Transformer es una composición secuencial de bloques. Cada capa transforma el estado residual y contribuye a refinar la distribución final sobre el vocabulario. Esa estructura secuencial hace natural la pregunta experimental central de este trabajo: ¿qué ocurre cuando el modelo no se trata como una unidad indivisible, sino como una pila reconstruible por prefijos contiguos de capas?

El experimento no intenta probar una novedad de serialización a nivel de bytes, ni pretende introducir un método de compresión. En lugar de ello, reduce el problema a algo más limpio: tomar un checkpoint público y estudiar, bajo condiciones controladas, dos operaciones separadas. Primero, ejecutar prefijos parciales de profundidad para observar degradación funcional. Segundo, recomponer los mismos bloques contiguos, en el mismo orden, y verificar si la función original reaparece exactamente.

Idea rectora. El trabajo separa dos ejes que en la práctica suelen mezclarse: truncamiento como perturbación experimental de la función y reensamblaje como prueba de invariancia conductual. El primero produce degradación interpretable; el segundo prueba que no hubo mutación semántica en los fragmentos mismos.

Esta distinción es importante porque la literatura previa sobre early exit, skipping o particionamiento generalmente persigue acelerar inferencia o reducir memoria, mientras que aquí el foco está en una pregunta diferente: si los mismos sub-bloques de un checkpoint pueden retirarse y reintroducirse sin pérdida, y qué forma toma el colapso cuando la profundidad aún no es suficiente.

2. Marco conceptual y mapa de literatura

El fenómeno que interesa mapear en la literatura tiene tres definiciones operacionales. [E] Fragmentación por rangos contiguos de capas: dividir un Transformer decoder-only en bloques que preservan el orden de las capas. [E] Decodificación con stack parcial: generar usando sólo un prefijo del stack y observar desviaciones respecto del modelo completo. [E] Reensamblaje determinista: restaurar los bloques originales en el orden original y comprobar si la salida coincide exactamente con la del baseline bajo una configuración fija de generación.

Eje A · Predicciones intermedias por capa.
Tuned Lens y Logit Lens motivan la idea de que las capas intermedias contienen distribuciones parciales o “creencias” todavía en refinamiento. Geva et al. refuerzan esta lectura al describir a las FFN como promotoras de conceptos en espacio de vocabulario.

Eje B · Early exit y depth control.
CALM, LayerSkip, FREE, LayerDrop y FlexiDepth muestran que reducir profundidad puede ahorrar cómputo, pero que la fidelidad temprana suele requerir mecanismos, entrenamiento o ruteo explícito.

Eje C · Stitching y compatibilidad modular.
La literatura de model stitching estudia cuándo segmentos de redes pueden conectarse con poca pérdida. En este trabajo, el reensamblaje es el caso límite trivial: la alineación óptima dentro del mismo modelo es la identidad.

Eje D · Particionamiento y ejecución distribuida.
GPipe, Megatron-LM y FlexGen enmarcan el particionamiento por capas como una abstracción estándar de sistemas. Este trabajo añade una lente conductual: equivalencia exacta tras recomposición.

[E] La base del argumento está bien soportada por la literatura: los Transformers son pilas secuenciales de capas y sus predicciones se refinan progresivamente a través de la profundidad. [M] Por ello, truncar profundidad no es “quitar un poco de calidad” de manera vaga, sino cambiar la función efectivamente computada. Un prefijo de capas es un modelo diferente, aunque esté embebido dentro del mismo checkpoint original.

[E] La familia SmolLM2 aporta una ventaja poco común: además del checkpoint final, se publican checkpoints intermedios cada 240,000 pasos, aproximadamente cada 250B tokens, con el propósito explícito de apoyar investigación en interpretabilidad y dinámica de aprendizaje. [M] Esto convierte a SmolLM2-135M no sólo en un sustrato reproducible para estudiar profundidad, sino en un posible eje adicional para estudiar emergencia a través del tiempo de entrenamiento.

Figura 1. La operación experimental no usa bloques arbitrarios de bytes, sino bloques contiguos del stack. Esto hace interpretable la degradación: cada checkpoint implementa un prefijo funcional distinto del modelo original.

3. Metodología

El experimento se ejecuta enteramente en local. Cada fragmento es un programa Python activo que coloca un subconjunto de pesos en un directorio de sandbox dentro de artifacts/quorum/. Tras cada llegada, el sistema recompone el prefijo contiguo más largo disponible y materializa un checkpoint reconstruido en artifacts/reassembled/. Luego se corre generación determinista y se registran tanto el texto producido como el tiempo de ejecución.

Parámetro	Valor
Modelo	HuggingFaceTB / SmolLM2-135M
Arquitectura	Decoder-only Transformer, configuración tipo LlamaForCausalLM
Número de capas	30
Prompt	`The capital of France is`
Modo de generación	Determinista, `do_sample=False`
Tokens nuevos máximos	24
Regla de reensamblaje	Reconstruir el prefijo contiguo más largo presente
Fragmentación	4 rangos contiguos a lo largo de las 30 capas

3.1 Plan de fragmentación

Índice	Nombre	Rango de capas	Número de capas	Incluye pesos base
0	fragment_00	0–7	8	Sí
1	fragment_01	8–15	8	No
2	fragment_02	16–22	7	No
3	fragment_03	23–29	7	No

[E] La decisión metodológica clave es usar prefijos contiguos y no subconjuntos arbitrarios de capas ni trozos de bytes. Sólo así la curva de degradación tiene interpretación funcional. Un prefijo de profundidad conserva el orden composicional del modelo; un conjunto aleatorio no implementa una versión “más pequeña” del mismo proceso, sino una función difícil de justificar teóricamente.

[M] Bajo esta formulación, cada checkpoint parcial puede entenderse como una versión del modelo donde el refinamiento iterativo de representaciones se detuvo temprano. Esto conecta de manera natural con Tuned Lens, Logit Lens y la literatura de early exit, sin confundir diagnóstico de capa con equivalencia funcional total.

4. Resultados experimentales

La corrida reportada produjo una recuperación completa en el checkpoint final y fallas estructuradas en los checkpoints parciales. El baseline del modelo completo generó una secuencia determinista concreta; el objetivo del reensamblaje fue verificar si esa misma secuencia reaparecía exactamente una vez restaurado el stack completo.

Baseline
Tiempo	3.23 s
Tokens generados	24
Coincidencia checkpoint final	Sí

the capital of the country.

The capital of France is the capital of the country.

The capital of

4.1 Salidas por checkpoint

Checkpoint	Capas activas	Rangos	Tiempo	Etiqueta	Salida observada
1/4	8	0–7	0.87 s	Repetition loop	`, and and, and, and, and, and, and, and, ...`
2/4	16	0–7, 8–15	1.59 s	Whitespace collapse	`[sólo espacios en blanco]`
3/4	23	0–7, 8–15, 16–22	1.26 s	Punctuation / repetition collapse	`. .` con fuerte degeneración
4/4	30	0–7, 8–15, 16–22, 23–29	1.46 s	Coherent	Coincide exactamente con el baseline

Coherencia observada vs profundidad activa

8 capas

Muy baja

16 capas

Colapso

23 capas

Parcial

30 capas

Baseline

Figura 2. Esquema cualitativo de coherencia observada. No es una métrica automática formal, sino una visualización del comportamiento registrado: repetición, colapso a espacios, colapso de puntuación y recuperación final.

[E] El dato experimental más fuerte es la recuperación exacta al restaurar las 30 capas. [M] Esto vuelve muy improbable que la degradación parcial se deba a corrupción de pesos o a errores de serialización no detectados, y apoya la interpretación de que la causa principal de los fallos parciales es la falta de profundidad suficiente, no la mutación del checkpoint.

5. Discusión

Los modos de fallo observados son consistentes con la literatura, aunque no están completamente tipificados por una sola fuente previa. Tuned Lens y Logit Lens sugieren que las predicciones intermedias se refinan capa a capa; Geva et al. describen a las FFN como actualizaciones aditivas que promueven conceptos en espacio de vocabulario. Early-exit papers como CALM, LayerSkip y FREE muestran que recortar profundidad puede ser viable, pero que la fidelidad temprana es frágil si no hay mecanismos específicos para sostenerla.

Checkpoint 1/4 · 8 capas Bucle de repetición

Interpretación plausible: el modelo conserva una dinámica local de continuación de tokens frecuentes, pero todavía no estabiliza una trayectoria semántica coherente.

Checkpoint 2/4 · 16 capas Colapso a espacios

Interpretación plausible: hay señal residual suficiente para mantener una salida formal válida, pero no la estructura semántica necesaria para sostener contenido lingüístico útil.

Checkpoint 3/4 · 23 capas Degeneración de puntuación

Interpretación plausible: parte del andamiaje lingüístico reaparece, pero la trayectoria de refinamiento aún no converge al comportamiento final del modelo completo.

Checkpoint 4/4 · 30 capas Recuperación exacta

La recomposición de los mismos bloques, en el mismo orden, restaura la función original bajo la configuración determinista empleada.

[E] La literatura previa apoya directamente que las predicciones de capas intermedias son decodificables y que truncar o saltarse capas puede degradar el comportamiento. [S] Lo que no estaba establecido de manera directa por una única fuente es una taxonomía de fallos concreta para prefijos contiguos en un modelo pequeño y público como SmolLM2-135M; ahí es donde este experimento aporta evidencia empírica propia.

También es útil separar este trabajo del diagnóstico de capas. El Logit Lens proyecta estados intermedios al vocabulario, pero eso no significa que esa proyección sea idéntica a correr un modelo truncado como función efectiva. Aquí se mide la conducta de un prefijo real del stack bajo generación autoregresiva, no sólo una lectura diagnóstica de activaciones.

6. Aporte y novedad frente al trabajo previo

[E] La literatura previa ya sustenta tres piezas importantes: (1) las predicciones intermedias contienen estructura parcialmente formada; (2) early exit y layer skipping son posibles pero sensibles; y (3) el particionamiento por capas es una abstracción estándar en sistemas. El valor distintivo de este trabajo no está en contradecir eso, sino en combinarlo bajo un protocolo diferente.

Perturbación experimental, no atajo de inferencia. La mayoría de métodos de early exit buscan mantener calidad con menos cómputo. Aquí el truncamiento se usa como perturbación controlada para mapear degradación, mientras que el reensamblaje funciona como prueba de identidad funcional.
Reensamblaje como caso identidad del stitching. En model stitching normalmente se aprende una capa de alineación entre redes distintas. En este trabajo la alineación es trivial: recomponer el mismo modelo consigo mismo. Eso convierte a la recuperación exacta en una prueba directa de invariancia conductual, más que en una comparación de compatibilidad entre representaciones heterogéneas.
Equivalencia conductual exacta sobre una abstracción de sistemas estándar. GPipe y FlexGen justifican el corte por capas como operación natural de ejecución. El aporte aquí es pedir una condición más fuerte que la usual: no sólo “misma tarea” o “pérdida similar”, sino coincidencia determinista token por token tras la recomposición completa.

[M] En ese sentido, el trabajo puede describirse como la introducción de una lente de invariancia conductual sobre una operación ya familiar para los sistemas de ML: particionar y recomponer un stack secuencial de capas.

7. Limitaciones

El estudio es deliberadamente estrecho. Usa un único prompt, una sola configuración determinista de generación y una única corrida principal reportada. Esto permite una lectura limpia del fenómeno, pero restringe el alcance de las conclusiones.

[E] No se reportan todavía métricas automáticas de calidad textual, sólo etiquetas humanas interpretables.
[E] No se cuantifica varianza temporal mediante múltiples repeticiones por checkpoint.
[E] No se explora aún el eje de tiempo de entrenamiento aprovechando checkpoints intermedios de SmolLM2-135M.
[M] Los modos de fallo observados podrían depender del prompt y del tipo de continuación solicitada.
[M] La equivalencia exacta puede ser sensible a detalles de implementación, backend numérico o diferencias de plataforma aun cuando los pesos sean idénticos.

8. Trabajo futuro

El conjunto de fuentes recopiladas por la revisión de literatura abre una agenda experimental bastante clara.

Explorar el eje entrenamiento × profundidad. Repetir el experimento sobre checkpoints intermedios de SmolLM2-135M para estudiar si la degradación por prefijos cambia a lo largo del aprendizaje.
Agregar métricas ligeras de calidad. Complementar las etiquetas humanas con medidas como repetitividad, diversidad léxica, entropía de salida o distancia respecto al baseline.
Hacer barridos de granularidad. Comparar divisiones 2/4/6 y quizá cortes capa-por-capa para observar dónde ocurre la transición hacia la recuperación funcional.
Analizar sensibilidad por token. FlexiDepth sugiere que distintos tipos de tokens exigen distinta profundidad; por tanto, convendría estudiar qué partes de una secuencia colapsan primero bajo truncamiento.
Conectar con diagnósticos de capa. Superponer resultados de prefijos reales con visualizaciones tipo Tuned Lens para comparar “lo que parece creer el modelo” con “lo que realmente produce cuando se trunca”.

Extensión natural. Un siguiente artículo podría formalizar una métrica de “emergencia de coherencia por profundidad” y estudiar su evolución no sólo dentro de un checkpoint, sino a lo largo de la trayectoria de entrenamiento publicada por SmolLM2.

Referencias

Bibliografía integrada a partir del mapa de literatura proporcionado por Deep Research. Las entradas se agrupan por función conceptual dentro del artículo.

SmolLM2 y artefactos del modelo

Ben Allal, L. et al. (2025). SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model. arXiv. arxiv.org/abs/2502.02737

HuggingFaceTB (2025). SmolLM2-135M Model Card. huggingface.co/HuggingFaceTB/SmolLM2-135M

HuggingFaceTB (2025). SmolLM2-135M config.json. configuración publicada

HuggingFaceTB (2025). SmolLM2-135M Intermediate Checkpoints Model Card. checkpoints intermedios

Predicciones intermedias y refinamiento por capas

Belrose, N. et al. (2023/2025). Eliciting Latent Predictions from Transformers with the Tuned Lens. arXiv. arxiv.org/abs/2303.08112

Geva, M. et al. (2022). Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space. EMNLP. aclanthology.org/2022.emnlp-main.3

nostalgebraist (2020). Interpreting GPT: the Logit Lens. LessWrong. lesswrong.com/.../the-logit-lens

Early exit, layer skipping y control de profundidad

Schuster, T. et al. (2022). Confident Adaptive Language Modeling (CALM). NeurIPS. arxiv.org/abs/2207.07061

Elhoushi, M. et al. (2024). LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding. arXiv. arxiv.org/abs/2404.16710

Bae, S. et al. (2023). Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding. EMNLP. aclanthology.org/2023.emnlp-main.362

Fan, A. et al. (2019). Reducing Transformer Depth on Demand with Structured Dropout. arXiv. arxiv.org/abs/1909.11556

Luo, X. et al. (2025). Adaptive Layer-skipping in Pre-trained LLMs (FlexiDepth). COLM. openreview.net/forum?id=Gu0XSax2YS

Stitching, modularidad y reensamblaje

Bansal, Y. et al. (2021). Revisiting Model Stitching to Compare Neural Representations. NeurIPS. NeurIPS 2021

Hernandez, A. et al. (2023). Model Stitching: Looking For Functional Similarity Between Representations. arXiv. arxiv.org/abs/2303.11277

Chen, A. et al. (2025). Transferring Linear Features Across Language Models With Model Stitching. NeurIPS / arXiv. arxiv.org/abs/2506.06609

Pan, Z. et al. (2023). Stitchable Neural Networks. CVPR. CVPR 2023

Yang, X. et al. (2022). Deep Model Reassembly. NeurIPS / arXiv. arxiv.org/abs/2210.17409

Particionamiento y ejecución distribuida

Huang, Y. et al. (2019). GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism. arXiv. arxiv.org/abs/1811.06965

Shoeybi, M. et al. (2019). Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv. arxiv.org/abs/1909.08053

Sheng, Y. et al. (2023). FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU. arXiv. arxiv.org/abs/2303.06865