TécnicaTechnical 20 / 30 / 45 min Español · English

Del razonamiento de frontera al despliegue local: cómo destilar un modelo de lenguaje para un caso real

From frontier reasoning to local deployment: distilling a language model for a real use case

Sobre la charlaAbout the talk

¿Realmente necesitás un modelo grande y costoso para cada caso de uso? En esta charla presento un caso práctico de destilación y fine-tuning donde partí de razonamiento de alta capacidad para especializar un modelo pequeño, ejecutable de forma local, con foco en costo, latencia, privacidad y mantenibilidad.

Recorro la arquitectura teacher-student, la importancia de la curación de datos sintéticos, el rol del formato estructurado como "cognitive scaffold" y las lecciones que aparecen cuando querés pasar de un experimento interesante a un sistema útil. El caso base usa Qwen 2.5 0.5B con entrenamiento en menos de dos minutos para razonamiento clínico estructurado.

Do you really need a large, expensive model for every use case? In this talk I present a practical distillation and fine-tuning case study, starting from high-capability reasoning to specialize a small model that runs locally — with a focus on cost, latency, privacy and maintainability.

I walk through the teacher-student architecture, the importance of curating synthetic data, the role of structured formatting as a "cognitive scaffold," and the lessons that emerge when moving from an interesting experiment to a useful system. The base case uses Qwen 2.5 0.5B trained in under two minutes for structured clinical reasoning.

Temas que cubreTopics covered

  • Cuándo un modelo grande NO es necesario — y cuándo sí lo es
  • Arquitectura teacher-student: qué destila el alumno del maestro
  • Generación y curación de datos de entrenamiento sintéticos
  • Fine-tuning eficiente: QLoRA, PEFT y entrenamiento en minutos
  • Despliegue local con Ollama u otros runtimes ligeros
  • Trade-offs reales: calidad, costo, latencia, privacidad y control
  • Formato estructurado como forma de razonamiento guiado
  • De experimento a sistema: checklist de producción para small models
  • When a large model is NOT needed — and when it is
  • Teacher-student architecture: what the student distills from the teacher
  • Generating and curating synthetic training data
  • Efficient fine-tuning: QLoRA, PEFT and training in minutes
  • Local deployment with Ollama and other lightweight runtimes
  • Real trade-offs: quality, cost, latency, privacy and control
  • Structured formatting as a form of guided reasoning
  • From experiment to system: a production checklist for small models

Formatos disponiblesAvailable formats

Keynote

30–45 min · Presentación con demo en vivo o grabada. Ideal para conferencias de ML/AI.

30–45 min · Presentation with live or recorded demo. Ideal for ML/AI conferences.

Charla técnicaTechnical talk

20–30 min · Densa en código y métricas. Ideal para meetups de ML, MLOps y LLM engineering.

20–30 min · Dense in code and metrics. Ideal for ML, MLOps and LLM engineering meetups.

Workshop-lite

45–60 min · Presentación más ejercicio de análisis en grupo. Para equipos que evalúan adoptar este enfoque.

45–60 min · Presentation plus group analysis exercise. For teams evaluating this approach.

Audiencia idealIdeal audience

ML Engineers y AI Engineers · Equipos que quieren reducir dependencia de APIs de terceros · Organizaciones con restricciones de privacidad o latencia · Investigadores en NLP y small models · CTOs y líderes técnicos evaluando costos de inference.

ML and AI Engineers · Teams looking to reduce dependency on third-party APIs · Organizations with privacy or latency constraints · NLP and small-model researchers · CTOs and technical leaders evaluating inference cost.