Marcos Soto | AI Engineer, Speaker & PhD Researcher

About

AI Engineer & ML Engineering Manager.

Trabajo en la intersección entre sistemas de IA en producción, modelos de lenguaje, observabilidad, small models y aplicaciones industriales y HealthTech.

Soy ingeniero de sistemas, ML Engineering Manager y estudiante de doctorado en Data Science. Mi trabajo combina experiencia en entornos industriales y de producto con foco en machine learning, MLOps, LLM systems, evaluación y puesta en producción.

Me interesa especialmente el punto donde una demo deja de ser suficiente y aparecen los problemas reales: calidad de datos, trazabilidad, costo, latencia, seguridad, privacidad y mantenibilidad. En los últimos años trabajé en proyectos de IA aplicada para finanzas, asset management, industria, producto digital y salud.

I work at the intersection of production AI systems, language models, observability, small models and industrial and HealthTech applications.

I'm a systems engineer, ML Engineering Manager, and PhD student in Data Science. My work combines experience across industrial and product environments with a focus on machine learning, MLOps, LLM systems, evaluation, and production deployment.

I'm particularly interested in the point where a demo is no longer enough and real problems emerge: data quality, traceability, cost, latency, security, privacy, and maintainability. In recent years I've worked on applied AI projects across finance, asset management, industry, digital product, and healthcare.

Ciudad:City: Neuquén, Argentina
Email: marcos.esteban.soto@gmail.com

Formación:Education: PhD en Data Science (en curso) · MBA Internacional · Master en Big Data & BI · Ingeniero en Sistemas PhD in Data Science (in progress) · International MBA · Master in Big Data & BI · Systems Engineer

Áreas de foco:Focus areas: producción de IA · LLM systems · evaluation/observability · small language models · agentic RAG · industrial AI · healthcare AI production AI · LLM systems · evaluation/observability · small language models · agentic RAG · industrial AI · healthcare AI

Stack: Python · PyTorch · AWS/Azure/GCP · Terraform · Docker · FastAPI · Dataiku · Databricks

Talks

Charlas sobre IA en producción, LLM systems y research aplicada. Disponibles en español e inglés, en formato keynote, panel o charla técnica. Talks on production AI, LLM systems and applied research. Available in Spanish and English, as keynotes, panels or technical sessions.

Keynote · Panel · TécnicaKeynote · Panel · Technical 20 / 30 / 45 min ES · EN

Desafíos de la puesta en producción: del concepto al producto en IA Production challenges: from concept to product in AI

Muchas iniciativas de IA funcionan bien como demo, pero cambian por completo cuando entran en producción. En esta charla recorro los desafíos que aparecen al convertir una idea prometedora en un sistema útil: calidad y trazabilidad de datos, evaluaciones reales, observabilidad, escalabilidad, costos, expectativas de negocio y viabilidad técnica.

Audiencia: equipos de ingeniería, líderes técnicos, equipos de producto con iniciativas de IA en curso.

Many AI initiatives look great as demos but change completely once they hit production. In this talk I walk through the challenges of turning a promising idea into a useful system: data quality and traceability, real evaluation, observability, scalability, cost, business expectations, and technical viability.

Audience: engineering teams, technical leaders, and product teams with ongoing AI initiatives.

Ver detalles →View details →

TécnicaTechnical 20 / 30 / 45 min ES · EN

Del razonamiento de frontera al despliegue local: cómo destilar un modelo de lenguaje para un caso real From frontier reasoning to local deployment: distilling a language model for a real use case

¿Realmente necesitás un modelo grande y costoso para cada caso de uso? En esta charla presento un caso práctico de destilación y fine-tuning donde partí de razonamiento de alta capacidad para especializar un modelo pequeño, ejecutable de forma local, con foco en costo, latencia, privacidad y mantenibilidad.

Audiencia: ingenieros de ML, equipos de producto, organizaciones que evalúan reducir dependencia de APIs externas.

Do you really need a big expensive model for every use case? This talk walks through a practical distillation and fine-tuning case, starting from high-capacity reasoning to specialize a small, locally-deployable model — with a focus on cost, latency, privacy, and maintainability.

Audience: ML engineers, product teams, organizations looking to reduce reliance on external APIs.

Ver detalles →View details →

¿Organizás un evento o una charla para tu equipo? Escribime con el tema, audiencia y formato. Organizing an event or internal talk? Get in touch with topic, audience and format.

Writing

Escribo sobre el punto de encuentro entre investigación aplicada, sistemas de IA y problemas de producto reales. Mis textos giran alrededor de cuatro ejes: producción de IA, LLM systems, industrial AI y frameworks de trabajo. I write about the intersection of applied research, AI systems, and real product problems. My writing centers on four axes: production AI, LLM systems, industrial AI, and working frameworks.

LLM Systems · ProducciónLLM Systems · Production

Observabilidad en producción de sistemas LLM Observability for LLM systems in production

Qué medir, cómo trazarlo y por qué la observabilidad de un sistema de lenguaje es un problema diferente al de la observabilidad clásica de software. What to measure, how to trace it, and why observability for language systems is a different problem from classical software observability.

Leer →Read →

Small Models · Despliegue localSmall Models · Local deployment

Distilling an SLM in Minutes: del razonamiento de frontera al despliegue local Distilling an SLM in Minutes: from frontier reasoning to local deployment

Un pipeline práctico teacher-student con Qwen 2.5 0.5B: fine-tuning en menos de dos minutos, despliegue local y razonamiento clínico estructurado sin APIs externas. A practical teacher-student pipeline with Qwen 2.5 0.5B: fine-tuning in under two minutes, local deployment, and structured clinical reasoning without external APIs.

Leer →Read →

Industrial AI · TelemetríaIndustrial AI · Telemetry

Smart Sampling Strategies for Wireless Industrial Data Acquisition

Cómo diseñar estrategias de muestreo inteligente para reducir costo de transmisión y almacenamiento en entornos industriales sin perder fidelidad de señal. How to design smart sampling strategies to reduce transmission and storage cost in industrial environments without losing signal fidelity.

Leer en arXiv →Read on arXiv →

Frameworks · GenAIFrameworks · GenAI

Systematic Framework for Generative AI Project Planning

Un marco de trabajo para planificar proyectos de IA generativa con criterios de viabilidad, alcance, evaluación y criterios de adopción antes de comprometer recursos. A framework for planning generative AI projects with feasibility, scope, evaluation, and adoption criteria before committing resources.

Leer →Read →

Small Models · CostoSmall Models · Cost

Optimizing an LLM Classification Task with BERT + XGBoost

Caso aplicado donde una tarea inicialmente resuelta con LLMs evoluciona hacia un pipeline especializado con BERT y XGBoost, reduciendo dependencia, costo y latencia a medida que el sistema acumula datos. An applied case where a task initially solved with LLMs evolves into a specialized BERT and XGBoost pipeline, reducing dependency, cost, and latency as the system accumulates data.

Leer →Read →

Research

Mi trabajo de investigación se mueve entre machine learning aplicado, adquisición de datos industriales, detección de anomalías y sistemas basados en modelos de lenguaje. Actualmente desarrollo investigación doctoral en Data Science en Universidad Loyola. My research sits between applied machine learning, industrial data acquisition, anomaly detection, and language-model-based systems. I'm currently pursuing doctoral research in Data Science at Universidad Loyola.

Paper · Zenodo · 2025

Agentic Retrieval-Augmented Generation for Industrial Anomaly Detection

Arquitectura agentic RAG para detección de anomalías en entornos industriales, combinando recuperación de contexto y razonamiento autónomo. Agentic RAG architecture for anomaly detection in industrial environments, combining context retrieval and autonomous reasoning.

Ver paper →View paper →

Paper · arXiv · 2025

Smart Sampling Strategies for Wireless Industrial Data Acquisition

Estrategias de muestreo adaptativo para adquisición inalámbrica de datos industriales, reduciendo carga de transmisión sin pérdida de información relevante. Adaptive sampling strategies for wireless industrial data acquisition, reducing transmission load without losing relevant information.

Ver en arXiv →View on arXiv →

Technical Paper · ResearchGate · 2025

Argos: Qubika's Financial AI System

Diseño e implementación de un asistente financiero con arquitectura agentic RAG, bases vectoriales, conocimiento de negocio y evaluación del flujo para operar con mayor trazabilidad y reducir respuestas no fundamentadas. Design and implementation of a financial assistant with an agentic RAG architecture, vector databases, business knowledge, and flow-level evaluation to improve traceability and reduce unsupported answers.

Ver paper →View paper →

Paper · ResearchGate · 2025

Machine Learning-based Control Techniques versus Traditional PID Controllers

Revisión sistemática comparando técnicas de control basadas en ML frente a esquemas PID clásicos en sistemas de control industrial. A systematic review comparing ML-based control techniques against classical PID schemes in industrial control systems.

Ver en ResearchGate →View on ResearchGate →

Conference Paper · ADIPEC 2019 · SPE-197583-MS

Field Testing an Accurate, Non-nuclear, Inline Wet Gas Multiphase Meter

Co-autor de paper presentado en ADIPEC 2019 sobre medición multifásica de gas húmedo sin fuentes nucleares. Co-author of a paper presented at ADIPEC 2019 on non-nuclear wet-gas multiphase measurement.

Ver paper →View paper →

Perfiles académicos:Academic profiles:

ResearchGate ORCID GitHub

Projects

Capacidades y áreas de trabajo aplicado. No una lista exhaustiva, sino las líneas que definen cómo abordo problemas reales. Capabilities and areas of applied work. Not an exhaustive list, but the lines that define how I approach real problems.

LLM Systems en producciónLLM Systems in production

Diseño de arquitecturas con foco en evaluación, observabilidad, costo y trazabilidad. Especialmente en escenarios donde una PoC tiene que convertirse en producto: pipelines de RAG, guardrails, evaluación continua y CI/CD para prompts. Architecture design focused on evaluation, observability, cost, and traceability — especially for scenarios where a PoC must become a product: RAG pipelines, guardrails, continuous evaluation, and CI/CD for prompts.

Distillation y small modelsDistillation and small models

Especialización de modelos más pequeños para ganar velocidad, privacidad y control operacional. Casos de teacher-student, fine-tuning con datos sintéticos y despliegue local sin depender de frontier models ni APIs externas. Specializing smaller models to gain speed, privacy, and operational control. Teacher-student setups, fine-tuning with synthetic data, and local deployment without relying on frontier models or external APIs.

Industrial AI y telemetríaIndustrial AI and telemetry

Trabajo aplicado sobre adquisición de datos, sampling eficiente, detección de anomalías y modelado en contextos industriales. Base en entornos de campo con tolerancia a fallas, constraints físicos y evidencia empírica antes de escalar. Applied work on data acquisition, efficient sampling, anomaly detection, and modeling in industrial contexts. Grounded in field environments with fault tolerance, physical constraints, and empirical evidence before scaling.

AI para HealthTech y entornos sensiblesAI for HealthTech and sensitive environments

Implementaciones con foco en seguridad, privacidad, estructura de salida y validación. Conversaciones técnicas sobre cómo operar IA en sectores donde el error tiene consecuencias reales: salud, finanzas y peritaje judicial. Implementations focused on security, privacy, structured output, and validation. Technical conversations on operating AI in sectors where errors have real consequences: healthcare, finance, and forensic expert work.

Experience

TrayectoriaCareer

ML Engineering Manager

Mayo 2025 – PresenteMay 2025 – Present

Xmartlabs · Remote (US & Uruguay)

Liderazgo del equipo de ML Engineers, diseño de soluciones estratégicas de IA y estándares de excelencia técnica.
Coordinación con clientes, optimización de pipelines MLOps y prácticas CI/CD.
Mentoring, workshops técnicos y procesos de hiring.

Leading the ML Engineers team, designing strategic AI solutions and setting technical excellence standards.
Coordinating with clients, optimizing MLOps pipelines and CI/CD practices.
Mentoring, technical workshops and hiring processes.

Lead Sr. ML Engineer · Data Expert I

Enero 2024 – Mayo 2025January 2024 – May 2025

Qubika · Remote (US)

Excelencia técnica en proyectos Data & AI para clientes como Bayview y Harvard Management Company.
Liderazgo técnico de una arquitectura agentic AI para un cliente de asset management: RAG, bases vectoriales, lakehouse en Databricks, métricas de observabilidad y evaluación durante el flujo para mitigar alucinaciones.
Transición de componentes basados en LLM hacia modelos especializados in-house, incluyendo BERT + XGBoost para clasificación eficiente cuando el volumen de datos lo permitió.
Entrevistas técnicas, mentoring de MLEs y workshops internos.

Technical excellence in Data & AI projects for clients like Bayview and Harvard Management Company.
Technical leadership for an agentic AI architecture for an asset-management client: RAG, vector databases, Databricks lakehouse, observability metrics, and in-flow evaluation to mitigate hallucinations.
Transitioned LLM-based components into specialized in-house models, including BERT + XGBoost for efficient classification once enough data was available.
Technical interviews, MLE mentoring, and internal workshops.

Sr. Machine Learning Engineer

Abril 2022 – Enero 2024April 2022 – January 2024

Konfio · Remote (MéxicoMexico)

Investigación y desarrollo de modelos batch y real-time.
Infraestructura con Terraform y AWS; templates reutilizables para ML en producción.

Research and development of batch and real-time models.
Infrastructure with Terraform and AWS; reusable templates for ML in production.

Sr. Machine Learning Engineer

2021 – 2022

Prisma Medios de Pagos · Buenos Aires, Argentina

Implementación de modelos ML en AWS SageMaker.

Deployed ML models on AWS SageMaker.

Field Operations Engineer III

2013 – 2021

Weatherford International · Argentina, Bolivia, BrasilBrazil, Chile

Liderazgo técnico en operaciones de campo, medición de flujo y Well Testing.
Ingenieria de Datos en servicios de Adquisición y Procesamiento de datos de pozos.
Automatizacion de Separadores con sistemas SCADA.
Desarrollo de modelos ML para grandes volúmenes de datos de campo.

Technical leadership in field, flow measurement and well testing operations.
Data Engineering in acquisition and processing of well data.
Automation of Separators with SCADA systems.
Development of ML models for large volumes of field data.

EducaciónEducation

PhD en Data SciencePhD in Data Science

2023 – PresentePresent

Universidad Loyola

MBA InternacionalInternational MBA

2021

MCA Business & Postgraduate School

Master en Big Data & Business IntelligenceMaster in Big Data & Business Intelligence

2019 – 2020

ENEB School of Business, Barcelona

Ingeniería en SistemasBachelor in Systems Engineering

2013 – 2019

UnDef – Universidad de la Defensa Nacional, Córdoba

DocenciaTeaching

Professor & Development Manager

Abril – Agosto 2022April – August 2022

ITBA Escuela de Innovación, Neuquén

Curso FullStack: HTML, CSS, JS, Python, SQL y Django.

FullStack course: HTML, CSS, JS, Python, SQL and Django.

ConsultoríaConsulting

AI Consultant & Computer Expert

Noviembre 2019 – PresenteNovember 2019 – Present

Registro Superior Tribunal de Justicia, NeuquénSuperior Court of Justice Registry, Neuquén

Peritajes forenses, análisis de evidencia digital, consultoría de arquitectura cloud (AWS, Azure, GCP).

Forensic expertise, digital evidence analysis, cloud architecture consulting (AWS, Azure, GCP).

Contact

Si organizás un evento, una charla para equipo interno, una conversación técnica o una colaboración entre industria y academia, escribime. Lo ideal es incluir tres cosas en el mensaje: tema, audiencia y formato. If you're organizing an event, an internal team talk, a technical conversation, or a collaboration between industry and academia, get in touch. Please include three things in your message: topic, audience, and format.

marcos.esteban.soto@gmail.com

linkedin.com/in/marcosesoto

github.com/marcosdh1987

ORCID: 0009-0000-5787-5965

ResearchGate: Marcos-Soto-3

Para organizadores de eventosFor event organizers

Hablo sobre IA en producción, LLM systems, small models y research aplicada. Disponible en español e inglés, en formato keynote, panel o charla técnica de 20 a 45 minutos.

Para revisar el detalle de cada charla antes de escribir, visitá la sección Talks.

I speak on production AI, LLM systems, small models, and applied research. Available in Spanish and English, as keynotes, panels, or technical talks from 20 to 45 minutes.

To review each talk in detail before reaching out, visit the Talks section.

Marcos Esteban Soto

About

AI Engineer & ML Engineering Manager.

Talks

Desafíos de la puesta en producción: del concepto al producto en IA Production challenges: from concept to product in AI

Del razonamiento de frontera al despliegue local: cómo destilar un modelo de lenguaje para un caso real From frontier reasoning to local deployment: distilling a language model for a real use case

Writing

Observabilidad en producción de sistemas LLM Observability for LLM systems in production

Distilling an SLM in Minutes: del razonamiento de frontera al despliegue local Distilling an SLM in Minutes: from frontier reasoning to local deployment

Smart Sampling Strategies for Wireless Industrial Data Acquisition

Systematic Framework for Generative AI Project Planning

Optimizing an LLM Classification Task with BERT + XGBoost

Research

Agentic Retrieval-Augmented Generation for Industrial Anomaly Detection

Smart Sampling Strategies for Wireless Industrial Data Acquisition

Argos: Qubika's Financial AI System

Machine Learning-based Control Techniques versus Traditional PID Controllers

Field Testing an Accurate, Non-nuclear, Inline Wet Gas Multiphase Meter

Projects

LLM Systems en producciónLLM Systems in production

Distillation y small modelsDistillation and small models

Industrial AI y telemetríaIndustrial AI and telemetry

AI para HealthTech y entornos sensiblesAI for HealthTech and sensitive environments

Experience

TrayectoriaCareer

ML Engineering Manager

Mayo 2025 – PresenteMay 2025 – Present

Lead Sr. ML Engineer · Data Expert I

Enero 2024 – Mayo 2025January 2024 – May 2025

Sr. Machine Learning Engineer

Abril 2022 – Enero 2024April 2022 – January 2024

Sr. Machine Learning Engineer

2021 – 2022

Field Operations Engineer III

2013 – 2021

EducaciónEducation

PhD en Data SciencePhD in Data Science

2023 – PresentePresent

MBA InternacionalInternational MBA

2021

Master en Big Data & Business IntelligenceMaster in Big Data & Business Intelligence

2019 – 2020

Ingeniería en SistemasBachelor in Systems Engineering

2013 – 2019

DocenciaTeaching

Professor & Development Manager

Abril – Agosto 2022April – August 2022

ConsultoríaConsulting

AI Consultant & Computer Expert

Noviembre 2019 – PresenteNovember 2019 – Present

Contact

Para organizadores de eventosFor event organizers