Ingeniería del Corpus Multimodal
Transformamos un legado digital de años de docencia en un dataset de alta fidelidad para el entrenamiento de LLMs.
Pipeline de Extracción de Vídeo
Procesamos los 218 vídeos del curso aplicando una pipeline de tres etapas para maximizar la recuperación de información. No solo usamos el audio; "vemos" el código que se escribe en pantalla.
Fuente original: JavaTutor Playlist (218 vídeos)
Whisper V3 Large (Audio)
Transcripción de alta precisión con diarización, ignorando ruido de fondo y pausas largas.
OCR + Análisis de Diseño Visual
Detección de cuadros delimitadores de código en pantalla. Extraemos el texto del IDE (NetBeans/IntelliJ) visible en el vídeo cada 5 segundos.
La Ventaja Cognitiva
Modelado del "Proceso Mental"
A diferencia de un libro, un vídeo captura el proceso de razonamiento. La IA aprende no solo la solución, sino cómo el profesor aborda el error, prueba hipótesis y refina el código en tiempo real.
Tono y Pedagogía
El audio contiene matices críticos: énfasis en conceptos difíciles, pausas para reflexión y un tono alentador. Entrenamos al modelo para replicar esa empatía docente ante la frustración del alumno.
Contexto Rico
Cruzamos lo que se dice con lo que se escribe. Esta alineación multimodal permite a la IA entender referencias vagas como "fíjate en esta línea de aquí" basándose en el contexto visual del IDE.
Digitalización del Legado
Ingesta Documental
Transformamos apuntes estáticos (PDF/PPTX) en conocimiento estructurado. No es solo OCR; es comprensión semántica del layout.
Jerarquía Semántica
Preservación estricta de H1-H6 y listas anidadas para mantener el contexto.
Reconstrucción Tabular
Conversión inteligente de tablas complejas a Markdown procesable por LLMs.
Visión de Diagramas
Descripción textual generativa de diagramas UML y esquemas E/R.
Banco de Exámenes Histórico
Convertimos 5 años de exámenes PDF en pares de entrenamiento sintético. No solo extraemos preguntas, sino que generamos el razonamiento lógico necesario para resolverlas.
Repositorios de Alumnos
Análisis estático de miles de proyectos para identificar los errores más comunes y los "training gaps" (conceptos mal entendidos) del alumnado.
Privacidad y Sanitización del Dato
Aplicamos un pipeline de limpieza estricto para garantizar que el dataset final sea 100% anónimo y de máxima calidad pedagógica, eliminando ruido y redundancia antes del entrenamiento.
Sanitización PII (NER)
Uso de modelos BERT-Large-NER para detectar y reemplazar entidades sensibles (Nombres, DNI, Emails).
Dedup Semántica (MinHash)
Eliminación de redundancia agresiva. Si 50 entregas de "Hola Mundo" son idénticas, conservamos solo una instancia canónica.
Puerta de Calidad (Linter)
Pipeline de CI/CD que rechaza código que no compila (Maven Build) o carece de Javadoc.
- Sintaxis Validada
- Complejidad Ciclomática < 15