JavaTutor IA - Dataset

Ingeniería de Datos

Ingeniería del Corpus Multimodal

Transformamos un legado digital de años de docencia en un dataset de alta fidelidad para el entrenamiento de LLMs.

Pipeline de Extracción de Vídeo

Procesamos los 218 vídeos del curso aplicando una pipeline de tres etapas para maximizar la recuperación de información. No solo usamos el audio; "vemos" el código que se escribe en pantalla.

Ver Playlist del Curso

Fuente original: JavaTutor Playlist (218 vídeos)

Audio

Whisper V3 Large (Audio)

Transcripción de alta precisión con diarización, ignorando ruido de fondo y pausas largas.

Visual

OCR + Análisis de Diseño Visual

Detección de cuadros delimitadores de código en pantalla. Extraemos el texto del IDE (NetBeans/IntelliJ) visible en el vídeo cada 5 segundos.

extracted_sample_v04.json Confianza: 98.4%

{

"video_id": "YT-Jv_021",

"timestamp": "14:23",

"transcription": "...y aquí vemos que el bucle while necesita una condición de salida...",

"visual_code_context": {

"snippet": "while(contador < 10) { System.out... }",

"ide_detected": "IntelliJ IDEA"

}

Especificación de Formato Simarro v2.1

¿Por qué el vídeo es vital?

La Ventaja Cognitiva

Modelado del "Proceso Mental"

A diferencia de un libro, un vídeo captura el proceso de razonamiento. La IA aprende no solo la solución, sino cómo el profesor aborda el error, prueba hipótesis y refina el código en tiempo real.

Tono y Pedagogía

El audio contiene matices críticos: énfasis en conceptos difíciles, pausas para reflexión y un tono alentador. Entrenamos al modelo para replicar esa empatía docente ante la frustración del alumno.

Contexto Rico

Cruzamos lo que se dice con lo que se escribe. Esta alineación multimodal permite a la IA entender referencias vagas como "fíjate en esta línea de aquí" basándose en el contexto visual del IDE.

Base de Conocimiento Estática

Digitalización del Legado

Ingesta Documental

Transformamos apuntes estáticos (PDF/PPTX) en conocimiento estructurado. No es solo OCR; es comprensión semántica del layout.

Potenciado por IBM Docling

Pipeline de Extracción

Jerarquía Semántica

Preservación estricta de H1-H6 y listas anidadas para mantener el contexto.

Reconstrucción Tabular

Conversión inteligente de tablas complejas a Markdown procesable por LLMs.

Visión de Diagramas

Descripción textual generativa de diagramas UML y esquemas E/R.

Síntesis Q&A

Banco de Exámenes Histórico

Convertimos 5 años de exámenes PDF en pares de entrenamiento sintético. No solo extraemos preguntas, sino que generamos el razonamiento lógico necesario para resolverlas.

Examen

Razonamiento

Minería de Código

Repositorios de Alumnos

Análisis estático de miles de proyectos para identificar los errores más comunes y los "training gaps" (conceptos mal entendidos) del alumnado.

NullPointerExceptions 34% Frecuencia

Infinite Loops 12% Frecuencia

Gobernanza de Datos Zero-Trust

Privacidad y Sanitización del Dato

Aplicamos un pipeline de limpieza estricto para garantizar que el dataset final sea 100% anónimo y de máxima calidad pedagógica, eliminando ruido y redundancia antes del entrenamiento.

Sanitización PII (NER)

Uso de modelos BERT-Large-NER para detectar y reemplazar entidades sensibles (Nombres, DNI, Emails).

Autor: [ID_ANONIMIZADO_84]

Dedup Semántica (MinHash)

Eliminación de redundancia agresiva. Si 50 entregas de "Hola Mundo" son idénticas, conservamos solo una instancia canónica.

85% de Reducción

Puerta de Calidad (Linter)

Pipeline de CI/CD que rechaza código que no compila (Maven Build) o carece de Javadoc.

Sintaxis Validada
Complejidad Ciclomática < 15