JuanmaVAD: evaluación y uso en transcripciones de video

Haz clic aquí para ver los resultados del proyecto

Transcripciones de video

"Synchronized visual and/or text alternative for both speech and non-speech audio information needed to understand the media content" - WCAG

¿Porqué hacer transcripciones de video?

Por al menos tres razones:

1. Para hacer contenido más accesible

Lograr que personas con sordera puedan consumir el material generado

No incluir transcripciones es discriminar al 15% de la población mundial (fuente: 7 billion actions)
Seguir ejemplo del SIBDI al ofrecer contenido accesible (JAWS, impresoras braile, audiolibros)
Personas sanas también sufren sordera temporal:
- Al consumir video en entornos ruidosos (e.g. bus, comedor)
- Al deteriorarse la calidad del audio (e.g. audio capturados con malos instrumentos, pocas muestras, mala conexión a internet)

Mitigar el deterioro auditivo que se adquiere con la edad

Quejas más comunes de adultos mayores (fuente: Takayuki Ito):

Conversaciones son muy rápidas y difíciles de entender
Frecuencias altas son inaudibles
Ruido de fondo afecta más que antes la capacidad de concentrarse

"Costa Rica urge de acciones ante el envejecimiento de su población" (CRHoy, 2014)
"Costa Rica resentirá en 8 años envejecimiento de su fuerza productiva" (La Nación, 2014)
"Estudio identifica afecto positivo alto en costarricenses con envejecimiento saludable" (UCR, 2015)

2. Para alcanzar mayor visibilidad (o ranking)

Aprovechar la habilidad de los motores de búsqueda de texto para sugerir videos

Correspondencias en busquedas de texto se traduce en más descargas (fuente: 3Play Media)
Ejemplo TV News Archive (Internet Archive)

Facilitar que usuarios con bajo ancho de banda puedan previsualizar el contenido sin bajarlo

Planes móbiles cobran por tamaño de la descarga
Hacer posible encontrar video deseado a la primera vez, usando transcripciones

3. Para evitar sanciones legales

1.2.1 WCAG y Sección 508 en EEUU

El gobierno obliga a toda universidad, agencia y ONG a ofrecer contenido accesible
Se realiza un enorme esfuerzo (tiempo, personal, dinero) para desarrollar sitios web accesibles
Esfuerzo incluye pagar auditorías a compañías como Webaim o Paciello

Ley 7600 y 8661 en Costa Rica

Legislación se está endureciendo en el país
"Costa Rica les falla a las personas con discapacidad" (La Nación, Opinión 2013).

Criterio de aceptación	Recomendación de Paciello
1.2.1 Prerecorded Audio-only and Video-only (Level A)	A descriptive text transcript (including all relevant visual and auditory clues and indicators) is provided for non-live, web-based audio (audio podcasts, MP3 files, etc.). A text or audio description is provided for non-live, web-based video-only (e.g., video that has no audio track).
1.2.2 Captions (Prerecorded) (Level A)	Synchronized captions are provided for non-live, web-based video (YouTube videos, etc.)
1.2.3 Audio Description or Media Alternative (Prerecorded) (Level A)	A descriptive text transcript OR audio description audio track is provided for non-live, web-based video

¿Cómo pueden beneficiar las transcripciones a la docencia en la UCR?

METICS recibe apoyo para la creación de MOOCs (Massive Open Online Courses)

Proyecto a cargo de la Vicerrectoría de docencia de la UCR
"UCR lanza nueva plataforma para cursos virtuales a cargo de METICS" (UCR, 2015)
"METICS abrirá más de 500 cupos para formar docentes en el 2015" (UCR, 2015)

No todo el material creado por los docentes es accesible, visible y acorde con la legislación sobre accesibilidad

De nada sirve tener el mejor material del mundo si no se puede consumir!

Evaluación de algunos videos

Video original rescatado de Youtube

Observaciones: subtítulos no corresponden a monólogo, no se usó un diccionario especializado en el algoritmo de reconocimiento de voz, sin embargo fue útil usar YouTube para obtener un script con segmentos de voz (fuente: Arturocamachoclases YouTube, 10/11/15).

¿Cómo obtener transcripciones de video?

Usar servicios web de transcripción automática (YouTube, Vimeo)
Usar software de reconocimiento de voz, e.g. Neto Dragon Natural Speaking

Para tener buenos resultados hay que entrenar software previamente
Solo funcionan con el hablante del entrenamiento

Contratar a terceros (~$1 por minuto)
Hacerlo uno mismo usando software especializado (e.g. MAGpie, dotSUB)

Ejemplo WebVTT (.vtt)


			2 

			00:00:07.038 --> 00:00:08.617 

			pero si le conviene 

			 

			3 

			00:00:08.959 --> 00:00:12.011 

			es esta fórmula que exista acá

Otros formatos incluyen: Time Text Markup Language (.TTML) ~ XML o SubRip text (.srt)

¿Es posible prescindir de herramientas ajenas?

1. Para crear transcripciones:

El tener el script con inicios/finales de voz ya es la mitad del trabajo en el proceso de transcripción
No hace falta subir videos a hosting externo para obtener esos archivos
Se puede usar un algoritmo de reconocimiento de voz (VAD) localmente:

e.g. Detección de voces y otros ruidos en ambientes de trabajo y estudio. Fonseca-Solís, J. M. (juanmaVAD)

2. Para hacer pruebas de calidad:

Transcripciones son verificadas manualmente y de forma aleatoria

No tiene sentido si se puede lograr de forma automática y exhaustiva

Hay que ofrecer prueba para reconocer voz "in vivo" (vs. "in vitro")

Esperar voz en los momentos donde hay transcripciones, sino fallar caso de prueba
Ofrecer prueba de UI complementaria a Selenium en Visual Studio

Objetivos a desarrollar

Objetivo general: evaluar la calidad del VAD propuesto en el JOCICI2015 como herramienta para la creación y verificación de transcripciones

Hipótesis nula: algoritmo no es apto como herramienta de transcripción a menos que la precisión y exactitud para reconocer voz sea mayor del 80%
Estrategia: recopilar colección de videos de TedX y evaluar que tan bien predice los momentos de voz el juanmaVAD

Ventajas: transcripciones ya están hechas, no hay problemas de licencia

Objetivos específicos:

Recopilar colección de videos y sus metadatos
Implementar una versión completa del algoritmo juanmaVAD en algún lenguaje

Actual: Python, deseable: javascript
Incorporar autómata para descartar golpes aislados

Redactar caso de prueba para evaluar juanmaVAD con colección de videos

Procesar videos de antemano y guardar segmentos detectados

Comparar segmentos detectados con transcripciones originales y calcular las métricas deseadas
Investigar formas de ofrecer juanmaVAD como librería de pruebas, en caso de resultar exitoso

Métricas a calcular

Exactitud: de todas las predicciones positivas y negativas hechas, cuántas fueron correctas [Wikipedia 2015]
Precisión: de todos las predicciones positivas hechas, cuántas fueron ciertas [Wikipedia 2015]

$$Exactitud = \frac{\text{verdaderos positivos} + \text{verdaderos negativos}}{\text{verdaderos positivos} + \text{verdaderos negativos} + \text{falsos positivos} + \text{falsos negativos}}$$ $$Precisión = \frac{\text{verdaderos positivos}}{\text{verdaderos positivos} + \text{falsos positivos}}$$

Audio Web Api

Y se hizo la magnitud del espectro!

2015 Fonseca-Solís J.M. <https://www.linkedin.com/in/juan-m-fonseca-solis/>