lunes, 28 de septiembre de 2015

Aprendiendo informática: OCR - Resultados SubRip

Realizadas las pruebas de SubRip, esto es lo que ha ocurrido.

Lo primero, he decidido reducir el numero que figura en "Update every" a 1. Esto hace que aumente el numero de frames que se examinan, asi que los resultados son (supuestamente) correctos frame a frame. Digo "supuestamente" porque en realidad ni una sola de las lineas coincide 100% en cuanto a la temporización, aunque son bastante similares.

Tuve un pequeño contratiempo, marqué erroneamente una b como una d, con lo que tuve que modificar la matriz y volver a empezar, pero afortunadamente lo detecte pronto y como ya tenía la matriz iniciada fue cosa de unos segundos continuar con el proceso. Resuelto el tema, seguí con el analisis.

Otro fallo que tuve fue a la hora de crear el recuadro. Me quedé corto en las lineas de los pangramas, con lo que quedaron fuera un par de letras. Dado que es un fallo achacable a mi y no al programa, las he agregado a mano como si el programa las hubiera localizado correctamente.

El tiempo que he tardado es de aproximadamente 30-40 minutos, con lo que estoy bastante satisfecho. Obviamente, que el tiempo sea 10 veces el tiempo real es incómodo. ¡Serían 10 horas para transcribir un video de 1 hora!

La calidad de la transcripción es muy buena, tanto que me ha sorprendido. No ha fallado en ninguna de las trampas que he puesto. De hecho, tampoco me ha pedido que se las corrigiera, ni siquiera ha dudado.

Lo que si he detectado han sido lineas omitidas por completo y alguna duplicada, pero no se aleja demasiado de lo aceptable. Como os digo, pensaba que sería peor.

Ahora, los resultados "oficiales":

Lo primero, los subtítulos "tal cual" salen del programa: https://app.box.com/s/jptxl263lbymavegtff3rlif77mofcgi

Ahora, una combinación de ambos subtítulos, el original en la parte superior de la pantalla y la versión resultante en la parte inferior. Eso os permitirá comprobarlo por vosotros mismos: https://app.box.com/s/kghpl7opjueuas6bm6fr2v2mc55omgcx

Por último, la matriz de caracteres resultante, por si quereis ver como funciona sin tener que pasar los 40 minutos: https://app.box.com/s/txf163wjg93pffce9fgec90bdwhbk6av

La siguiente entrega, con AviSubDetector. Un saludo.

No hay comentarios:

Publicar un comentario