sábado, 19 de septiembre de 2015

Aprendiendo informática: OCR - Parte 2, Conceptos

Hoy quiero que veais un par de detalles interesantes acerca de los subtítulos, los tipos de letra y la imagen.

El primer concepto que quiero enseñaros es el de "tipo de letra monoespaciado". Veamos este ejemplo gráfico.



He empleado dos tipos de letra (fuentes). En la parte superior, el tipo Arial. En la parte inferior, Console. Vereis que todas las palabras tienen el mismo numero de letras. Sin embargo, el tamaño fisico de la palabra en la letra Arial es distinto en ambas palabras, mientras que en Console ambas palabras miden exactamente lo mismo. La fuente Console es "monoespaciada". Tiene el mismo tamaño cada una de las letras.

A la hora del reconocimiento de texto, las letras monoespaciadas no se superponen entre si, mientras que las demás se acercan e incluso puede dar la sensación de que se solapan.

Sin embargo, usar tipos de letra monoespaciados le da sensación artificial al texto. Esa clase de fuentes son las que se usaban en las maquinas de escribir y en los primeros ordenadores. Se asocia por tanto a lo artificial.

Lo siguiente que os quiero mostrar son varios problemas que se encuentra un programa de OCR en el momento de funcionar. Observad esta imagen.



Si os fijais, hay dos tipos de subtitulo en pantalla. En el subtítulo superior, las letras están rodeadas por un "borde". En el inferior, el texto no tiene ningún borde a su alrededor.

Si ampliamos el subtítulo inferior veremos como en la letra "i" se superpone al fondo, lo que dificulta su lectura.


Los sistemas de reconocimiento por lo general lo primero que hacen es reducir el numero de colores en pantalla, por lo general a blanco y negro. Esa superposición causaría un error sin lugar a dudas.

Si bien el borde hace mas reconocibles las letras, pues causar otro problema, esta vez por difuminado.



Si nos fijamos, en una imagen tienden a difuminarse los bordes, quedando pixeles en distintos tonos gris que hacen complicada la lectura al programa.

El siguiente factor a tener en cuenta es el de la calidad del video. Observemos dos capturas con mis subtítulos de prueba:




La imagen superior proviene del video Saturday night, de Crayon Pop que extraje previamente de YouTube, que es el que usaré para la prueba, codificada a baja calidad con el codec XviD (el archivo resultante ocupa 55 MB). La inferior, una versión con una calidad superior y el mismo codec (el archivo pesa 155 MB). Se ven claramente las diferencias en la calidad, especialmente en el subtítulo. El difuminado es muy superior en la imagen de baja calidad.

Aprovecho para facilitaros el subtítulo con el que voy a trabajar.

Lo primero, el subtítulo original en formato .SSA que es el que cargué para crear el hardsub, con lineas en blanco para separar los bloques: https://app.box.com/s/vjdk56jxrfc2gzn0acinjp11aqsboaey

Después, el subtítulo en formato SRT, al que le he quitado las lineas en blanco. Este subtítulo es con el que compararemos los resultados de la ejecución de los programas. Cuanto mas se parezca, mejor habrá funcionado: https://app.box.com/s/79j9xlfbyza3ft0wpbi4mggxqztu30g5

En la próxima entrega empezaremos a aplicar las pruebas. Un saludo.

No hay comentarios:

Publicar un comentario