viernes, 18 de septiembre de 2015

Aprendiendo informática: OCR - Parte 1, Introducción

Hoy comienzo con una nueva entrega del proyecto de divulgación "Aprendiendo informática", que es otro de mis proyectos discontinuos. En este caso, quiero hablar del OCR.

El OCR es una parte de la inteligencia artificial y corresponde al reconocimiento de caracteres. Voy a poner un ejemplo de lo que se espera de una inteligencia artificial (al menos segun mi libro de la carrera) y lo que obtiene el ser humano.

Veamos la siguiente imagen del sexto capítulo de Kamo, Kyoto e iku:



Analicemos lo que vemos y lo que podemos reconocer. Empezamos con la parte superior derecha. Hay un logotipo de un canal de TV. Tambien observamos a distintas personas en una calle. Vemos que en la calle hay elementos actuales. Hay varias personas en la calle. Una, de espaldas a nosotros, viste ropa occidental actual. Las demás visten al estilo oriental tradicional, con algunos elementos actuales (pantalón, corbata). Los dos hombres y tres de las mujeres visten uniforme. Las otras dos mujeres visten de color distinto. También obviamente vemos unos subtitulos y reconocemos la cara de las personas que aparecen y las identificamos con actores.

Esto nos lleva a las siguientes deducciones. En primer lugar, el logotipo nos hace pensar que estamos viendo una escena de un documental, una pelicula o una serie de TV. Que aparezcan varios actores aumenta la posibilidad de que no se trate de un documental. Podríamos ya buscar en bases de datos la filmografía comun, pero vamos a analizar un poco mas. Casi todo el mundo va vestido de una manera similar, eso nos hace pensar en un lugar de trabajo tradicional. Están despidiendo a alguien, que aparentemente es un invitado, puesto que viste de manera distinta. Cada vez nos acercamos a una deducción mas detallada. Puede ser un hotel, o un establecimiento similar, y que le estén despidiendo empleados y gente de mayor rango, ¿la okami de una posada tradicional?

Esto no nos ha costado demasiado, pero para un ordenador realizar una deducción de este estilo es algo bastante costoso. Sin embargo, hemos actuado de la misma manera que haría un ordenador, reconociendo patrones y marcos, elementos conocidos en los que encajan ciertos elementos.

En esta ocasión nos limitaremos a algo mas simple, reconocer los caracteres que hay en la parte inferior, esto es, leer los subtitulos y transcribirlos, que es mucho mas simple para las maquinas (y aun así lo hacen de manera poco precisa.


En la siguiente entrega hablaré de los subtítulos, sus estilos, la conveniencia de uso de unos u otros y cuales son optimos para nuestro fin, que es transcribirlos a texto. Un saludo.

No hay comentarios:

Publicar un comentario