domingo, 12 de mayo de 2019

Aprendiendo informática: Traducir desde hardsubs (III)

Resulta que, revisando archivos de ayuda, encontré lo que es una verdadera joya oculta en el Subtitle Edit. ¿Sabiais que tiene un programa de OCR extremadamente preciso incorporado y que es compatible con las salidas de VideoSubFinder?

Para el ejemplo que voy a usar, cogeré el contenido de la carpeta TXTImages que se generan en VideoSubFinder. El siguiente paso es abrir Subtitle Edit e ir al menu File -> Import images... (si, uso el programa en inglés).



Como podeis ver, cuando agrego las imagenes reconoce por el nombre su posición en el subtítulo.



Aceptamos y nos abre una nueva ventana. En esta podemos seleccionar el tipo de OCR que se usará (aquí escogemos Tesseract), el idioma en que están escritos los subtítulos (esto es importante, ya que estamos reconociendo los subs originales, no la traducción) y, en general, las opciones que tengo yo puestas. Existe una opcion interesante, que es la de "Prompt for unknown words" (preguntar en palabras desconocidas). Esto hará que, si no puede reconocer una palabra, pregunte qué es lo que pone. Dado que voy a hacerlo de forma desatendida (ya que tarda bastante) y que después lo voy a traducir fijandome en los subtítulos originales, no necesito que sea demasiado preciso. Lo que trato de hacer es ahorrarme escribir determinadas palabras, tales como "No", "Mogi-kun" y demás expresiones que aparecen sueltas.



Hecho esto, presionamos Start OCR para que comience a funcionar. Como podeis ver, se van agregando las lineas detectadas al texto, se van coloreando según la calidad del reconocimiento y se van listando las palabras que se encuentran y que no están en el diccionario. En mi ejemplo, al haber caracteres japoneses en el reconocimiento, nos generará muchas palabras desconocidas, pero podríamos aprovechar para incluir los nombres reconocidos en la lista de nombres o algunas palabras al diccionario.


Por el momento, los resultados son mas que satisfactorios. Espero que podais probarlo y me deis vuestra opinión. Un saludo.

No hay comentarios:

Publicar un comentario