Acerswap - Proyectos: mayo 2019

domingo, 26 de mayo de 2019

Rikuou: Episodio 5

Y por fin el quinto, que es el segundo mas largo que ha habido hasta ahora, superando las 1.000 lineas. Es un episodio que nos da un monton de alegrías. Gente mala que no es tan mala, decisiones sobre la vida y un nuevo producto.

Pero vamos, no me alargo. Vamos a por las estadisticas:

1-159: 0.36
160-324: 0.35
325-459: 0.24
460-703: 0.43
704-1058: 1.01
1 dia de corrección y retoques.

Como ya os conté, son los correspondientes a la primera ronda. El numero de lineas no concuerda con el resultado final, y hay lineas que he unido al final y lineas que he agregado.

Aqui os dejo el enlace.

http://bit.ly/2K2k7My

Un saludo.

EDIT: Olvide decirlo ayer, hay varias notas de traducción tambien que quiero comentar. En el subtitulo original hablan de "textile" y "fabric". Ambas tienen un significado tan similar (tela) que no he sido capaz de encontrar una palabra que las diferencie. Las he traducido como "tejido" y "tela", aunque tampoco hay diferencia. Supongo que en uno de los casos hablan de un material mas elaborado que en otro.

El segundo punto a comentar es que hablan en el subtítulo original de "upper side", que querría decir "la parte de mas arriba". He usado la traducción "empeine", que es la denominación que se le da en castellano a esa parte del calzado.

Por ultimo, porque no recuerdo mas, quiero explicar por que uso los plurales y los singulares como lo hago, asi como los generos en los productos que no puedo traducir. En primer lugar, uso la palabra "tabi" como usaría la palabra "calzado" en la mayoria de los casos. Por eso hablo de "la industria del tabi", por ejemplo, y (quizás erroneamente) no lo convierto en plural ("me han regalado unos tabi"), por mantener la palabra original. La palabra Rikuoh la suelo poner en femenino al decir frases como "a Mogi le gustan las Rikuoh". Aqui lo uso como si la palabra Rikuoh estuviera refiriendose a "las zapatillas Rikuoh", mientras que "los Ashigaru Taisho" se refieren a "los calcetines Ashigaru Taisho".

domingo, 19 de mayo de 2019

Rikuou: Episodio 4

Por fin el cuarto episodio, con un retraso adicional causado por un problema con la sincronizacion. Al final he tenido que resincronizar el subtítulo a mano con respecto al audio. Tambien he comprobado que existen dos problemas con el OCR del Subtitle Edit: el primero, que si usas la opcion de mantener las cursivas es un enorme problema si lo traduces con Aegisub. El segundo, y muy importante, que el programa tiende a detectar primero la linea inferior y luego la superior en los subtitulos multilinea. Si además se te junta con una de esas frases ultralargas que se dividen en tres lineas de subtitulo y, como de costumbre en inglés, están formuladas al revés que en castellano es un verdadero caos. Creedme cuando os digo que hay veces en que he tenido que transcribir una frase completa en un bloc de notas y reformularla en español.

Hoy os quiero comentar una palabra que aparece unas cuantas veces en el episodio, que es "ekiden". Basicamente es, por si no quereis buscarlo, una carrera de relevos de larga distancia que se corre en exteriores.

Bueno, pues vamos a lo de siempre. Estas son las estadisticas de traducción, sin contar deteccion de subtitulos, OCR, temporización, correcciones y demás.

1-268: 0.56
269-385: 0.26
386-683: 0.53

Os dejo el subtítulo, os va a gustar mucho mucho. Como de costumbre, si encontrais fallos reportadmelos para que los corrija.

http://bit.ly/2LVv6dl

Un saludo.

domingo, 12 de mayo de 2019

Aprendiendo informática: Traducir desde hardsubs (III)

Resulta que, revisando archivos de ayuda, encontré lo que es una verdadera joya oculta en el Subtitle Edit. ¿Sabiais que tiene un programa de OCR extremadamente preciso incorporado y que es compatible con las salidas de VideoSubFinder?

Para el ejemplo que voy a usar, cogeré el contenido de la carpeta TXTImages que se generan en VideoSubFinder. El siguiente paso es abrir Subtitle Edit e ir al menu File -> Import images... (si, uso el programa en inglés).

Como podeis ver, cuando agrego las imagenes reconoce por el nombre su posición en el subtítulo.

Aceptamos y nos abre una nueva ventana. En esta podemos seleccionar el tipo de OCR que se usará (aquí escogemos Tesseract), el idioma en que están escritos los subtítulos (esto es importante, ya que estamos reconociendo los subs originales, no la traducción) y, en general, las opciones que tengo yo puestas. Existe una opcion interesante, que es la de "Prompt for unknown words" (preguntar en palabras desconocidas). Esto hará que, si no puede reconocer una palabra, pregunte qué es lo que pone. Dado que voy a hacerlo de forma desatendida (ya que tarda bastante) y que después lo voy a traducir fijandome en los subtítulos originales, no necesito que sea demasiado preciso. Lo que trato de hacer es ahorrarme escribir determinadas palabras, tales como "No", "Mogi-kun" y demás expresiones que aparecen sueltas.

Hecho esto, presionamos Start OCR para que comience a funcionar. Como podeis ver, se van agregando las lineas detectadas al texto, se van coloreando según la calidad del reconocimiento y se van listando las palabras que se encuentran y que no están en el diccionario. En mi ejemplo, al haber caracteres japoneses en el reconocimiento, nos generará muchas palabras desconocidas, pero podríamos aprovechar para incluir los nombres reconocidos en la lista de nombres o algunas palabras al diccionario.

Por el momento, los resultados son mas que satisfactorios. Espero que podais probarlo y me deis vuestra opinión. Un saludo.

Rikuou: Episodio 3

Hoy os traigo dos cositas, el tercer episodio de Rikuou y un pequeño tutorial de OCR. Aun no me habéis dicho nada, ¿os está gustando la serie?

Sobre este episodio, una mini-nota de traducción. En la traduccion al inglés, hay un momento en el banco en el que el empleado (no recuerdo el nombre) se refiere al Silklay como "silly-something" y el presidente le responde "No es silly, es Silklay". No se si tiene un significado en particular en japonés, pero en inglés "silly" significa algo así como "tonto". En inglés, el cambio de nombre si puede resultar ofensivo. Dado que es un punto en el que puede haber una micropérdida de información, prefiero comentarlo. En realidad, la importancia de la frase es minima, pero quiero que se sepan esta clase de cosas.

Bueno, las estadisticas:

1-217: 0.42
218-299: 0.17
300-514: 0.46
515-715: 0.41
716-846: 0.22

Cinco dias y uno de revisión.

Bueno, pues os dejo el enlace. Disfrutadlo.

http://bit.ly/2W2vgmU

Un saludo.

domingo, 5 de mayo de 2019

Rikuou: Episodio 2

Menudo aumento de velocidad. Lo que en el primer episodio me costó diez días, en el segundo me ha costado tres días. Simplemente he andado ocupado y no he podido subirlo, de ahí el retraso.

Aqui las estadisticas:

1-474: 1.31
475-842: 1.02
Revision: 1 dia.

A proposito, os habrá llamado la atención que el numero de lineas que pongo aquí no coincide con el numero total de lineas. Eso se debe a que cuando hago el reconocimiento me sale un numero de lineas que no es correcto. Existen falsos positivos (que tengo que eliminar o unir) y negativos (que tengo que agregar), aparte de que en la revisión final añado las lineas que aparecen en la parte superior y los letreros. Asi, en este episodio, del numero original de 842 lineas pasamos a 878.

Bueno, aqui tenéis el subtítulo.

http://bit.ly/2vzWNxt

Un saludo.

miércoles, 1 de mayo de 2019

Aprendiendo informática: Traducir desde hardsubs (II)

Como ya os contaba, estoy traduciendo ahora una serie llamada Rikuoh, de la que no tengo subtítulos en otro idioma, sino que me baso en un hardsub. El caso es que lo estoy haciendo de una manera distinta, y me gustaría explicar como lo hago.

En este tutorial vamos a usar un programa llamado VideoSubFinder. El sistema que usa es similar al de AviSubDetector, pero que no se limita a los archivos .avi. El problema está en que no incorpora un sistema de OCR (reconocimiento de caracteres), sino que solo detecta las escenas en que aparecen subtitulos, limpia la imagen y la deja lista para usar un programa OCR que revise la imagen y lo convierta en texto. Tambien permite crear un archivo de subtitulos "vacio", solo con los tiempos, lo que es muy util. Dado que lo que realmente me interesa son los tiempos, realmente me importa poco el OCR, asi que cumple con mis necesidades.

El sistema es incluso mas visual que el de AviSubDetector, aunque es mas lento y sus resultados son inferiores. Sin embargo, al no tener que recodificar el video se gana mucho tiempo.

Para usarlo, descargamos VideoSubFinder desde su pagina oficial (https://sourceforge.net/projects/videosubfinder/) o desde VideoHelp (https://www.videohelp.com/software/VideoSubFinder), que es una pagina con multitud de recursos de edicion de video.

Vamos a entrar ya en materia.

Paso 1:

En esta pantalla vemos dos ventanas. En la izquierda vemos el video original, y en la derecha el video procesado. Ahi veremos las imagenes que esté manejando en ese momento.

Lo primero que tenemos que hacer es presionar en "Clear Folders". Dado que almacena sus resultados en las carpetas que hay en el directorio del programa, cuando vamos a trabajar con un nuevo subtítulo lo que hay que hacer es eliminar su contenido.

Paso 2:

Abrimos el video desde File -> Open Video (OpenCV).

Paso 3:

Querer que analice toda la imagen del video es algo poco útil, asi que saltamos a un cuadro del video que tenga subtitulos y marcamos, moviendo las lineas de la ventana de video, la zona que queremos capturar. Como en mi caso no es necesario que capture la totalidad del texto, ya que lo que mas me interesa son los tiempos, podemos coger solo un fragmento corto, que no coja toda la frase. Eso si, conviene que sea lo suficientemente grande como para que no haya "falsos positivos" (momentos en que detecta subtítulos cuando no los hay) o "falsos negativos" (que no detecte subtitulos cuando si los hay). SIEMPRE va a haber falsos positivos y negativos, con lo que hay que revisar el video con cuidado.

En este ejemplo, he escogido una frase bastante corta, y tambien he dejado un espacio en la parte de arriba por si hubiera un subtitulo de dos lineas, pero con un espacio grande. Marcar la zona que podría ocupar un "Eh" sería llenarlo todo de falsos positivos.

Una vez marcada la zona, se presiona el boton de Run Search. Eso empieza a analizar el video y generar las capturas. La imagen irá cambiando según encuentre cada subtítulo. Aviso: NO es rápido, aunque cuanto mas pequeña sea la zona, mas rapido irá.

Pasos 4 y 5:

Si el anterior ha sido lento, el siguiente lo es mas todavía. Se trata de generar las imagenes limpias, mediante el botón Create Cleared TXT images (lo que es muy lento) y despues crear los "subtitulos vacíos" mediante la opcion de Create Empty Sub From Cleared TXT Images.

Esto ya da el subtítulo con los tiempos, que suelen ser del estilo "sub duration: 3,202". Con ese archivo se puede traducir directamente desde el video con hardsubs.

Espero que os haya resultado util, o al menos curioso.

Un saludo.