sábado, 28 de diciembre de 2019

Aprendiendo informatica: Twitter: Tendencias y estados fascitas

Hoy quiero explicar como funciona la logica de la sección de Tendencias (o Trending Topics), de Twitter y comentaros una estrategia usada por grupos organizados para mantenerse ahi.

Lo primero es explicar qué son los TT para los que no seais usuarios de Twitter. En la pantalla principal podéis encontrar un listado de temas destacados que se genera de manera dinamica. Podeis seleccionar el alcance (una ciudad, un pais o a nivel mundial) o mostrar las tendencias basandoos en los temas que Twitter ha determinado que os interesan.

Pero lo realmente interesante es saber cómo se generan, cómo se pueden manipular y cuales son los principales problemas a la hora de organizarlos. Esto os puede servir si estáis programando una web y quereis implementar un sistema similar.

Lo que se nos puede pasar por la cabeza es la idea de ver las palabras mas tecleadas en las ultimas seis horas. Por supuesto, deberíamos eliminar las palabras mas comunes. Esto incluye las conjunciones "o" e "y", los artículos (el, la, ella, un, una...) o formas verbales comunes como "voy".

Sin embargo, existen momentos en que una expresión se populariza, especialmente con campañas politicas. Por ejemplo, si un partido lanza el eslogan "Yo voy", para combatir la abstención. La forma mas sencilla en estos casos es usar un hashtag, #YoVoy, que convertiría estas dos palabraas en un tema, pero conviene que el sistema funcione automáticamente. ¿Cómo lo resolveríamos? Fácil, los eslóganes suelen aparecer en cuentas verificadas de partidos politicos, empresas y demás, y luego se popularizan. Localizar cuentas verificadas relacionadas entre si y sus seguidores puede ser la solución. Gente del mismo partido político expresa los mismos eslóganes, ¿no?

Otro problema que se puede generar es que existen temas que son muy tratados habitualmente, pero que no constituyen una tendencia en si mismos. Pongo un ejemplo: Donald Trump. Es una de las personas de las que mas se habla en las redes sociales. Eso haría que estuviera en el listado de TT permanentemente, ¿no? Eso, según el concepto de tendencia no debería ser correcto.

La solución en este caso no estaría en calcular el numero de twits, sino el crecimiento de ese numero. Una tendencia consiste en un crecimiento muy rápido en un corto periodo de tiempo, comparado con un crecimiento continuo.

También está la "caducidad" de los TT. Un tema puede reaparecer por oleadas periódicas. Volviendo a Trump, siendo que cada dia es noticia, nos encontramos con que al aparecer la nueva edición de los diarios aparecería de manera recurrente. Así, cada mañana, Trump sería tendencia durante unas cuantas horas. La solución es establecer una caducidad para los TT.

Sobre esto, queria comentar un caso reciente. En plenas fechas del juicio sobre la declaración unilateral de independencia de Cataluña se lanzó un hashtag, #SpainIsAFascistState. En los días siguientes este hashtag fue variando con pequeñas faltas de ortografía, quedando #SpainIsAFascitState (sin la s en fascist) o #SpainIsAFascistEstate ("estate" significa "propiedad inmobiliaria"). Esto se hizo por evitar esa caducidad y poder mantener el hashtag dentro de la lista de tendencias.

El siguiente fallo aparece con temas con varias palabras. Pongo un ejemplo: Pedro Sanchez y Pablo Iglesias recientemente firmaron un acuerdo con vistas a la investidura. Esto genera un error dificil de subsanar (y que de hecho aun no saben corregir). Existen multitud de combinaciones. ¿Cuál es la tendencia correcta? Aparecerán simultaneamente "Pedro y Pablo", "Sanchez e Iglesias", "Pablo y Pedro", "Iglesias y Sanchez", "Pedro", "Pablo", "Pedro Sanchez", "Pablo Iglesias"... Esto podría resolverse mediante una intervención manual, indicando que "Pedro", "Sanchez" y "Pedro Sanchez" serían equivalentes en este caso. Unificar varios temas si ambos son tendencia simultaneamente. Al mismo tiempo, sería peligroso realizar esa operación si la cantante Marta Sanchez fuera tendencia simultaneamente, ya que se mezclarían dos temas. Se podría resolver mediante inteligencia artificial, asociando los conceptos Marta Sanchez-música, Pedro Sanchez-política y que se clasificasen automáticamente.

Sin embargo, ¿qué pasaría si se empezase a hablar de un plan de renovación de las iglesias mal conservadas con ayudas gubernamentales y dinero público? Esto es algo político. ¿La tendencia "Iglesias" tiene que ver con Pablo Iglesias o con los edificios?

Como podeis ver, el tema no es nada fácil.

miércoles, 25 de diciembre de 2019

Proyecto especial navidad: Rental Kyuuseishu

¡Felices fiestas!



Os traigo una nueva serie, coincidiendo con la navidad, y para variar os la traigo enterita, de golpe, como los atracones de estas fechas.

En realidad mas que por daros la propia sorpresa ha sido por una cuestion de permisos: el autor original puso en sus subtítulos que se contactara con el si se iba a retraducir, pero por LiveJournal no me contesta y su perfil de Twitter está cerrado y no admite mensajes privados. Quería hacerlo con autorización, pero puesto que no hay manera de contactar con el he aplicado el principio de "lo que no está prohibido está permitido".

¿De qué va la serie? Pues va de un tipo que tras ser estafado encuentra un trabajo en una agencia llamada como la serie, que se dedica a cumplir peticiones de cualquier clase, desde pasear perros a salvar a gente secuestrada.

Cosas para saber del proyecto:

- En el subtítulo tradujeron el nombre de la agencia como Rental Savior (Salvador de alquiler) y que en algún sitio más he leido como Rental Hero (Héroe de alquiler). En mi caso he optado por esta última opción y la he traducido.
- Los subtítulos originales de los 8 primeros episodios son de Pururucchi, mientras que los 2 últimos son de kowaihitotachi. Se nota, y mucho, la diferencia.
- La versión de Pururucchi abusa de los puntos suspensivos (¿por qué demonios usan solo dos puntos en vez de tres?), los caracteres ~ y tres o cuatro cosas más. Ya sabeis que suelo mantener el estilo original, así que la calidad no es para tirar cohetes.
- Los episodios 7 y 8 han requerido resincronización, he ajustado como he podido.
- Uno de los personajes tiene problemas a la hora de expresarse, y cuando se desinhibe lo hace rapeando. He hecho un esfuerzo para intentar rimar las frases, pero las rimas y la métrica no he logrado acomodarlas al sonido en japonés. Por favor, tenedmelo en cuenta.
- La hija del protagonista se refiere a sus padres como "daddy" y "mommy", algo que he mantenido. Sin embargo, el protagonista en la versión en japonés usa para referirse a su esposa el sufijo -chin, mientras que en el subtítulo usa -chan. He mantenido el -chan, como en el subtítulo original.
- Para los honorificos, el jefe habla de tu a todos menos al protagonista, que es mayor que el resto de la plantilla, y entre ellos se llaman de tu.
- Un punto complicadillo ha sido el de usar la expresión "héroe de alquiler", y puede que haya cometido algún error ahi. Os pongo un ejemplo. En la frase "No me arrepiento de nada de lo que he hecho siendo un Héroe de alquiler" se entendería como "no me arrepiento siendo miembro de la empresa", mientras que la misma frase con la palabra "héroe", en minúsculas, se referiría a que no se arrepiente de desempeñar el trabajo de héroe, como profesión.

Vamos por las estadisticas. Os explico como leerlas.

Cada linea corresponde a un sesión de trabajo. Salvo un día, hice una sesión diaria. El formato es el siguiente:

Primera linea traducida - última linea traducida: tiempo invertido en formato h.mm

Episodio 1:
1-314: 1.12
315-614: 1.06
615-948: 1.14
949-1053: 0.25

Episodio 2:
1-141: 0.30
Sesión 1 del segundo día: 142-232: 0.20
Sesión 2 del segundo día: 233-413: 0.41
414-657: 0.55
658-757: 0.21

Episodio 3:
1-114: 0.23
115-222: 0.25
223-325: 0.24
326-445: 0.24
446-655: 0.39

Episodio 4:
1-102: 0.21
103-230: 0.33
230-346: 0.28
347-514: 0.37
515-632: 0.24
633-750: 0.19

Episodio 5:
1-171: 0.41
172-361: 0.43
362-479: 0.37
480-618: 0.32
619-747: 0.29

Episodio 6:
1-391: 1.33
392-647: 0.46

Episodio 7:
1-212: 0.49
213-341: 0.31
342-525: 0.39
526-714: 0.38

Episodio 8:
1-146: 0.35
147-359: 0.41
360-696: 0.58

Episodio 9:
1-298: 1.05
299-695: 1.08

Episodio 10:
1-321: 1.03
322-623: 1.02

Ciertamente debería pasar a hacer esta recopilación de datos en formato Excel para sacar las estadisticas automaticamente, pero me da pereza. Quizás mañana me ponga a procesar los datos.

Tiempo medio por sesion (minutos): 37,80497705
Media de lineas por sesion: 173,8022773
Tiempo total transcurrido (minutos): 1571
Lineas totales: 7300
Media de lineas por minuto: 4,597338522

Como condiciones de distribución, las mismas de siempre:

- No retraducir.
- No resubir a otras webs (ni siquiera para sincronizarlo con otra versión).
- No hacer hardsubs.
- Notificar los errores que encontréis.

Ahora, a por los enlaces. Lo primero, las raws podeis descargarlas desde Nyaa (https://nyaa.si/view/894580) o con el torrent que he dejado en la carpeta:


Un saludo y felices fiestas.