sábado, 28 de diciembre de 2019

Aprendiendo informatica: Twitter: Tendencias y estados fascitas

Hoy quiero explicar como funciona la logica de la sección de Tendencias (o Trending Topics), de Twitter y comentaros una estrategia usada por grupos organizados para mantenerse ahi.

Lo primero es explicar qué son los TT para los que no seais usuarios de Twitter. En la pantalla principal podéis encontrar un listado de temas destacados que se genera de manera dinamica. Podeis seleccionar el alcance (una ciudad, un pais o a nivel mundial) o mostrar las tendencias basandoos en los temas que Twitter ha determinado que os interesan.

Pero lo realmente interesante es saber cómo se generan, cómo se pueden manipular y cuales son los principales problemas a la hora de organizarlos. Esto os puede servir si estáis programando una web y quereis implementar un sistema similar.

Lo que se nos puede pasar por la cabeza es la idea de ver las palabras mas tecleadas en las ultimas seis horas. Por supuesto, deberíamos eliminar las palabras mas comunes. Esto incluye las conjunciones "o" e "y", los artículos (el, la, ella, un, una...) o formas verbales comunes como "voy".

Sin embargo, existen momentos en que una expresión se populariza, especialmente con campañas politicas. Por ejemplo, si un partido lanza el eslogan "Yo voy", para combatir la abstención. La forma mas sencilla en estos casos es usar un hashtag, #YoVoy, que convertiría estas dos palabraas en un tema, pero conviene que el sistema funcione automáticamente. ¿Cómo lo resolveríamos? Fácil, los eslóganes suelen aparecer en cuentas verificadas de partidos politicos, empresas y demás, y luego se popularizan. Localizar cuentas verificadas relacionadas entre si y sus seguidores puede ser la solución. Gente del mismo partido político expresa los mismos eslóganes, ¿no?

Otro problema que se puede generar es que existen temas que son muy tratados habitualmente, pero que no constituyen una tendencia en si mismos. Pongo un ejemplo: Donald Trump. Es una de las personas de las que mas se habla en las redes sociales. Eso haría que estuviera en el listado de TT permanentemente, ¿no? Eso, según el concepto de tendencia no debería ser correcto.

La solución en este caso no estaría en calcular el numero de twits, sino el crecimiento de ese numero. Una tendencia consiste en un crecimiento muy rápido en un corto periodo de tiempo, comparado con un crecimiento continuo.

También está la "caducidad" de los TT. Un tema puede reaparecer por oleadas periódicas. Volviendo a Trump, siendo que cada dia es noticia, nos encontramos con que al aparecer la nueva edición de los diarios aparecería de manera recurrente. Así, cada mañana, Trump sería tendencia durante unas cuantas horas. La solución es establecer una caducidad para los TT.

Sobre esto, queria comentar un caso reciente. En plenas fechas del juicio sobre la declaración unilateral de independencia de Cataluña se lanzó un hashtag, #SpainIsAFascistState. En los días siguientes este hashtag fue variando con pequeñas faltas de ortografía, quedando #SpainIsAFascitState (sin la s en fascist) o #SpainIsAFascistEstate ("estate" significa "propiedad inmobiliaria"). Esto se hizo por evitar esa caducidad y poder mantener el hashtag dentro de la lista de tendencias.

El siguiente fallo aparece con temas con varias palabras. Pongo un ejemplo: Pedro Sanchez y Pablo Iglesias recientemente firmaron un acuerdo con vistas a la investidura. Esto genera un error dificil de subsanar (y que de hecho aun no saben corregir). Existen multitud de combinaciones. ¿Cuál es la tendencia correcta? Aparecerán simultaneamente "Pedro y Pablo", "Sanchez e Iglesias", "Pablo y Pedro", "Iglesias y Sanchez", "Pedro", "Pablo", "Pedro Sanchez", "Pablo Iglesias"... Esto podría resolverse mediante una intervención manual, indicando que "Pedro", "Sanchez" y "Pedro Sanchez" serían equivalentes en este caso. Unificar varios temas si ambos son tendencia simultaneamente. Al mismo tiempo, sería peligroso realizar esa operación si la cantante Marta Sanchez fuera tendencia simultaneamente, ya que se mezclarían dos temas. Se podría resolver mediante inteligencia artificial, asociando los conceptos Marta Sanchez-música, Pedro Sanchez-política y que se clasificasen automáticamente.

Sin embargo, ¿qué pasaría si se empezase a hablar de un plan de renovación de las iglesias mal conservadas con ayudas gubernamentales y dinero público? Esto es algo político. ¿La tendencia "Iglesias" tiene que ver con Pablo Iglesias o con los edificios?

Como podeis ver, el tema no es nada fácil.

No hay comentarios:

Publicar un comentario