Por qué necesitamos más visibilidad de los algoritmos de análisis de redes sociales que usamos

Por qué necesitamos más visibilidad de los algoritmos de análisis de redes sociales que usamos

Los medios sociales se han convertido cada vez más en la lente a través de la cual observamos el mundo humano moderno. A su vez, la vasta industria de las plataformas de análisis de redes sociales se han convertido en los instrumentos a través de los cuales usamos esa lente para dar sentido a la sociedad. Sin embargo, a pesar de los negocios del mundo real y las decisiones gubernamentales que se hacen en sus resultados, sabemos sorprendentemente poco acerca de los algoritmos que impulsan la mayoría de estas plataformas, especialmente sus casos de borde y matices interpretativos. ¿Cómo podemos tomar decisiones significativas sobre las redes sociales basándose en los resultados de los algoritmos de los que no conocemos nada?

Casi todas las plataformas de análisis de medios sociales hoy ofrecen algún tipo de análisis de sentimiento, típicamente una puntuación simple positiva-neutral-negativa, pero también ocasionalmente algunas categorías adicionales más matizadas como la alegría o el miedo.

Estos puntajes de sentimiento se han convertido en un recurso para entender las tendencias sociales, clasificar la reacción a los temas y ayudar a guiar las decisiones comerciales y de marketing.

Calcular el sentimiento de las redes sociales es una tarea extremadamente difícil, llena de complejidades.

Desafortunadamente, pocas compañías de redes sociales ofrecen detalles técnicos sustantivos sobre cómo funcionan sus algoritmos de sentimiento, tratándolos como secretos comerciales patentados.

Algunos revelan que sus sistemas son tradicionales simples "bolsa de palabras" contadores de palabra que simplemente tienen dos listas de palabras, una para las palabras "positivas" y otra para las palabras "negativas" y sólo cuentan cuántas de las palabras de un tweet están en cada lista. Algunos añaden una partitura a cada palabra grabando lo "positivo" o "negativo" que es, para diferenciar entre "amor" y "gustar" o "detestar" y "aversión". Algunos utilizan algoritmos estadísticos o incluso neuronales más sofisticados. Sin embargo, casi ninguno comparte sus listas de palabras o algoritmos reales.

La visibilidad rudimentaria de los algoritmos de sentimiento se puede encontrar filtrando solo tweets negativos o positivos y luego usando la función de histograma de nube de palabras ofrecida por la mayoría de las plataformas para ver qué palabras parecen dominar esos tweets. Esto puede ayudar a identificar los desajustes de vocabulario particularmente flagrantes.

Por ejemplo, una herramienta clasificó sistemáticamente los tweets de baloncesto como sustancialmente más negativos que los tweets de fútbol. El culpable resultó ser el hecho de que muchos tweets de baloncesto en la muestra contenían la palabra "corte" para referirse a la cancha de básquetbol, mientras que el Diccionario de sentimiento de la herramienta calificó a "tribunal" como una palabra muy negativa, asumiendo que siempre se refería a un tribunal legal.

Del mismo modo, otro análisis mostró tweets acerca de que los republicanos eran mucho más positivos que los de los demócratas porque durante el período de la muestra a menudo los demócratas se denominaban simplemente "demócratas", mientras que los republicanos eran sistemáticamente referidos como "el partido republicano ". La palabra "Party" estaba siendo incorrectamente etiquetada por el algoritmo como una palabra muy positiva.

Los algoritmos de sentimiento de ingeniería inversa de esta manera pueden ayudar a identificar desalineaciones entre los diccionarios del algoritmo y el dominio específico que se examina. Algunas plataformas de análisis sociales permiten a sus usuarios ajustar manualmente los diccionarios de opinión aplicados a un análisis determinado, lo que admite la adaptación al dominio, aunque no todos lo hacen. Este análisis algorítmico también puede producir pistas en cuanto a la procedencia de su diccionario, con algunas plataformas usando diccionarios de sentimiento de código abierto bien conocidos y ligeramente modificados.

Algunos proporcionan pistas enterradas en su documentación interna del usuario, como notar que su sistema de sentimiento fue inicialmente entrenado en unos pocos cientos de miles o unos cuantos millones de tweets cuando la empresa fue fundada por primera vez y no se ha actualizado desde entonces. De hecho, pocos actualizan sus diccionarios en tiempo real hora por hora para captar los últimos matices lingüísticos de Twitter.

El uso de un diccionario basado en unos pocos millones de tweets muestreados desde hace una década plantea serias preocupaciones acerca de exactamente lo que esos resultados realmente están midiendo.

La mayoría de los usuarios de la plataforma de análisis de redes sociales no son científicos de datos, lo que significa que probablemente no están pensando críticamente sobre este tipo de preguntas o realizando evaluaciones sistemáticas de los resultados que reciben.

La detección de idioma es otro algoritmo opaco pero de importancia crítica cuando se buscan palabras que tienen diferentes significados en diferentes idiomas o que representan el nombre de una marca en un idioma, pero una palabra común no relacionada en otro.

A primera vista puede parecer relativamente trivial determinar el idioma de un tweet dado. Sin embargo, la pequeña cantidad de texto y la prevalencia de acrónimos y terminología de jerga hace que el contenido de las redes sociales sea especialmente difícil para los algoritmos de detección de idiomas tradicionales. Herramientas como la biblioteca de Google Chrome Language Detection (CLD2) se pueden aplicar fácilmente a los tweets con resultados bastante utilizables, pero muchas plataformas de análisis implementan sus propios algoritmos personalizados que han sido optimizados para uso social, especialmente Twitter.

Bibliotecas ampliamente utilizadas como CLD2 han entendido bien las características de rendimiento y documentación extensa en sus casos de borde. Algunos, como CLD2, son completamente de código abierto, lo que permite a los usuarios avanzados comprender con precisión cómo el algoritmo llega a sus determinaciones y para identificar de forma proactiva los entornos en los que puede tener problemas.

Por el contrario, pocas empresas de análisis de redes sociales proporcionan gran parte de la documentación de sus sistemas de detección de idiomas patentados. Muchos declinan responder a preguntas técnicas específicas, incluyendo el tipo de algoritmo y el tamaño y el origen de sus datos de entrenamiento, tratando dicha información como información comercial propietaria.

Al igual que el sentimiento, a veces es posible revertir el ingeniero que un algoritmo "propietario" de una empresa dada es en realidad sólo una biblioteca estándar como CLD2 con algunos pasos básicos de preprocesamiento de sentido común como eliminar hipervínculos y @username referencias.

La mayoría de las veces, sin embargo, es simplemente imposible saber cómo funciona el algoritmo de detección de idioma de una empresa.

Depender de un algoritmo de terceros sin ninguna comprensión de sus matices y casos de borde es extremadamente peligroso cuando se trata de interpretar los resultados que produce. Si una plataforma de análisis informa que los tweets holandeses sobre un tema han disminuido por cinco veces durante un período de 24 meses hasta casi cero, ¿eso significa realmente que los holandeses simplemente dejaron de hablar sobre ese tema o podrían simplemente ser que los holandeses Las prácticas de Twitter, desde el uso de argot hasta las abreviaturas, han evolucionado de tal manera que el algoritmo de detección de idioma de la empresa se está volviendo cada vez menos preciso en la detección del idioma?

Sin información adicional no hay manera de saber si las tendencias lingüísticas que se observan son artefactos reales o meramente algorítmicos.

La comparación de los resultados entre varias empresas de análisis sociales puede dar confianza a las tendencias observadas, pero la falta de detalles técnicos sobre los algoritmos subyacentes utilizados por cada plataforma hace imposible saber si todos ellos están en realidad utilizando el mismo algoritmos bajo el capó.

Muchas plataformas ofrecen medidas vagas de "importancia" o "impresiones" o "influencia" de aquellos twitteando sobre un tema dado. Algunos proporcionan al menos definiciones básicas de esos términos, como sumar el número total de seguidores de todos los usuarios que twittearon sobre un tema determinado. Sin embargo, ninguno de estos enfoques es realmente satisfactorio o significativo en todas las consultas.

Si Donald Trump tuitea su apoyo de un nuevo libro, su respaldo es probable que lleve a la mitad de la población estadounidense a abrazar el libro y la otra mitad para demonizarlo. Del mismo modo, si Barack Obama tuitea su apoyo de un libro, la reacción probablemente será exactamente inversa a la del respaldo de Trump. En Resumen, ambas personas tienen una base demográfica e ideológica específica a la que son altamente influyentes.

Un comercializador que desee lanzar un nuevo libro de inclinación liberal no puede clasificar a todos los usuarios de Twitter por una puntuación mágica de "influencia" y elegir a Donald Trump desde la parte superior de la lista para pedirle que lo apruebe ni que elija a Barack Obama para lanzar un libro de inclinación conservador. Tienen que mirar la "Demografía de la influencia" de cada usuario.

Pocas plataformas ofrecen tales puntuaciones de influencer de nivel demográfico como parte de sus exhibiciones de Resumen rutinarias.

De hecho, pocas plataformas DIVULGEN cómo calculan la información demográfica que ofrecen para los usuarios de Twitter, desde la edad hasta la geografía hasta los niveles de ingresos y educación. Estimar la ubicación de los tweets no geotagged es una tarea extremadamente difícil y la mayoría de los enfoques más obvios no funcionan realmente.

Filtrar tweets por país de origen es por lo tanto un proceso increíblemente propenso a errores en el mejor de los procesos, con resultados inciertos.

Más ampliamente, a menudo hay una fuerte brecha entre los materiales de marketing que muchas plataformas de análisis de medios sociales tout y las realidades limitadas de cómo funcionan esas plataformas realmente. Por ejemplo, las plataformas pueden comercializarse agresivamente como empresas de aprendizaje profundo que aprovechan todo el poder de las redes neuronales para dar sentido a Twitter. En realidad, algunos se enteran de esas afirmaciones tras un nuevo escrutinio, reconociendo que limitan su uso del aprendizaje profundo a unas pocas herramientas especializadas de menor importancia y que esas herramientas están a su vez limitadas a pequeñas muestras aleatorias de datos, con la abrumadora mayoría de sus los resultados se basan en enfoques no neuronales.

En Resumen, no confíe en los folletos de marketing de una empresa – haga las preguntas difíciles acerca de si cada algoritmo que va a utilizar es neural basado, naif Bayesiano o simplemente contando palabras.

Para reducir la complejidad computacional de herramientas como nubes de palabras, histogramas de atributos, mapas, análisis de sentimiento personalizado, agrupación en clústeres y otros análisis de orden superior, algunas empresas limitan sus herramientas de análisis a pequeñas muestras del total de datos. Aunque la consulta original podría coincidir con más de un cuarto de millón de tweets, la nube de palabras resultante podría basarse en los tweets 1.000 más recientes o en una muestra aleatoria de 10.000 tweets, reduciendo enormemente su cobertura. Algunas plataformas colocan advertencias prominentes en sus interfaces de usuario sobre este muestreo, mientras que otras entierran estas advertencias en profundidad en su documentación técnica.

Al unir todo esto, la revolución de los análisis de las redes sociales refleja una tendencia más amplia del mundo de los macrodatos: a medida que reunimos archivos cada vez mayores de comportamiento humano, exploramos esos datos a través de algoritmos cada vez más opacos. Cargamos petabytes de datos a través de estas cajas negras y divulgamos lo que salió el otro extremo sin siquiera la comprensión más débil de si los resultados reportados son de alguna manera exactos o significativos o cómo su exactitud puede variar de la consulta a la consulta. A su vez, las empresas y los gobiernos toman decisiones económicas y políticas muy reales basadas en los números que podrían para todos los propósitos y fines simplemente han sido producidos por un generador de números aleatorios.

Al final, ¿cómo podemos tomar decisiones significativas sobre las redes sociales basándose en los resultados de los algoritmos de los que no conocemos nada?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *