Почему нам нужно больше видимость в социальных медиа аналитика алгоритмы мы используем

Почему нам нужно больше видимость в социальных медиа аналитика алгоритмы мы используем

Социальные медиа все чаще становятся объективом, через который мы наблюдаем современный человеческий мир. В свою очередь, обширная индустрия социальных медиа аналитика платформ стали инструментами, с помощью которых мы используем этот объектив, чтобы сделать чувство общества. Тем не менее, несмотря на реальный мир бизнеса и правительственных решений, принимаемых по их результатам, мы знаем, на удивление мало о алгоритмах питания большинства из этих платформ, особенно их краевых случаях и толкования нюансов. Как мы можем принимать значимые решения о социальных сетях, основываясь на результатах алгоритмов, о которых мы ничего не знаем?

Почти все социальные медиа аналитика платформы сегодня предлагает некоторую форму анализа тональности, как правило, простой положительный нейтральный отрицательный результат, но и иногда несколько дополнительных более тонких категорий, как радость или страх.

Эти оценки мнений стали идти на ресурс для понимания социальных тенденций, классификации реакции на темы и помогает руководство бизнес и маркетинговых решений.

Вычисление социальных настроений средств массовой информации является чрезвычайно сложной задачей, наполненной сложностями.

К сожалению, немногие социальные медиа компании предлагают какие-либо существенные технические подробности о том, как их тональности алгоритмы работы, рассматривая их как собственные секреты бизнеса.

Некоторые раскрывают, что их системы являются традиционными простой "мешок слов" слово счетчики, которые просто имеют два списка слов, один для "положительные" слова и один для "негативных" слов и просто подсчитать, сколько слов чирикать в каждом списке. Некоторые добавить счет к каждому слову записи, как "положительный" или "отрицательный" это, чтобы различать "любовь" и "как" или "ненависть" и "не нравится". Некоторые используют более сложные статистические или даже нейронные алгоритмы. Однако почти никто не делится своими реальными списками слов или алгоритмами.

Элементарные видимость в тональности алгоритмы могут быть найдены путем фильтрации только отрицательные или положительные Tweets, а затем с помощью слова облако гистограмма особенность предлагаемых большинством платформ, чтобы увидеть, какие слова, кажется, доминируют эти Tweets. Это может помочь выявить особенно вопиющие несоответствия лексики.

Например, один инструмент последовательно рейтингу баскетбол Tweets, как значительно более негативным, чем футбол Tweets. Виновник оказался тот факт, что многие баскетбольные твиты в образце содержали слово "суд", чтобы ссылаться на баскетбольную площадку, в то время как словарь тональности инструмента помечены "суд", как крайне негативное слово, предполагая, что всегда ссылался на судебный суд.

Аналогичным образом, другой анализ показал Tweets о республиканцев быть гораздо более позитивным, чем те, о демократов, потому что в течение образца периода демократы часто называют просто "демократы" в то время как республиканцы последовательно называют " Республиканская партия ". Слово "Party" ошибочно помечено алгоритмом как очень позитивное слово.

Алгоритмы обратной инженерии настроений таким образом может помочь выявить перекосов между словари алгоритма и конкретный домен рассматривается. Некоторые платформы социальной аналитики позволяют пользователям вручную настраивать словари настроения, применяемые к данному анализу, поддерживая адаптацию доменов, хотя и не все. Такой алгоритмовый анализ может также дать подсказки о происхождении своего словаря, с некоторыми платформами, использующими слегка модифицированные хорошо известные словари настроения с открытым исходным кодом.

Некоторые предоставляют подсказки, похороненные в их внутренней пользовательской документации, например, отметив, что их система настроений была изначально обучена на несколько сотен тысяч или несколько миллионов твитов, когда компания была впервые основана и не обновлялась с тех пор. В самом деле, несколько обновить свои словари в режиме реального времени час за часом, чтобы захватить последние лингвистические нюансы Twitter.

Использование словаря, основанного на нескольких миллионах твитов, отобранных из десяти лет назад, вызывает серьезные опасения относительно того, что именно эти результаты фактически измеряют.

Большинство социальных медиа аналитики платформы пользователи не являются данными ученых, то есть они, вероятно, не думают критически об этих видах вопросов или выполнения систематических оценок результатов, которые они получают.

Обнаружение языка является еще одним непрозрачным, но критически важным алгоритмом при поиске слов, которые имеют различные значения на разных языках или которые представляют название бренда на одном языке, но общее несвязанное слово в другом.

На первый взгляд может показаться, что относительно тривиально определить язык данного твита. Тем не менее, небольшое количество текста и распространенность акронимов и сленговой терминологии делает содержание социальных медиа особенно сложным для традиционных алгоритмов распознавания языков. Такие инструменты, как Google Chrome Language Detection (CLD2) библиотеки могут быть легко применены к Tweets с вполне полезной результаты, но многие аналитики платформы развернуть свои собственные пользовательские алгоритмы, которые были оптимизированы для социального использования, особенно Twitter.

Широко используемые библиотеки, такие как CLD2, хорошо понимают эксплуатационные характеристики и обширную документацию по их пограничным случаям. Некоторые, как CLD2, являются полностью открытым исходным кодом, что позволяет продвинутым пользователям в полной мере понять, как алгоритм прибывает на свои определения и заблаговременно определить среды, где он может бороться.

В отличие от этого, немногие компании, заменяющие аналитику социальных сетей, предоставляют много способов документирования их собственных систем распознавания языков. Многие отказались отвечать на специфические технические вопросы, включая тип и размер алгоритма и происхождение его обучающих данных, рассматривая такую информацию как проприетарную деловую информацию.

Как и настроения, иногда можно обратного инженера, что в данной компании "проприетарный" алгоритм на самом деле просто Стандартная библиотека, как CLD2 с несколькими основными здравого смысла предварительной обработки шагов, как удаление гиперссылок и @username ссылки.

Однако в большинстве случаев просто невозможно узнать, как функционирует алгоритм распознавания языка компании.

Полагаться на сторонний алгоритм без какого-либо понимания его нюансов и краевых случаев чрезвычайно опасно, когда дело доходит до интерпретации результатов, которые он дает. Если аналитика платформы сообщает, что голландский Tweets о теме сократились в пять раз в течение 24-месячного периода вплоть до почти нуля, это действительно означает, что голландцы просто прекратили говорить о том, что тема или она может вместо этого просто быть, что голландский Практика Twitter, от использования сленга до аббревиатур, эволюционировала таким образом, что алгоритм распознавания языка компании становится все менее и менее точным при обнаружении языка?

Без дополнительной информации нет никакого способа узнать, являются ли наблюдаемые лингвистические тенденции реальными или просто алгоритмические артефакты.

Сравнение результатов между несколькими компаниями социальной аналитики может дать уверенность наблюдаемым тенденциям, но отсутствие технических подробностей по базовым алгоритмам, используемым каждой платформой, не позволяет узнать, все ли они в реальности, используя одинаковые общие алгоритмы под капотом.

Многие платформы предлагают расплывчатые меры "важность" или "впечатления" или "влияние" тех, tweeting по данной теме. Некоторые из них предоставляют по крайней мере основные определения этих терминов, такие как суммирование общего числа последователей всех пользователей, которые tweeted о данной теме. Тем не менее, ни один из этих подходов не является действительно удовлетворительным или значимым во всех запросах.

Если Дональд Трамп Tweets свою поддержку новой книги, его одобрение, вероятно, приведет половину населения США, чтобы охватить книги, а другая половина, чтобы очернить его. Аналогичным образом, если Барак Обама Tweets свою поддержку книги, реакция, скорее всего, будет точно обратное от того, что Трамп одобрения. Короче говоря, у обоих индивидуумов есть конкретная демографическая и идеологическая база, которой они очень влиятельны.

Маркетолог, желающих шаг либеральной опираясь новую книгу не может просто ранга всех пользователей щебетать по одному магическое оценка "влияние" и выбрать Дональд Трамп из верхней части списка просить одобрить его, ни они не могут выбрать Барак Обама на шаг консервативной опираясь книги. Они должны взглянуть на "демографические влияния" каждого пользователя.

НеМногие платформы предлагают такой демографический уровень оценки влияния как часть их обычных дисплеев сводки.

На самом деле, немногие платформы раскрывают, как они вычисляют демографическую информацию, которую они предлагают для пользователей Twitter, от возраста к географии до уровня доходов и образования. Оценка местоположения твитов без геотегов является чрезвычайно сложной задачей, и большинство наиболее очевидных подходов на самом деле не работают.

Фильтрация твитов по странам происхождения, таким образом, невероятно подверженный ошибкам процесс в лучшем случае, с неопределенными результатами.

В более широком смысле, часто существует острый разрыв между маркетинговыми материалами многие социальные медиа аналитики платформ рекламировать и ограниченные реалии того, как эти платформы на самом деле работают. Например, платформы могут агрессивно продавать себя в качестве глубокого обучения компаний, которые использовать всю мощь нейронных сетей, чтобы иметь смысл щебетать. В действительности, некоторые оговорку эти претензии при дальнейшем рассмотрении, признавая, что они ограничивают их использование глубокого обучения лишь несколько мелких специальных инструментов и что эти инструменты, в свою очередь, ограничивается малым случайных образцов данных, с подавляющим большинством их результаты основываются на ненейронных подходах.

Короче говоря, не доверяйте маркетинговых брошюр компании-задать жесткие вопросы о том, каждый алгоритм, который вы будете использовать нейронные основе, наивный Байес или просто подсчета слов.

Для снижения вычислительной сложности таких инструментов, как облака слов, атрибутивные гистограммы, карты, индивидуальный анализ тональностей, кластеризация и другие более высокие заказы, некоторые компании ограничивают свои аналитические инструменты мелкими образцами общих данных. В то время как исходный запрос может соответствовать более чем четверть миллиарда Tweets, полученное слово облако может основываться только на самых последних 1 000 Tweets или случайной выборки из 10 000 Tweets, значительно уменьшая его охват. Некоторые платформы выводят заметные предупреждения в своих пользовательских интерфейсах об этой выборки, в то время как другие закопают эти предостережения глубоко в их технической документации.

ПоЛожив все это вместе, социальная аналитика средств массовой информации революции отражает более широкую тенденцию в мире больших данных: как мы собираем все больше архивов человеческого поведения, мы исследуем эти данные через все более непрозрачные алгоритмы. Мы лопатой ПБ данных через эти черные ящики и сообщить, что вышел другой конец, даже не малейшего понимания того, являются ли те, сообщил результаты в любом случае точной или значимой или как их точность может варьироваться от запроса к запросу. В свою очередь, предприятия и правительства делают очень реальные экономические и политические решения, основанные на числах, которые могли бы для всех намерений и целей просто были произведены генератором случайных чисел.

В конце концов, как мы можем принимать значимые решения о социальных медиа на основе результатов алгоритмов мы ничего не знаем о?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *