为什么我们需要更多的可见性进入我们使用的社交媒体分析算法

为什么我们需要更多的可见性进入我们使用的社交媒体分析算法

社交媒体日益成为我们观察现代人类世界的镜头。反过来, 庞大的社交媒体分析平台行业也成为我们利用这一镜头来理解社会的工具。然而, 尽管现实世界中的企业和政府对其结果作出了决定, 但我们对为大多数这些平台提供动力的算法, 特别是其边缘案例和解释细微差别, 所知甚少, 令人惊讶。我们如何根据我们一无所知的算法的结果, 对社交媒体做出有意义的决定?

如今, 几乎每个社交媒体分析平台都提供了某种形式的情绪分析, 通常是一个简单的正和负评分, 但偶尔也会提供一些额外的更细致入微的类别, 如喜悦或恐惧。

这些情绪得分已经成为了解社会趋势、对话题的反应进行分类以及帮助指导商业和营销决策的首选资源。

计算社交媒体情绪是一项极其困难的任务, 充满了复杂性。

不幸的是, 很少有社交媒体公司提供任何实质性的技术细节, 说明他们的情绪算法是如何工作的, 将它们视为专有的商业秘密。

一些人透露, 他们的系统是传统的简单的 "一袋字" 单词计数器, 它只是有两个单词列表, 一个用于 "正面" 单词, 一个用于 "否定" 单词, 只是计算每个列表中有多少一个小插曲的单词。有些人在每个单词的录音中添加一个分数, 以区分 "爱" 和 "喜欢" 或 "厌恶" 和 "厌恶"。有些使用更复杂的统计算法, 甚至神经算法。然而, 几乎没有人分享他们的实际单词列表或算法。

通过过滤到负或正的推特, 然后使用大多数平台提供的单词云直方图功能来查看哪些单词似乎主导了这些推特, 可以找到对情绪算法的基本可见性。这可以帮助识别特别明显的词汇不匹配。

例如, 有一个工具一直将篮球推特评为比足球推特负面得多。罪魁祸首是, 样本中的许多篮球推特上都含有 "球场" 这个词, 指的是篮球场, 而工具的情感字典则将 "球场" 贴上了一个非常负面的词的标签, 假设它总是指的是法律法庭。

同样, 另一项分析显示, 关于共和党人比民主党的推特积极得多, 因为在抽样期间, 民主党经常被简单地称为 "民主派", 而共和党人则一直被称为 "民主党"。共和党。算法错误地将 "当事人" 一词贴上了非常积极的标签。

以这种方式的逆向工程情感算法可以帮助识别算法的字典和正在检查的特定域之间的错位。一些社交分析平台允许用户手动调整应用于给定分析的情绪字典, 支持域调整, 但并非所有用户都这样做。这样的算法分析也可以提供其字典来源的线索, 一些平台使用的是修改较轻的知名开源情绪词典。

一些人提供了隐藏在内部用户文档中的线索, 比如他们的情绪系统最初是在公司成立时接受几十万或几百万条推特的培训的, 此后一直没有更新。事实上, 很少有人会在一小时内更新他们的字典, 以捕捉 twitter 的最新语言细微差别。

使用一本基于十年前抽样的几百万条推特的字典, 引起了人们对这些结果到底在衡量什么的严重关切。

大多数社交媒体分析平台用户不是数据科学家, 这意味着他们可能不会对这类问题进行批判性思考, 也不会对收到的结果进行系统评估。

语言检测是另一种不透明但至关重要的算法, 当搜索在不同语言中具有不同含义的单词或在一种语言中代表品牌名称但在另一种语言中表示一个品牌的名称的单词时, 这是一种不透明但至关重要的算法。

乍一看, 确定一个特定小插曲的语言似乎是相对微不足道的。然而, 由于文本数量少, 首字母缩写词和俚语术语的流行程度, 使得社交媒体内容在传统语言检测算法中特别困难。像 google chrome 浏览器语言检测 (cld2) 库这样的工具可以很容易地应用到具有相当可用结果的推文中, 但许多分析平台都部署了自己的自定义算法, 这些算法已针对社交用途进行了优化, 尤其是 twitter。

像 cld2 这样广泛使用的库具有很好的性能特征, 并在其边缘案例上有广泛的文档。有些, 如 cld2, 是完全开源的, 允许高级用户完全了解算法是如何达到其确定的, 并主动识别它可能难以解决的环境。

相比之下, 很少有社交媒体分析公司在记录其专有语言检测系统方面提供大量信息。许多人拒绝回答具体的技术问题, 包括其培训数据的算法类型、大小和来源, 将此类信息视为专有商业信息。

与情绪类似, 有时可以反向工程, 即给定公司的 "专有" 算法实际上只是一个标准库, 如 cld2, 具有一些基本的常识预处理步骤, 如删除超链接和 @username 引用。

然而, 在大多数情况下, 根本不可能知道公司的语言检测算法是如何工作的。

在解释第三方算法产生的结果时, 在不了解其细微差别和边缘情况的情况下, 依靠第三方算法是极其危险的。如果一个分析平台报告说, 荷兰人关于某一主题的推特在24个月内减少了 5倍, 几乎为零, 这是否真的意味着荷兰人已经不再谈论这个话题, 或者可能只是荷兰人推特的做法, 从俚语的使用到缩写, 都是以这样的方式发展起来的, 以至于公司的语言检测算法在检测语言方面的准确性越来越低?

如果没有额外的信息, 就无法知道所观察到的语言趋势是真实的还是仅仅是算法伪影。

比较多个社会分析公司的结果可以让人对观察到的趋势有信心, 但由于缺乏每个平台使用的基础算法的技术细节, 因此不可能知道它们是否都在使用相同的共享引擎盖下的算法。

许多平台对那些在推特上谈论某一特定话题的人提供了模糊的 "重要性" 或 "印象" 或 "影响" 的措施。有些国家至少提供了这些术语的基本定义, 例如总结所有用户在推特上谈论某一特定主题的关注者总数。然而, 这些方法在所有查询中都不是真正令人满意或有意义的。

如果唐纳德·特朗普在推特上支持一本新书, 他的支持很可能会导致一半的美国民众接受这本书, 另一半人将其妖魔化。同样, 如果巴拉克·奥巴马在推特上支持一本书, 其反应很可能与特朗普的支持完全相反。总之, 这两个人都有特定的人口和意识形态基础, 他们对之影响很大。

一个希望投出一个倾向于自由的新书的营销人员, 不能仅仅根据一个神奇的 "影响力" 分数对所有推特用户进行排名, 并从榜单的顶端挑选唐纳德·特朗普来要求认可它, 他们也不能选择巴拉克·奥巴马投出一个保守的倾向于自由的书。他们必须看看每个用户的 "影响力人口统计"。

很少有平台提供这种人口统计学水平的影响者分数作为其日常摘要显示的一部分。

事实上, 很少有平台透露他们如何计算他们为推特用户提供的人口信息, 从年龄到地理, 再到收入和教育水平。估计非地理标记推特的位置是一项极其困难的任务, 大多数最明显的方法实际上并不奏效。

因此, 按原籍国过滤推特充其量只是一个令人难以置信的容易出错的过程, 结果不确定。

更广泛地说, 许多社交媒体分析平台所宣扬的营销材料与这些平台实际工作的有限现实之间往往存在着巨大的鸿沟。例如, 平台可能会积极地将自己推销为深入学习的公司, 利用神经网络的全部力量来理解推特。在现实中, 一些人对这些说法进行进一步审查时提出了警告, 承认它们对深度学习的使用仅限于少数小的专业工具, 而这些工具又仅限于少量的随机数据样本, 其中绝大多数是结果是基于非神经方法。

简而言之, 不要相信公司的营销手册–要问你将要使用的每个算法是基于神经的、天真的贝叶斯还是简单的字数的难题。

为了降低字云、属性直方图、地图、自定义情绪分析、聚类分析和其他高阶分析等工具的计算复杂性, 一些公司将其分析工具限制在总数据的小样本中。虽然最初的查询可能匹配超过25亿条推特, 但产生的字云可能仅基于最近的 1, 000条推文或 10, 000条推特的随机样本, 从而大大缩小了其覆盖范围。一些平台在其用户界面中对此采样发出突出警告, 而另一些平台则将这些警告深入其技术文档中。

综合这一切, 社交媒体分析革命反映了大数据世界的更广泛趋势: 当我们收集越来越多的人类行为档案时, 我们通过越来越不透明的算法来探索这些数据。我们通过这些黑匣子铲出 pb 级的数据, 并报告对方的情况, 甚至没有最了解这些报告的结果是否以任何方式准确或有意义, 或者它们的准确性在不同的查询中可能会有怎样的变化。反过来, 企业和政府根据所有意图和目的都可以产生的数字作出非常真实的经济和政策决定, 这些数字只是由随机数生成器产生的。

最后, 我们如何才能根据我们一无所知的算法的结果, 对社交媒体做出有意义的决定?

发表评论

电子邮件地址不会被公开。 必填项已用*标注