当社が使用するソーシャルメディア分析アルゴリズムの可視性が必要な理由

当社が使用するソーシャルメディア分析アルゴリズムの可視性が必要な理由

ソーシャルメディアは、私たちが現代の人間の世界を観察するために、ますますレンズとなっています。さらに、ソーシャルメディア分析プラットフォームの広大な産業は、私たちがそのレンズを使って社会を理解するための手段となっています。しかし、実際のビジネスと政府の決定が結果に基づいて行われているにもかかわらず、これらのプラットフォームのほとんどに電力を供給するアルゴリズム、特にエッジケースと解釈ニュアンスについては、驚くほどわかりません。何も知らないアルゴリズムの結果に基づいて、ソーシャルメディアについて有意義な決定を下すにはどうすればよいでしょうか。

ほぼすべてのソーシャルメディア分析プラットフォームは、今日、感情分析のいくつかのフォームを提供しています, 典型的には、単純な肯定的中立否定的なスコア, また時折いくつかのさらに多くの微妙なカテゴリ喜びや恐怖など.

これらのセンチメントスコアは、社会動向を理解し、トピックへの反応を分類し、ビジネスとマーケティングの意思決定を支援するためのリソースとなっています。

ソーシャルメディアのセンチメントを計算することは、複雑で満たされた非常に困難な作業です。

残念ながら、ソーシャルメディア企業は、センチメントアルゴリズムがどのように機能するかについての技術的な詳細を提供しており、独自のビジネスシークレットとして扱っています。

いくつかは、彼らのシステムは、単に単語の2つのリストを持っている従来の単純な「単語の袋」の単語のカウンターであることを開示します, 「肯定的な」単語のための1と「否定的な」単語のための1とちょうどつぶやきの単語の数は、各リストにあるカウントアップ. いくつかは、「愛」と「好き」または「嫌う」と「嫌い」を区別するために、それがどのように「肯定的」または「否定的」を記録各単語にスコアを追加します。いくつかは、より洗練された統計またはニューラルアルゴリズムを使用します。しかし、ほとんどどれも実際の単語リストやアルゴリズムを共有しています。

センチメントアルゴリズムの基本的な可視性は、ネガティブまたはポジティブツイートだけにフィルタリングしてから、ほとんどのプラットフォームで提供される word cloud ヒストグラム機能を使用して、それらのツイートを支配していると思われる単語を確認することで見つけることができます。これは、特に明白で語彙の不一致を識別するのに役立ちます。

たとえば、あるツールが常にバスケットボールのツイートをサッカーのツイートよりも実質的に否定的なものとしてランク付けします。犯人は、サンプルの多くのバスケットボールのつぶやきは、それが常に法律裁判所を参照していると仮定して、ツールのセンチメント辞書は非常に否定的な言葉として「裁判所」というラベルが、バスケットボールコートを参照する単語「裁判所」を含んでいたという事実であることが判明しました。

同様に、共和党員についてのつぶやきは、サンプル期間中、民主党員は「民主党」と呼ばれ、共和党は一貫して「共和党。単語 "党" は、非常に肯定的な言葉としてアルゴリズムによって誤ってラベル付けされていました。

この方法でセンチメントアルゴリズムをリバースエンジニアリングすると、アルゴリズムのディクショナリと、検査される特定のドメインとの間のミスアラインメントを識別するのに役立ちます。一部のソーシャル分析プラットフォームでは、ユーザーが特定の分析に適用されたセンチメントディクショナリを手動で調整し、ドメインの適応をサポートすることができます。このようなアルゴリズム分析は、その辞書の出所についての手がかりを生み出すこともでき、一部のプラットフォームでは、よく知られたオープンソースのセンチメント辞書を軽く修正しています。

企業が最初に設立されて以来更新されていないときに、センチメントシステムが最初に数10万または数百万のツイートで訓練されたことに注意するなど、内部ユーザードキュメントに埋もれている手がかりを提供するものもあります。実際には、Twitter の最新の言語のニュアンスをキャプチャするために、時間ごとにリアルタイムで辞書を更新することはほとんどありません。

10年前からサンプリングされた数百万のツイートに基づいて辞書を使用すると、その結果が実際に何を測定しているかについて重大な懸念を提起します。

ほとんどのソーシャルメディア分析プラットフォームユーザーは、データサイエンティストではないため、これらの質問に批判的に考えたり、受け取った結果の体系的な評価を行ったりすることはありません。

言語検出は、別の言語で異なる意味を持つ単語を検索するとき、または1つの言語ではなく、別の共通の無関係の単語でブランドの名前を表す言葉を探すときに、もう一つの不透明ですが、非常に重要なアルゴリズムです。

一見すると、特定のツイートの言語を判断するのは比較的些細なことに思えるかもしれません。しかし、少量のテキストと頭字語とスラングの用語集の普及により、ソーシャルメディアコンテンツは、従来の言語検出アルゴリズムでは特に困難になります。Google Chrome 言語検出 (CLD2) ライブラリのようなツールは、非常に使用可能な結果を持つツイートに簡単に適用できますが、多くの分析プラットフォームは、特に Twitter のように、ソーシャルユース向けに最適化された独自のカスタムアルゴリズムを展開しています。

CLD2 のような広く使用されているライブラリは、エッジケースに関するパフォーマンス特性と広範囲のドキュメンテーションをよく理解しています。CLD2 のようないくつかは完全にオープンソースであり、高度なユーザーがアルゴリズムの決定にどのように到達するかを正確に理解し、それが苦労する環境をプロアクティブに識別することができます。

対照的に、いくつかのソーシャルメディア分析会社は、独自の言語検出システムの文書化の方法を多く提供しています。このような情報を独自のビジネス情報として扱うことで、アルゴリズムの種類、サイズ、およびそのトレーニングデータの出所など、特定の技術的質問に対する回答が多くなります。

センチメントと同様に、特定の企業の「専有」アルゴリズムが実際には、ハイパーリンクや @username 参照を削除するようないくつかの基本的な常識の前処理ステップを持つ CLD2 のような標準的なライブラリであることをリバースエンジニアリングすることができる場合があります。

しかし、ほとんどの場合、会社の言語検出アルゴリズムがどのように機能するかを知ることは、単に不可能です。

そのニュアンスとエッジケースを理解せずにサードパーティのアルゴリズムに頼ることは、それがもたらす結果を解釈することになると非常に危険です。分析プラットフォームが、トピックについてのオランダ語のつぶやきが、ほぼゼロまでの24か月の期間に5倍減少したと報告した場合、オランダ人が単にその話題について話しているのをやめたことを意味するのではなく、単にそのオランダ語スラングの用法から略語まで、Twitter の実践は、言語検出において会社の言語検知アルゴリズムがますます正確になりつつあるように進化してきましたか?

追加情報がないと、観察されている言語の傾向が実際のものか、単にアルゴリズムの成果物かを知る方法はありません。

複数のソーシャル分析企業間で結果を比較すると、観察された傾向に自信を貸すことができますが、各プラットフォームで使用する基礎アルゴリズムの技術的な詳細がないと、それらがすべて同じ共有を使用しているかどうかを知ることが不可能になりますボンネットの下のアルゴリズム。

多くのプラットフォームは、特定のトピックについてのつぶやきの「重要性」または「印象」または「影響」の漠然とした手段を提供します。特定のトピックについてツイートするすべてのユーザーのフォロワーの総数を合計するなど、これらの用語の少なくとも基本的な定義を提供するものもあります。しかし、これらのアプローチのいずれも、すべてのクエリで真に満足または意味のあるものではありません。

ドナルド・トランプは、新しい本の彼のサポートをつぶやき場合, 彼の支持は、本を受け入れると、それを悪霊するために、残りの半分の米国の人口の半分をリードする可能性があります. 同様に、バラク・オバマが本の支持をツイートすれば、その反応はトランプの裏書とは正反対になるだろう。要するに、両方の個人は、彼らが非常に影響力のある特定の人口統計とイデオロギーのベースを持っています。

リベラル派の新しい本を売り込みたいマーケティング担当者は、すべての Twitter ユーザーを「影響」の1つの魔法のスコアでランク付けし、リストのトップからドナルド・トランプを選び、それを支持するように頼むことも、バラク・オバマを選んで保守的な本をピッチにすることもできません。彼らは、各ユーザーの「影響の人口統計」を見なければなりません。

いくつかのプラットフォームは、そのような人口統計レベルのインフルエンサスコアをルーチンサマリーディスプレイの一部として提供しています。

実際、少数のプラットフォームでは、年齢から地域、収入、教育レベルに至るまで、Twitter ユーザーに対して提供される人口統計情報をどのように計算するかを漏らしています。非ジオタグツイートの位置を推定することは非常に困難な作業であり、最も明白なアプローチの大半は実際には機能しません。

オリジンの国によってツイートをフィルタリングすることは、このように不確実な結果と、最高の時に非常にエラーが発生しやすいプロセスです。

多くの場合、マーケティング資料とソーシャルメディア分析プラットフォームの tout の間には鋭い格差があり、それらのプラットフォームが実際にどのように機能するかという限られた現実があります。例えば、プラットフォームは、Twitter の意味を理解するためにニューラルネットワークのフルパワーを活用するディープラーニング企業として積極的に市場を開拓するかもしれません。実際には、いくつかの警告は、さらに精査の上で、彼らはいくつかのマイナーな専門ツールにディープラーニングの使用を制限していることを認め、それらのツールは順番に彼らの圧倒的多数のデータの小さな無作為のサンプルに制限されていることを認める、結果は非ニューラルアプローチに基づいています。

要するに、会社のマーケティングパンフレットを信用してはいけない-あなたが使用する各アルゴリズムは、ニューラルベース、ナイーブベイズまたは単に単語カウントであるかどうかについての難しい質問をしてください。

ワードクラウド、属性ヒストグラム、マップ、カスタマイズされたセンチメント分析、クラスタリング、その他の高次分析などのツールの計算の複雑さを軽減するために、一部の企業では分析ツールを合計データの小さなサンプルに限定しています。元のクエリが四半期のつぶやきよりも一致する可能性がありますが、結果として得られるワードクラウドは、最新の1000ツイートまたは1万ツイートのランダムサンプルに基づいている可能性があり、その範囲は大幅に削減されます。一部のプラットフォームでは、このサンプリングについてユーザーインターフェイスに目立つ警告が表示されますが、技術的なドキュメントではこれらの注意を深く埋めるものもあります。

これをすべてまとめると、ソーシャルメディア分析の革命はビッグデータの世界のより広範な傾向を反映しています: 人間の行動のより大きなアーカイブを組み立てるとき、我々はこれまで以上に不透明なアルゴリズムを通してそのデータを探求します。これらのブラックボックスを通じてペタバイト規模のデータをシャベルし、報告された結果がどのように正確で意味があるか、またはクエリごとに精度がどのように変化するかをかすかに理解しなくても、もう一方の端から出たものを報告します。順番に、企業や政府は、すべての意図や目的のために可能性のある数字に基づいて、非常に実質的な経済と政策の決定を行うことは、単に乱数発生器によって生成されています。

最後に、何も知らないアルゴリズムの結果に基づいて、ソーシャルメディアについて有意義な決定を下すにはどうすればよいでしょうか。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です