لماذا نحتاج إلى مزيد من الرؤية في خوارزميات تحليلات وسائل التواصل الاجتماعي التي نستخدمها

لماذا نحتاج إلى مزيد من الرؤية في خوارزميات تحليلات وسائل التواصل الاجتماعي التي نستخدمها

وأصبحت وسائل الاعلام الاجتماعية بشكل متزايد العدسة التي نلاحظ من خلالها عالم الإنسان الحديث. المقابل ، أصبحت الصناعة الواسعة لمنصات تحليل وسائل الاعلام الاجتماعية الاداات التي نستخدم من خلالها تلك العدسة لجعل المجتمع مفهوما. ومع ذلك ، وعلي الرغم من الاعمال التجارية العالمية الحقيقية والقرارات الحكومية التي يجري اتخاذها علي نتائجها ، ونحن نعرف القليل من المستغرب عن خوارزميات المحرك معظم هذه المنابر ، وخاصه حالات الحافة والفروق التفسيرية. كيف يمكننا اتخاذ قرارات ذات مغزى حول وسائل الاعلام الاجتماعية استنادا إلى نتائج الخوارزميات التي لا نعرف شيئا عنها ؟

تقريبا كل منصة تحليلات وسائل الاعلام الاجتماعية اليوم يقدم شكلا من اشكال تحليل المشاعر, عاده بسيطه ايجابيه محايده-درجه سلبيه, ولكن أيضا في بعض الأحيان عدد قليل من فئات اضافيه أكثر دقه مثل الفرح أو الخوف.

وقد أصبحت عشرات المشاعر هذه موردا لفهم الاتجاات الاجتماعية ، وتصنيف رد الفعل علي الموضوعات ، والمساعدة في توجيه قرارات الاعمال والتسويق.

حساب مشاعر وسائل الاعلام الاجتماعية مهمة صعبه للغاية ، مليئه بالتعقيدات.

لسوء الحظ ، قله من شركات وسائل الاعلام الاجتماعية تقدم اي تفاصيل فنيه فنيه حول كيفيه عمل خوارزميات المشاعر الخاصة بهم ، ومعاملتهم كاسرار تجاريه خاصه.

ويكشف البعض عن ان أنظمتهم عبارة عن عدادات كلمات بسيطه تقليديه "كيس من الكلمات" تحتوي ببساطه علي قائمتين من الكلمات ، احداهما للكلمات "الايجابيه" والأخرى للكلمات "السلبية" ومجرد الاعتماد علي عدد كلمات التغريدة في كل قائمه. بعض أضافه درجه إلى كل كلمه تسجيل فقط كيف "ايجابيه" أو "سلبيه" هو عليه ، للتمييز بين "الحب" و "مثل" أو "الكراهية" و "يكرهون". بعض استخدام الاحصائيه أكثر تطورا أو حتى خوارزميات العصبية. ومع ذلك ، لا يوجد تقريبا مشاركه قوائم الكلمات الفعلية أو الخوارزميات.

يمكن العثور علي الرؤية البدائية في خوارزميات المشاعر عن طريق الترشيح لتغريدات سلبيه أو ايجابيه فقط ومن ثم استخدام ميزه الرسم البياني لسحابه الكلمة التي تقدمها معظم المنصات لمعرفه الكلمات التي يبدو انها تهيمن علي تلك التغريدات. ويمكن ان يساعد ذلك في تحديد التباينات الصارخة في المفردات.

فعلي سبيل المثال ، صنفت أحدي الاداات باستمرار تغريدات كره السلة بأنها أكثر سلبيه بكثير من تغريدات القدم. وتبين ان الجاني هو حقيقة ان العديد من تغريدات كره السلة في العينة تحتوي علي كلمه "المحكمة" للاشاره إلى ملعب كره السلة ، في حين ان القاموس المشاعر الاداه المسمي "المحكمة" ككلمه سلبيه للغاية ، علي افتراض انها دائما تشير إلى محكمه قانونيه.

المثل ، اظهر تحليل آخر تويت حول الجمهوريين كونها أكثر ايجابيه بكثير من تلك المتعلقة بالديمقراطيين لأنه خلال فتره العينة وغالبا ما يشار إلى الديمقراطيين ببساطه "الديمقراطيين" في حين يشار إلى الجمهوريين باستمرار باسم " الحزب الجمهوري ". تم تسميه كلمه "الطرف" بشكل غير صحيح بواسطة الخوارزميه ككلمه ايجابيه جدا.

يمكن ان تساعد خوارزميات المشاعر الهندسية العكسية بهذه الطريقة في تحديد المحاذاة بين قواميس الخوارزميه والمجال المحدد الذي يتم فحصه. تسمح بعض منصات التحليلات الاجتماعية للمستخدمين بضبط قواميس المشاعر المطبقة علي تحليل معين يدويا ، والتي تدعم التكيف مع المجال ، وان لم تفعل كل ذلك. هذا التحليل الخوارزميه يمكن أيضا ان تسفر عن أدله علي مصدر القاموس ، مع بعض المنصات باستخدام تعديل طفيف المعروفة القواميس المشاعر مفتوحة المصدر.

بعض الادله التي تم دفنها في وثائق المستخدم الداخلية ، مثل الاشاره إلى ان نظام المشاعر الخاصة بهم تم تدريبهم في البداية علي بضع مئات من آلاف أو بضعة ملايين تويت عندما تاسست الشركة لأول مره ولم يتم تحديث منذ ذلك الحين. في الواقع ، قليل من تحديث القواميس في الوقت الحقيقي ساعة بساعة للتقاط أحدث الفروق اللغوية من تويتر.

ان استخدام قاموس يستند إلى بضعة ملايين من التغريدات الماخوذه من قبل عقد من الزمن يثير مخاوف خطيره بشان ما هي النتائج الفعلية التي يتم قياسها فعلا.

معظم المستخدمين منصة تحليلات وسائل الاعلام الاجتماعية ليسوا علماء البيانات ، وهذا يعني انهم علي الأرجح لا يفكرون بشكل نقدي حول هذه الأنواع من الاسئله أو اجراء تقييمات منهجيه للنتائج التي تتلقاها.

الكشف عن اللغة هو خوارزميه أخرى مبهمه ولكنها ذات اهميه حاسمه عند البحث عن الكلمات التي لها معاني مختلفه في لغات مختلفه أو التي تمثل اسم العلامة التجارية في لغة واحده ولكن كلمه مشتركه لا علاقة لها في آخر.

للوهلة الاولي قد يبدو ان تكون تافه نسبيا لتحديد لغة سقسقه معينه. ومع ذلك ، فان كميه صغيره من النص وانتشار المصطلحات المختصرة والعامية يجعل محتوي وسائل الاعلام الاجتماعية صعبه للغاية بالنسبة خوارزميات الكشف عن اللغة التقليدية. يمكن تطبيق أدوات مثل مكتبه اكتشاف اللغة في Google Chrome (CLD2) بسهوله علي التغريدات ذات النتائج القابلة للاستخدام تماما ، ولكن العديد من منصات التحليلات تنشر خوارزميات مخصصه خاصه بها تم تحسينها للاستخدام الاجتماعي ، وخاصه تويتر.

المكتبات المستخدمة علي نطاق واسع مثل CLD2 لديها خصائص الأداء مفهومه جيدا ووثائق واسعه النطاق علي حالاتهم الحافة. بعض, مثل CLD2, هي مفتوحة تماما المصدر, السماح للمستخدمين المتقدمين لفهم تماما بالبالضبط كيف تصل الخوارزميه في قراراتها والتعرف بشكل استباقي بيئات حيث قد النضال.

وعلي النقيض من ذلك ، فان عددا قليلا من شركات تحليل وسائل الاعلام الاجتماعية تقدم الكثير في طريقه توثيق نظمها الخاصة بالكشف عن اللغة. ويرفض العديد منها الاجابه علي اسئله تقنيه محدده ، بما في ذلك نوع الخوارزميه وحجم ومنشا بيانات التدريب الخاصة بها ، ومعالجه هذه المعلومات كمعلومات تجاريه مسجله الملكية.

علي غرار المشاعر ، فمن الممكن في بعض الأحيان لعكس مهندس ان خوارزميه شركه معينه "الملكية" هو في الواقع مجرد مكتبه قياسيه مثل CLD2 مع عدد قليل من الخطوات الاساسيه المعالجة المسبقة مثل أزاله الارتباطات التشعبية والمراجع ال@usernameه.

معظم الوقت ، ومع ذلك ، فانه من المستحيل ببساطه ان نعرف كيف وظائف خوارزميه الكشف عن اللغة الشركة.

الاعتماد علي خوارزميه الطرف الثالث دون اي فهم للفروق الدقيقة وحالات الحافة خطيره للغاية عندما يتعلق الأمر بتفسير النتائج التي تنتجها. إذا كانت منصة التحليلات تفيد بان التغريدات الهولندية حول موضوع ما قد انخفضت بمقدار خمسه اضعاف خلال فتره 24 شهرا إلى الصفر تقريبا ، فهل يعني ذلك حقا ان الهولنديين قد توقفوا ببساطه عن الحديث عن هذا الموضوع أو يمكن ان يكون ذلك ببساطه ان الهولندية وقد تطورت ممارسات تويتر ، من الاستخدام العامي إلى الاختصارات ، بحيث أصبحت خوارزميه الكشف عن اللغة في الشركة اقل واقل دقه في الكشف عن اللغة ؟

بدون معلومات اضافيه لا توجد طريقه لمعرفه ما إذا كانت الاتجاات اللغوية التي يتم ملاحظتها حقيقية أو مجرد التحف الخوارزميه.

مقارنه النتائج عبر العديد من شركات التحليلات الاجتماعية يمكن ان تضفي الثقة علي الاتجاات الملحوظة ، ولكن الافتقار إلى التفاصيل التقنية علي الخوارزميات الاساسيه المستخدمة من قبل كل منصة يجعل من المستحيل معرفه ما إذا كانت كلها في الواقع باستخدام نفس المشتركة الخوارزميات تحت غطاء محرك السيارت.

توفر العديد من المنصات مقاييس مبهمه من "الاهميه" أو "الانطباعات" أو "تاثير" تلك التغريدات حول موضوع معين. ويقدم بعضها علي الأقل تعريفات أساسيه لتلك المصطلحات ، مثل تلخيص العدد الإجمالي لمتابعي جميع المستخدمين الذين قاموا بالتغريد حول موضوع معين. ومع ذلك ، فان أيا من هذه النهج ليس مرضيا أو مفيدا بالفعل عبر جميع الاستفسارات.

وإذا قام دونالد ترامب بتغريد دعمه لكتاب جديد ، فمن المرجح ان يؤدي تاييده إلى ان يقود نصف سكان الولايات الامريكيه الكتاب والنصف الآخر إلى تشويه صورته. المثل ، إذا قام باراك أوباما بتغريد دعمه للكتاب ، فان رد الفعل سيكون علي الأرجح معكوسا بالبالضبط عن تاييد ترامب. وباختصار ، يتمتع كلا الفردين بقاعده ديمغرافية وايديولوجيه محدده لهما تاثير كبير عليهما.

مسوق الراغبة في الملعب كتاب جديد يميل الليبرالية لا يمكن فقط ترتيب جميع مستخدمي تويتر بدرجه واحده السحرية من "النفوذ" واختيار دونالد ترامب من اعلي القائمة لطلب للموافقة عليه ولا يمكن ان يختاروا باراك أوباما إلى الملعب كتاب يميل المحافظ. لديهم للنظر في "التركيبة السكانية للتاثير" لكل مستخدم.

تقدم منصات قليله مثل هذه الدرجات مؤثر علي المستوي الديمغرافي كجزء من عروض التلخيص الروتينية الخاصة بهم.

في الواقع ، عدد قليل من منصات الإفصاح عن كيفيه حساب المعلومات الديموغرافية التي تقدمها لمستخدمي تويتر ، من العمر إلى الجغرافيا إلى مستويات الدخل والتعليم. يعتبر تقدير موقع التغريدات غير الجغرافية مهمة صعبه للغاية ومعظم النهج الأكثر وضوحا لا تعمل بالفعل.

تصفيه تويت حسب بلد المنشا هو بالتالي خطا بشكل لا يصدق عمليه عرضه في أحسن الطرق ، مع نتائج غير مؤكده.

وعلي نطاق أوسع ، هناك في كثير من الأحيان فجوه حاده بين المواد التسويقية العديد من منصات تحليل وسائل الاعلام الاجتماعية والحقائق المحدودة لكيفيه عمل تلك المنصات فعلا. علي سبيل المثال ، قد المنصات السوق بقوة نفسها كشركات التعلم العميق التي تسخر القوه الكاملة للشبكات العصبية لجعل الشعور تويتر. وفي الواقع ، فان البعض يحذر من هذه الادعاءات بعد مزيد من التمحيص ، مع الإقرار بأنها تحد من استخدامها للتعلم العميق لمجرد بضع أدوات تخصصيه ثانويه ، وان تلك الاداات تقتصر بدورها علي عينات عشوائية صغيره من البيانات ، مع الاغلبيه الساحقة من النتائج التي تستند إلى النهج غير العصبية.

باختصار ، لا تثق بكتيبات التسويق الخاصة بالشركة – أسال الاسئله الصعبة حول ما إذا كانت كل خوارزميه ستستخدمها تعتمد علي العصبية ، أو الساذجة ، أو مجرد عد الكلمات.

لتقليل التعقيد الحسابي للأدوات مثل الغيوم الكلمة ، والرسوم البيانية السمة ، والخرائط ، وتحليل المشاعر حسب الطلب ، والتكتلات وغيرها من تحليلات النظام الأعلى ، وبعض الشركات الحد من أدوات التحليلات إلى عينات صغيره من إجمالي البيانات. في حين ان الاستعلام الأصلي قد يتطابق مع أكثر من ربع مليار تغريده ، فقد تستند سحابه الكلمات الناتجة إلى أكثر من تغريدات 1,000 فقط أو عينه عشوائية من 10,000 تغريده ، مما يقلل من تغطيتها بشكل كبير. بعض منصات وضع تحذيرات بارزه في واجات المستخدم الخاصة بهم حول هذه العينات ، في حين ان آخرين دفن هذه المحاذير في عمق الوثائق الفنية.

وبوضع كل هذا معا ، تعكس ثوره تحليلات وسائل الاعلام الاجتماعية اتجاها أوسع نطاقا لعالم البيانات الكبيرة: ونحن نجمع أرشيفات أكبر من اي وقت مضي للسلوك البشري ، نستكشف تلك البيانات من خلال خوارزميات أكثر غموضا من اي وقت مضي. نحن مجرفه بيتابايت من البيانات من خلال هذه الصناديق السوداء وتقرير ما خرج الطرف الآخر دون حتى أضعف فهم ما إذا كانت تلك النتائج المبلغ عنها بأي شكل من الاشكال دقيقه أو ذات مغزى أو كيف قد تختلف دقتها من الاستعلام إلى الاستعلام. وبدورها ، فان الشركات والحكومات تتخذ قرارات اقتصاديه وسياسيه حقيقية جدا استنادا إلى الأرقام التي يمكن ان تنتج لجميع المقاصد والأغراض ببساطه عن طريق مولد رقم عشوائي.

في النهاية ، كيف يمكننا اتخاذ قرارات ذات مغزى حول وسائل الاعلام الاجتماعية استنادا إلى نتائج الخوارزميات التي لا نعرف شيئا عنها ؟

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *