हम सामाजिक मीडिया विश्लेषिकी एल्गोरिदम हम उपयोग में अधिक दृश्यता क्यों की जरूरत है

हम सामाजिक मीडिया विश्लेषिकी एल्गोरिदम हम उपयोग में अधिक दृश्यता क्यों की जरूरत है

सामाजिक मीडिया तेजी से लेंस जिसके माध्यम से हम आधुनिक मानव दुनिया का निरीक्षण बन गया है । बारी में, सामाजिक मीडिया विश्लेषिकी प्लेटफार्मों के विशाल उद्योग उपकरण है जिसके माध्यम से हम उस लेंस का उपयोग करने के लिए समाज की भावना हो गया है । फिर भी, असली दुनिया के कारोबार और सरकारी फैसलों के बावजूद उनके परिणामों पर किया जा रहा है, हम आश्चर्यजनक रूप से इन प्लेटफार्मों की सबसे powering एल्गोरिदम के बारे में थोड़ा पता है, विशेष रूप से उनके किनारे मामलों और interpretative बारीकियों । हम कैसे एल्गोरिदम के परिणामों के आधार पर सामाजिक मीडिया के बारे में सार्थक निर्णय कर सकते है हम के बारे में कुछ नहीं पता है?

लगभग हर सामाजिक मीडिया विश्लेषिकी मंच आज भावना विश्लेषण के कुछ फार्म, आम तौर पर एक साधारण सकारात्मक-तटस्थ नकारात्मक स्कोर प्रदान करता है, लेकिन यह भी कभी कभार खुशी या डर की तरह कुछ अतिरिक्त सूक्ष्म श्रेणियों ।

ये भावना स्कोर सामाजिक प्रवृत्तियों को समझने के लिए एक जाने-संसाधन के लिए, विषयों के लिए प्रतिक्रिया वर्गीकृत और गाइड व्यापार और विपणन निर्णय की मदद करने के लिए बन गए हैं ।

सामाजिक मीडिया भावना की गणना एक अत्यंत कठिन काम है, जटिलताओं से भरा है ।

दुर्भाग्य से, कुछ सामाजिक मीडिया कंपनियों को कैसे उनकी भावना एल्गोरिदम काम पर कोई ठोस तकनीकी विस्तार प्रदान करते हैं, उंहें स्वामित्व व्यापार रहस्य के रूप में इलाज ।

कुछ खुलासा है कि उनके सिस्टम पारंपरिक शब्दों का सरल "बैग" शब्द काउंटर है कि बस शब्दों के दो सूची, "के लिए सकारात्मक" शब्द और एक के लिए "नकारात्मक" शब्द है और सिर्फ एक कलरव शब्दों के कितने गिनती है एक सूची में हैं । कुछ एक शब्द रिकॉर्डिंग के लिए एक अंक जोड़ने बस कैसे "सकारात्मक" या "नकारात्मक" यह है, के बीच अंतर करने के लिए "प्यार" और "की तरह" या "घृणा" और "नापसंद." कुछ और अधिक परिष्कृत सांख्यिकीय या यहां तक कि तंत्रिका एल्गोरिदम का उपयोग करें । हालांकि, लगभग कोई भी उनके वास्तविक शब्द सूचियों या एल्गोरिदम साझा करें ।

भावना एल्गोरिदम में मामूली दृश्यता सिर्फ नकारात्मक या सकारात्मक tweets को छानने से पाया जा सकता है और फिर शब्द बादल हिस्टोग्राम सबसे प्लेटफार्मों द्वारा की पेशकश की सुविधा का उपयोग कर देखने के लिए जो शब्द उन tweets हावी लग रहे हैं । यह विशेष रूप से स्पष्ट शब्दावली बेमेल की पहचान में मदद कर सकते हैं ।

उदाहरण के लिए, एक उपकरण लगातार फुटबॉल tweets से काफी अधिक नकारात्मक के रूप में बास्केटबॉल tweets स्थान पर रहीं । अपराधी निकला तथ्य यह है कि कई बास्केटबॉल के नमूने में tweets शब्द "अदालत" समाहित करने के लिए बास्केटबॉल कोर्ट का उल्लेख है, जबकि उपकरण भावना शब्दकोश "अदालत" लेबल एक अत्यंत नकारात्मक शब्द के रूप में, यह मानते हुए हमेशा एक कानूनी अदालत को भेजा ।

इसी तरह, एक और विश्लेषण रिपब्लिकन के बारे में tweets दिखाया जा रहा है क्योंकि नमूना अवधि के डेमोक्रेट के दौरान डेमोक्रेट के बारे में उन से कहीं अधिक सकारात्मक अक्सर के रूप में बस "डेमोक्रेट" रिपब्लिकन जबकि लगातार के रूप में निर्दिष्ट किया गया " रिपब्लिकन पार्टी. " शब्द "पार्टी" गलत तरीके से एक बहुत ही सकारात्मक शब्द के रूप में एल्गोरिथ्म द्वारा लेबल किया जा रहा था ।

इस फैशन में रिवर्स इंजीनियरिंग भावना एल्गोरिदम एल्गोरिथ्म के शब्दकोशों और विशिष्ट डोमेन की जांच की जा रही के बीच ग़लत संरेखण की पहचान करने में मदद कर सकते हैं । कुछ सामाजिक विश्लेषिकी प्लेटफार्मों अपने उपयोगकर्ताओं को मैंयुअल रूप से भावना को समायोजित करने की अनुमति एक दिया विश्लेषण के लिए आवेदन शब्दकोशों, डोमेन अनुकूलन का समर्थन है, हालांकि सब नहीं है । इस तरह के एल्गोरिथम विश्लेषण भी अपने शब्दकोश की सिद्धी के रूप में सुराग उपज कर सकते हैं, कुछ हल्के ढंग से संशोधित अच्छी तरह से ज्ञात खुला स्रोत भावना शब्दकोशों का उपयोग कर प्लेटफार्मों के साथ.

कुछ ऐसे टिप्पण के रूप में अपने आंतरिक उपयोगकर्ता प्रलेखन, में दफन सुराग प्रदान करते है कि उनकी भावना प्रणाली शुरू में कुछ सौ या कुछ लाख tweets पर प्रशिक्षित किया गया था जब कंपनी पहले की स्थापना की और के बाद से अद्यतन नहीं किया गया है । वास्तव में, कुछ realtime घंटे में अपने शब्दकोशों अद्यतन से घंटे के लिए चहचहाना के नवीनतम भाषाई बारीकियों पर कब्जा ।

एक कुछ लाख tweets एक दशक पहले से नमूना के आधार पर एक शब्दकोश का प्रयोग सिर्फ क्या उन परिणामों वास्तव में मापने रहे है के बारे में गंभीर चिंताओं को उठाती है ।

अधिकांश सामाजिक मीडिया विश्लेषिकी मंच उपयोगकर्ताओं को डेटा वैज्ञानिक नहीं हैं, जिसका अर्थ है कि वे गंभीर प्रश्नों के इन प्रकार के बारे में सोच या परिणाम वे प्राप्त की व्यवस्थित मूल्यांकन प्रदर्शन के बारे में विचार नहीं कर रहे हैं ।

भाषा का पता लगाने के एक और अपारदर्शी लेकिन गंभीर रूप से महत्वपूर्ण एल्गोरिथ्म जब शब्दों है कि विभिंन भाषाओं में अलग अर्थ है या जो एक भाषा में एक ब्रांड के नाम का प्रतिनिधित्व करते हैं, लेकिन एक अंय में एक आम असंबंधित शब्द के लिए खोज ।

पहली नज़र में यह अपेक्षाकृत तुच्छ के लिए एक दिया कलरव की भाषा का निर्धारण लग सकता है । हालांकि, पाठ और परिवर्णी शब्द और खिचड़ी भाषा की व्यापकता की छोटी राशि सामाजिक मीडिया सामग्री विशेष रूप से पारंपरिक भाषा का पता लगाने एल्गोरिदम के लिए मुश्किल बना देता है । गूगल क्रोम भाषा का पता लगाने (CLD2) पुस्तकालय जैसे उपकरण आसानी से काफी प्रयोग करने योग्य परिणाम के साथ tweets पर लागू किया जा सकता है, लेकिन कई विश्लेषिकी प्लेटफार्मों अपने स्वयं के कस्टम एल्गोरिदम कि सामाजिक उपयोग के लिए अनुकूलित किया गया है तैनात, विशेष रूप से चहचहाना ।

CLD2 तरह व्यापक रूप से इस्तेमाल किया पुस्तकालयों अच्छी तरह से समझ प्रदर्शन विशेषताओं और उनके किनारे मामलों पर व्यापक प्रलेखन है । कुछ, CLD2 की तरह, पूरी तरह से खुला स्रोत हैं, की अनुमति उंनत उपयोगकर्ताओं को पूरी तरह से समझ कैसे एल्गोरिथ्म अपने निर्धारणों में आता है और लगातार जहां यह संघर्ष कर सकते है वातावरण की पहचान करने के लिए ।

इसके विपरीत, कुछ सामाजिक मीडिया विश्लेषिकी फर्मों अपने स्वामित्व भाषा का पता लगाने प्रणालियों के प्रलेखन के रास्ते में बहुत प्रदान करते हैं । कई विशिष्ट तकनीकी प्रश्नों का उत्तर देने के लिए गिरावट, एल्गोरिथ्म प्रकार और आकार और इसके प्रशिक्षण डेटा के मूल सहित, मालिकाना व्यापार जानकारी के रूप में ऐसी जानकारी के इलाज ।

भावना के समान है, यह कभी कभार इंजीनियर है कि एक कंपनी "मालिकाना" एल्गोरिथ्म वास्तविकता में बस कुछ बुनियादी commonsense hyperlinks और @username संदर्भ को हटाने जैसे कदम के साथ CLD2 की तरह एक मानक पुस्तकालय है रिवर्स संभव है ।

समय के अधिकांश, तथापि, यह बस को पता है कि एक कंपनी की भाषा का पता लगाने के एल्गोरिथ्म कार्य असंभव है ।

इसकी बारीकियों और बढ़त के मामलों की किसी भी समझ के बिना एक तीसरे पक्ष के एल्गोरिथ्म पर निर्भर अत्यंत खतरनाक है जब यह परिणाम यह पैदावार की व्याख्या करने के लिए आता है. अगर एक विश्लेषिकी मंच की रिपोर्ट है कि एक विषय के बारे में डच tweets पांच से कम है एक 24 महीने की अवधि के लगभग शूंय से नीचे गुना, कि वास्तव में मतलब है कि डच बस है कि विषय के बारे में बात कर बंद कर दिया है या यह हो सकता है बजाय बस हो कि डच चहचहाना प्रथाओं, खिचड़ी भाषा के उपयोग से संक्षिप्त करने के लिए, इस तरह से है कि कंपनी की भाषा का पता लगाने एल्गोरिथ्म कम होता जा रहा है और कम सही में विकसित किया है?

अतिरिक्त जानकारी के बिना वहां कोई रास्ता नहीं पता है कि भाषाई प्रवृत्तियों मनाया जा रहा है असली है या केवल एल्गोरिथम कलाकृतियों रहे हैं ।

कई सामाजिक विश्लेषिकी कंपनियों में परिणाम की तुलना विश्वास को मनाया प्रवृत्तियों को उधार दे सकते हैं, लेकिन अंतर्निहित प्रत्येक मंच द्वारा इस्तेमाल किया एल्गोरिदम पर तकनीकी विस्तार की कमी यह असंभव को पता है कि क्या वे सभी वास्तविकता में एक ही साझा का उपयोग कर रहे है बनाता है हुड के तहत एल्गोरिदम ।

कई प्लेटफार्मों "महत्व" या "छापों" या किसी दिए गए विषय के बारे में ट्वीट करने वालों के "प्रभाव" अस्पष्ट उपायों की पेशकश करते हैं । कुछ ऐसे सभी उपयोगकर्ताओं के अनुयायियों की कुल संख्या संक्षेप के रूप में उन शब्दों की, जो एक दिए गए विषय के बारे में ट्वीट की बुनियादी परिभाषा कम प्रदान करते हैं । फिर भी, इन तरीकों में से कोई भी वास्तव में संतोषजनक है या सार्थक सभी प्रश्नों में ।

अगर डोनाल्ड ट्रम्प एक नई किताब के अपने समर्थन tweets, उनके समर्थन के लिए अमेरिका की आबादी का एक आधा नेतृत्व करने के लिए पुस्तक गले और दूसरे आधे के लिए यह demonize की संभावना है । इसी तरह, अगर बराक ओबामा एक किताब के अपने समर्थन tweets, प्रतिक्रिया की संभावना ठीक है ट्रम्प के समर्थन की है कि से उलटा हो जाएगा । संक्षेप में, दोनों व्यक्तियों के एक विशिष्ट जनसांख्यिकीय और वैचारिक आधार वे अत्यधिक प्रभावशाली हैं ।

एक के लिए एक उदार-झुकाव नई किताब बस "प्रभाव" और सूची के शीर्ष से डोनाल्ड ट्रम्प लेने के लिए यह समर्थन पूछने के लिए और न ही वे एक रूढ़िवादी झुक पुस्तक पिच करने के लिए बराक ओबामा उठा सकता है की एक जादुई स्कोर द्वारा सभी चहचहाना उपयोगकर्ताओं को रैंक कर सकते हैं । वे प्रत्येक उपयोगकर्ता के "प्रभाव की जनसांख्यिकी" को देखने के लिए है ।

कुछ प्लेटफार्मों अपनी दिनचर्या सारांश प्रदर्शित करता है के भाग के रूप में इस तरह के जनसांख्यिकीय स्तर प्रभावित स्कोर प्रदान करते हैं ।

वास्तव में, कुछ प्लेटफार्मों प्रकट कैसे वे जनसांख्यिकीय जानकारी वे चहचहाना उपयोगकर्ताओं के लिए प्रस्ताव की गणना, उंर से भूगोल के लिए आय और शिक्षा के स्तर पर । गैर geotagged tweets के स्थान का आकलन एक बहुत ही मुश्किल काम है और सबसे स्पष्ट दृष्टिकोण के बहुमत वास्तव में काम नहीं करते ।

मूल देश द्वारा फ़िल्टरिंग tweets इस प्रकार एक अविश्वसनीय रूप से त्रुटि प्रवण प्रक्रिया में सबसे अच्छा है, अनिश्चित परिणामों के साथ ।

अधिक मोटे तौर पर, वहां अक्सर विपणन सामग्री कई सामाजिक मीडिया विश्लेषिकी प्लेटफार्मों दलाल और कैसे उन प्लेटफार्मों वास्तव में काम की सीमित वास्तविकताओं के बीच एक तेजी से विभाजित है । उदाहरण के लिए, प्लेटफार्मों आक्रामक रूप से खुद को गहरी शिक्षा कंपनियों है कि उपयोग तंत्रिका नेटवर्क की पूरी शक्ति चहचहाना की भावना बनाने के रूप में बाजार सकता है । वास्तव में, कुछ आगे की जांच पर उन दावों को चेतावनी, स्वीकार करते है कि वे गहरी सीखने के अपने उपयोग की सीमा सिर्फ कुछ मामूली विशेषता उपकरण और है कि उन उपकरणों के आंकड़ों के छोटे यादृच्छिक नमूनों को सीमित बारी में हैं, के भारी बहुमत के साथ उनके परिणाम गैर पर आधारित किया जा रहा तंत्रिका दृष्टिकोण ।

संक्षेप में, एक कंपनी के विपणन ब्रोशर पर भरोसा नहीं है-क्या प्रत्येक एल्गोरिथ्म आप का उपयोग किया जाएगा के बारे में कठिन सवाल पूछना तंत्रिका आधारित है, भोली Bayesian या बस शब्द गिनती ।

शब्द बादल, विशेषता हिस्टोग्राम, मैप्स, अनुकूलित भावना विश्लेषण, क्लस्टरिंग और अन्य उच्च आदेश विश्लेषण जैसे उपकरणों की गणना की जटिलता को कम करने के लिए, कुछ कंपनियों ने कुल डेटा के छोटे नमूने के लिए अपने विश्लेषिकी उपकरण सीमित । मूल क्वेरी एक से अधिक तिमाही billion tweets से मेल खाती है, तो परिणामस्वरूप शब्द बादल बस सबसे हाल ही में १,००० tweets या १०,००० tweets का एक यादृच्छिक नमूना, काफी अपनी कवरेज को कम करने पर आधारित हो सकता है । कुछ प्लेटफार्मों इस नमूने के बारे में अपने उपयोगकर्ता इंटरफेस में प्रमुख चेतावनी जगह है, जबकि दूसरों को अपने तकनीकी प्रलेखन में इन निरंतर गहरी दफन ।

यह सब एक साथ लाना, सामाजिक मीडिया विश्लेषिकी क्रांति बड़ा डेटा दुनिया की एक व्यापक प्रवृत्ति को दर्शाता है: के रूप में हम मानव व्यवहार के कभी अधिक अभिलेखागार इकट्ठा, हम का पता लगाने के माध्यम से कभी अधिक अपारदर्शी एल्गोरिदम डेटा । हम इन काले बक्से के माध्यम से डेटा के फावड़ा petabytes और रिपोर्ट क्या बाहर भी है कि उन की रिपोर्ट परिणाम किसी भी तरह से सही या सार्थक या कैसे अपनी सटीकता क्वेरी से क्वेरी के लिए अलग हो सकता है की बेहोश समझ के बिना दूसरे छोर आया । बारी में, व्यवसायों और सरकारों के बहुत वास्तविक आर्थिक और नीतिगत निर्णय संख्या है कि सभी उद्देश्यों और प्रयोजनों के लिए सकता है बस एक यादृच्छिक संख्या जनरेटर द्वारा उत्पादित किया गया है के आधार पर कर ।

अंत में, हम सामाजिक मीडिया के बारे में सार्थक निर्णय कैसे एल्गोरिदम के परिणामों के आधार पर हम कुछ नहीं पता कर सकते हैं?

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *