machine-learning
मूल्यांकन मेट्रिक्स
खोज…
रिसीवर ऑपरेटिंग कैरेक्टर (AUROC) की वक्र के तहत क्षेत्र
AUROC एक क्लासिफायरियर के प्रदर्शन का मूल्यांकन करने के लिए सबसे अधिक उपयोग की जाने वाली मीट्रिक है। यह खंड बताता है कि इसकी गणना कैसे की जाती है।
AUC (एरिया अंडर द कर्व) का उपयोग AUROC का अर्थ करने के लिए सबसे अधिक किया जाता है, जो कि एक बुरा अभ्यास है क्योंकि AUC अस्पष्ट है (कोई भी वक्र हो सकता है) जबकि AUROC नहीं है।
अवलोकन - संकेताक्षर
संक्षिप्त | अर्थ |
---|---|
AUROC | रिसीवर ऑपरेटिंग कैरेक्टर की वक्र के तहत क्षेत्र |
एयूसी | अभिशाप के तहत क्षेत्र |
आरओसी | प्राप्तकर्ता परिचालन विशेषता |
टी.पी. | सच्ची सकारात्मकता |
तमिलनाडु | सच्चा नकारात्मक |
एफपी | झूठी सकारात्मक |
एफ एन | झूठी नकारात्मक |
TPR | सही सकारात्मक दर |
FPR | झूठी सकारात्मक दर |
AUROC की व्याख्या करना
AUROC की कई समान व्याख्याएँ हैं :
- यह अपेक्षा कि एक समान रूप से खींचा गया यादृच्छिक धनात्मक एक समान रूप से तैयार यादृच्छिक ऋणात्मक से पहले क्रमबद्ध है।
- सकारात्मक रूप से तैयार किए गए यादृच्छिक नकारात्मक से पहले सकारात्मकता के अपेक्षित अनुपात को रैंक किया गया।
- अपेक्षित वास्तविक सकारात्मक दर यदि रैंकिंग समान रूप से तैयार किए गए यादृच्छिक नकारात्मक से ठीक पहले विभाजित है।
- एक समान रूप से तैयार किए गए यादृच्छिक सकारात्मक के बाद रैंक किए गए नकारात्मक के अपेक्षित अनुपात।
- अपेक्षित गलत सकारात्मक दर यदि रैंकिंग समान रूप से ड्रॉ रैंडम पॉज़िटिव के ठीक बाद विभाजित हो जाती है।
AUROC की गणना करना
मान लें कि हमारे पास एक संभावित, द्विआधारी क्लासिफायर जैसे लॉजिस्टिक रिग्रेशन है।
आरओसी वक्र (= रिसीवर ऑपरेटिंग कैरेक्टर वक्र) प्रस्तुत करने से पहले, भ्रम मैट्रिक्स की अवधारणा को समझना चाहिए। जब हम एक द्विआधारी भविष्यवाणी करते हैं, तो 4 प्रकार के परिणाम हो सकते हैं:
- हम 0 का अनुमान लगाते हैं, जबकि कक्षा वास्तव में 0 है : इसे ट्रू नेगेटिव कहा जाता है, अर्थात हम सही ढंग से भविष्यवाणी करते हैं कि कक्षा नकारात्मक है (0)। उदाहरण के लिए, एक एंटीवायरस ने वायरस के रूप में एक हानिरहित फ़ाइल का पता नहीं लगाया।
- हम 0 की भविष्यवाणी करते हैं जबकि कक्षा वास्तव में 1 है : इसे गलत नकारात्मक कहा जाता है, अर्थात हम गलत तरीके से भविष्यवाणी करते हैं कि वर्ग नकारात्मक है (0)। उदाहरण के लिए, एक एंटीवायरस वायरस का पता लगाने में विफल रहा।
- हम 1 की भविष्यवाणी करते हैं जबकि कक्षा वास्तव में 0 है : इसे गलत सकारात्मक कहा जाता है, अर्थात हम गलत अनुमान लगाते हैं कि कक्षा सकारात्मक है (1)। उदाहरण के लिए, एक एंटीवायरस एक हानिरहित फ़ाइल को वायरस मानता था।
- हम 1 की भविष्यवाणी करते हैं जबकि कक्षा वास्तव में 1 है : इसे ट्रू पॉजिटिव कहा जाता है, अर्थात हम सही ढंग से भविष्यवाणी करते हैं कि क्लास पॉजिटिव (1) है। उदाहरण के लिए, एक एंटीवायरस ने वायरस का सही पता लगाया।
भ्रम मैट्रिक्स प्राप्त करने के लिए, हम मॉडल द्वारा की गई सभी भविष्यवाणियों पर जाते हैं, और गिनते हैं कि उन 4 प्रकार के परिणामों में से प्रत्येक कितनी बार होता है:
एक भ्रम मैट्रिक्स के इस उदाहरण में, वर्गीकृत किए गए 50 डेटा बिंदुओं में से 45 सही ढंग से वर्गीकृत किए गए हैं और 5 मिसकैलिफ़ाइड हैं।
चूंकि दो अलग-अलग मॉडलों की तुलना करना कई लोगों के बजाय एक ही मीट्रिक के लिए अक्सर अधिक सुविधाजनक होता है, हम भ्रम मैट्रिक्स से दो मैट्रिक्स की गणना करते हैं, जिसे हम बाद में एक में संयोजित करेंगे:
- सही सकारात्मक दर ( टीपीआर ), उर्फ। संवेदनशीलता, हिट रेट और रिकॉल , जिसे इस रूप में परिभाषित किया गया है । वास्तव में यह मीट्रिक सकारात्मक डेटा बिंदुओं के अनुपात से मेल खाती है जिन्हें सभी सकारात्मक डेटा बिंदुओं के संबंध में सही रूप से सकारात्मक माना जाता है। दूसरे शब्दों में, उच्च TPR, कम सकारात्मक डेटा बिंदु जो हम याद करेंगे।
- झूठी सकारात्मक दर ( एफपीआर ), उर्फ। गिरावट , जो के रूप में परिभाषित किया गया है । सहज रूप से यह मीट्रिक नकारात्मक डेटा बिंदुओं के अनुपात से मेल खाती है जिन्हें गलती से सकारात्मक माना जाता है, सभी नकारात्मक डेटा बिंदुओं के संबंध में। दूसरे शब्दों में, उच्च एफपीआर, अधिक नकारात्मक डेटा बिंदुओं को हम गलत तरीके से याद करेंगे।
FPR और TPR को एक ही मीट्रिक में संयोजित करने के लिए, हम पहले दो पूर्व मैट्रिक्स की गणना कई अलग-अलग सीमा के साथ करते हैं (उदाहरण के लिए) ) लॉजिस्टिक रिग्रेशन के लिए, फिर उन्हें एक ही ग्राफ पर प्लॉट करें, एफ़सीएसए पर एफपीआर मूल्यों और ऑर्डिनेट पर टीपीआर मूल्यों के साथ। परिणामी वक्र को ROC वक्र कहा जाता है, और जिस मीट्रिक को हम मानते हैं, वह इस वक्र का AUC है, जिसे हम AUROC कहते हैं।
निम्नलिखित आंकड़ा AUROC को ग्राफिक रूप से दिखाता है:
इस आंकड़े में, नीला क्षेत्र रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक (AUROC) के क्षेत्र के अंतर्गत आता है। विकर्ण में धराशायी लाइन हम एक यादृच्छिक भविष्यवक्ता के आरओसी वक्र को प्रस्तुत करते हैं: इसमें 0.5 का एयूआरओसी है। यादृच्छिक भविष्यवक्ता आमतौर पर यह देखने के लिए आधार रेखा के रूप में उपयोग किया जाता है कि क्या मॉडल उपयोगी है।
असमंजस का जाल
एक भ्रम मैट्रिक्स का उपयोग एक वर्गीकरणकर्ता के मूल्यांकन के लिए किया जा सकता है, परीक्षण डेटा के एक सेट के आधार पर जिसके लिए सच्चे मूल्यों को जाना जाता है। यह एक सरल उपकरण है, जो उपयोग किए जा रहे एल्गोरिथ्म के प्रदर्शन का एक अच्छा दृश्य अवलोकन देने में मदद करता है।
एक भ्रम मैट्रिक्स को एक तालिका के रूप में दर्शाया गया है। इस उदाहरण में हम एक बाइनरी क्लासिफायरियर के लिए एक भ्रम मैट्रिक्स को देखेंगे।
बाईं ओर, कोई वास्तविक वर्ग ( YES या NO के रूप में लेबल किया जा रहा है) देख सकता है, जबकि शीर्ष इंगित करता है कि वर्ग पूर्वानुमानित और आउटपुट (फिर YES या NO ) है।
इसका मतलब यह है कि 50 परीक्षण उदाहरण - जो वास्तव में कोई उदाहरण नहीं हैं , क्लासिफायर द्वारा NO के रूप में सही ढंग से लेबल किए गए थे। इन्हें ट्रू नेगेटिव्स (TN) कहा जाता है। इसके विपरीत, 100 वास्तविक YES उदाहरणों को, क्लासिफायर द्वारा YES उदाहरणों के रूप में सही ढंग से लेबल किया गया था। इन्हें ट्रू पॉज़िटिव (टीपी) कहा जाता है।
5 वास्तविक YES उदाहरण, क्लासिफायरियर द्वारा भ्रमित किए गए थे। इन्हें झूठी नकारात्मक (FN) कहा जाता है। इसके अलावा 10 NO उदाहरणों को, वर्गीकरणकर्ता द्वारा YES उदाहरण माना जाता था, इसलिए ये गलत सकारात्मक (FP) हैं ।
इन एफपी , टीपी , एफएन और टीएन के आधार पर, हम आगे निष्कर्ष निकाल सकते हैं।
सही सकारात्मक दर :
- जवाब देने की कोशिश करता है: जब कोई उदाहरण वास्तव में हां होता है , तो क्लासिफायर कितनी बार यस की भविष्यवाणी करता है?
- इस प्रकार गणना की जा सकती है: टीपी / # वास्तविक यस इंस्टेंस = 100/105 = 0.95
झूठी सकारात्मक दर :
- जवाब देने की कोशिश करता है: जब कोई उदाहरण वास्तव में NO है , तो क्लासिफायर कितनी बार YES की भविष्यवाणी करता है?
- इस प्रकार गणना की जा सकती है: एफपी / # वास्तविक सं इंस्टेंस = 10/60 = 0.17
आरओसी घटता है
एक रिसीवर ऑपरेटिंग विशेषता (आरओसी) वक्र टीपी-दर बनाम एफपी-दर को एक उदाहरण के रूप में सकारात्मक होने के विश्वास पर एक दहलीज के रूप में प्लॉट करता है।
ROC वक्र बनाने के लिए एल्गोरिथम
आत्मविश्वास के अनुसार टेस्ट-सेट की भविष्यवाणियां करें कि प्रत्येक उदाहरण सकारात्मक है
उच्च से निम्न आत्मविश्वास में क्रमबद्ध सूची के माध्यम से कदम
मैं। विपरीत वर्गों के साथ उदाहरणों के बीच एक सीमा का पता लगाएं (दहलीज के एक ही पक्ष पर एक ही आत्मविश्वास मूल्य के साथ उदाहरणों को रखते हुए)
ii। सीमा से ऊपर के उदाहरणों के लिए TPR, FPR की गणना करें
iii। आउटपुट (FPR, TPR) समन्वय करते हैं