खोज…


टिप्पणियों

UTF-8 क्या है ?

UTF-8 एक एन्कोडिंग है, जो परिवर्तनशील-लंबाई है और 8-बिट कोड इकाइयों का उपयोग करता है - यही कारण है कि UTF- 8 । इंटरनेट में UTF-8 प्रमुख एन्कोडिंग है (2008 ASCII से पहले, ehich किसी भी यूनीकोड कोड बिंदु को भी संभाल सकता है।)

क्या यूटीएफ -8 यूनिकोड जैसा ही है?

"यूनिकोड" एक एन्कोडिंग नहीं है - यह एक कोडित वर्ण सेट है - अर्थात वर्णों का एक समूह और वर्णों के बीच एक मानचित्रण और पूर्णांक कोड बिंदु उनका प्रतिनिधित्व करते हैं। लेकिन बहुत सारे दस्तावेज़ इसका उपयोग एन्कोडिंग्स को संदर्भित करने के लिए करते हैं । उदाहरण के लिए, विंडोज़ पर, यूनिकोड शब्द का उपयोग UTF-16 को संदर्भित करने के लिए किया जाता है।

यूटीएफ -8 यूनिकोड को एनकोड करने के तरीकों में से केवल एक है और एक एन्कोडिंग के रूप में यह बाइट्स के दृश्यों को वर्णों के अनुक्रमों और इसके विपरीत में परिवर्तित करता है। UTF-16 और -32 अन्य यूनिकोड परिवर्तन प्रारूप हैं।

UTF-8 के बीओएम

सभी तीनों ने एक विशिष्ट बाइट ऑर्डर मार्क्स की कल्पना की है, जो एक जादू की संख्या एक कार्यक्रम के लिए कई महत्वपूर्ण चीजों को इंगित करता है (उदाहरण के लिए, नोटपैड ++) - उदाहरण के लिए, तथ्य यह है कि आयातित पाठ स्ट्रीम यूनिकोड है; इस धारा के लिए यूनिकोड की कला का पता लगाने में भी मदद मिलती है। हालाँकि, यूनिकोड संघ किसी भी हस्ताक्षर के बिना UTF-8 के भंडारण की सलाह देता है। कुछ सॉफ्टवेयर, उदाहरण के लिए gcc संकलक शिकायत करते हैं कि किसी फ़ाइल में UTF-8 हस्ताक्षर हैं। दूसरी ओर बहुत सारे विंडोज प्रोग्राम हस्ताक्षर का उपयोग करते हैं। और बाइट्स की एक धारा के एन्कोडिंग का पता लगाने की कोशिश हमेशा काम नहीं करती है।

कैसे जांचें कि आपके प्रोजेक्ट में UTF-8 एन्कोडिंग है या नहीं

UTF-8 अभी तक सार्वभौमिक नहीं है, और सॉफ्टवेयर इंजीनियर और डेटा वैज्ञानिक अक्सर पाठ धाराओं के एन्कोडिंग की समस्या का सामना करते हैं। कभी-कभी यूटीएफ -8 का उपयोग परियोजना में किया जाना चाहिए, हालांकि एक और पारिस्थितिकी का उपयोग किया जा रहा है। फ़ाइल के एन्कोडिंग का पता लगाने के लिए कई उपकरण हैं:

  • कुछ सीएमडी उपकरण, जैसे लिनक्स कमांड-लाइन टूल ' फाइल ' या
    powershell ;
  • पायथन पैकेज "चारडेट"
  • नोटपैड ++ मैन्युअल जांच के लिए शायद सबसे लोकप्रिय उपकरण है।

पाइथन में यूटीएफ -8 डेटा के बाइट सरणी को यूनिकोड स्ट्रिंग में कैसे परिवर्तित करें

def make_unicode(data):
    if type(data) != unicode:
        data =  data.decode('utf-8')
        return data
    else:
        return data

सर्वर की डिफ़ॉल्ट एन्कोडिंग को UTF-8 में कैसे बदलें

कभी-कभी अंग्रेजी बोलने वाले की तुलना में अन्य क्षेत्रों के उपयोगकर्ताओं को एन्कोडिंग के साथ समस्या होती है, उदाहरण के लिए php प्रोजेक्ट प्रोग्रामिंग। यह हो सकता है, कि सर्वर में एक और एन्कोडिंग है तो UTF-8, और यदि कोई इस सर्वर पर UTF-8 में php प्रोजेक्ट बनाना चाहता है, तो उसका पाठ गलत दिखाया जा सकता है।

उदाहरण: यह हो सकता है कि आपके सर्वर डिफ़ॉल्ट एन्कोडिंग पर Windows-1251 है - तो आप हटाना चाहिए AddDefaultCharset windows-1251 .htaccess सर्वर फ़ाइल और लिखने से AddDefaultCharset utf-8

यह जाँचने के लिए कि आपके सर्वर में कौन सी एन्कोडिंग है, <META charset> टैग सेट न करें और अपने ब्राउज़र में "automatic encoding detection" को सक्रिय करें।

UTF-8 में एक एक्सेल फ़ाइल सहेजें

Excel -> इस रूप में सहेजें -> इस प्रकार सहेजें -> "कोमा अलग मूल्य (* .csv)" और उपकरण (बटन को बचाने के लिए) -> वेब विकल्प -> एन्कोडिंग -> इस दस्तावेज़ को इस रूप में सहेजें -> यूनिकोड (UTF-8) )

यहाँ छवि विवरण दर्ज करें



Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow