unicode
यूटीएफ -8 यूनिकोड के एन्कोडिंग तरीके के रूप में
खोज…
टिप्पणियों
UTF-8 क्या है ?
UTF-8 एक एन्कोडिंग है, जो परिवर्तनशील-लंबाई है और 8-बिट कोड इकाइयों का उपयोग करता है - यही कारण है कि UTF- 8 । इंटरनेट में UTF-8 प्रमुख एन्कोडिंग है (2008 ASCII से पहले, ehich किसी भी यूनीकोड कोड बिंदु को भी संभाल सकता है।)
क्या यूटीएफ -8 यूनिकोड जैसा ही है?
"यूनिकोड" एक एन्कोडिंग नहीं है - यह एक कोडित वर्ण सेट है - अर्थात वर्णों का एक समूह और वर्णों के बीच एक मानचित्रण और पूर्णांक कोड बिंदु उनका प्रतिनिधित्व करते हैं। लेकिन बहुत सारे दस्तावेज़ इसका उपयोग एन्कोडिंग्स को संदर्भित करने के लिए करते हैं । उदाहरण के लिए, विंडोज़ पर, यूनिकोड शब्द का उपयोग UTF-16 को संदर्भित करने के लिए किया जाता है।
यूटीएफ -8 यूनिकोड को एनकोड करने के तरीकों में से केवल एक है और एक एन्कोडिंग के रूप में यह बाइट्स के दृश्यों को वर्णों के अनुक्रमों और इसके विपरीत में परिवर्तित करता है। UTF-16 और -32 अन्य यूनिकोड परिवर्तन प्रारूप हैं।
UTF-8 के बीओएम
सभी तीनों ने एक विशिष्ट बाइट ऑर्डर मार्क्स की कल्पना की है, जो एक जादू की संख्या एक कार्यक्रम के लिए कई महत्वपूर्ण चीजों को इंगित करता है (उदाहरण के लिए, नोटपैड ++) - उदाहरण के लिए, तथ्य यह है कि आयातित पाठ स्ट्रीम यूनिकोड है; इस धारा के लिए यूनिकोड की कला का पता लगाने में भी मदद मिलती है। हालाँकि, यूनिकोड संघ किसी भी हस्ताक्षर के बिना UTF-8 के भंडारण की सलाह देता है। कुछ सॉफ्टवेयर, उदाहरण के लिए gcc संकलक शिकायत करते हैं कि किसी फ़ाइल में UTF-8 हस्ताक्षर हैं। दूसरी ओर बहुत सारे विंडोज प्रोग्राम हस्ताक्षर का उपयोग करते हैं। और बाइट्स की एक धारा के एन्कोडिंग का पता लगाने की कोशिश हमेशा काम नहीं करती है।
कैसे जांचें कि आपके प्रोजेक्ट में UTF-8 एन्कोडिंग है या नहीं
UTF-8 अभी तक सार्वभौमिक नहीं है, और सॉफ्टवेयर इंजीनियर और डेटा वैज्ञानिक अक्सर पाठ धाराओं के एन्कोडिंग की समस्या का सामना करते हैं। कभी-कभी यूटीएफ -8 का उपयोग परियोजना में किया जाना चाहिए, हालांकि एक और पारिस्थितिकी का उपयोग किया जा रहा है। फ़ाइल के एन्कोडिंग का पता लगाने के लिए कई उपकरण हैं:
- कुछ सीएमडी उपकरण, जैसे लिनक्स कमांड-लाइन टूल ' फाइल ' या
powershell
; - पायथन पैकेज "चारडेट"
- नोटपैड ++ मैन्युअल जांच के लिए शायद सबसे लोकप्रिय उपकरण है।
पाइथन में यूटीएफ -8 डेटा के बाइट सरणी को यूनिकोड स्ट्रिंग में कैसे परिवर्तित करें
def make_unicode(data):
if type(data) != unicode:
data = data.decode('utf-8')
return data
else:
return data
सर्वर की डिफ़ॉल्ट एन्कोडिंग को UTF-8 में कैसे बदलें
कभी-कभी अंग्रेजी बोलने वाले की तुलना में अन्य क्षेत्रों के उपयोगकर्ताओं को एन्कोडिंग के साथ समस्या होती है, उदाहरण के लिए php प्रोजेक्ट प्रोग्रामिंग। यह हो सकता है, कि सर्वर में एक और एन्कोडिंग है तो UTF-8, और यदि कोई इस सर्वर पर UTF-8 में php प्रोजेक्ट बनाना चाहता है, तो उसका पाठ गलत दिखाया जा सकता है।
उदाहरण: यह हो सकता है कि आपके सर्वर डिफ़ॉल्ट एन्कोडिंग पर Windows-1251 है - तो आप हटाना चाहिए AddDefaultCharset windows-1251
.htaccess सर्वर फ़ाइल और लिखने से AddDefaultCharset utf-8
।
यह जाँचने के लिए कि आपके सर्वर में कौन सी एन्कोडिंग है, <META charset>
टैग सेट न करें और अपने ब्राउज़र में "automatic encoding detection"
को सक्रिय करें।
UTF-8 में एक एक्सेल फ़ाइल सहेजें
Excel -> इस रूप में सहेजें -> इस प्रकार सहेजें -> "कोमा अलग मूल्य (* .csv)" और उपकरण (बटन को बचाने के लिए) -> वेब विकल्प -> एन्कोडिंग -> इस दस्तावेज़ को इस रूप में सहेजें -> यूनिकोड (UTF-8) )