Sök…


Anmärkningar

Vad är UTF-8 ?

UTF-8 är en kodning, som är variabel längd och använder 8-bitars kodenheter - det är därför UTF- 8 . På internet är UTF-8 dominerande kodning (innan 2008 ASCII var, ehich kan också hantera alla Unicode-kodpunkter.).

Är UTF-8 densamma som Unicode?

"Unicode" är inte en kodning - det är en kodad teckenuppsättning - dvs. en uppsättning tecken och en mappning mellan tecken och heltalskodpunkter som representerar dem. Men mycket dokumentation använder den för att hänvisa till kodningar . I Windows används till exempel termen Unicode för att hänvisa till UTF-16.

UTF-8 är bara ett av sätten att koda Unicode och som en kodning konverterar den sekvenserna för byte till sekvenser av tecken och vice versa. UTF-16 och -32 är andra Unicode-transformationsformat.

BOM från UTF-8

Alla tre kan ha ett specifikt Byte Order Marks, som är ett magiskt nummer signalerar flera viktiga saker till ett program (till exempel Notepad ++) - till exempel det faktum att den importerade textströmmen är Unicode; det hjälper också att upptäcka konsten för Unicode som används för denna ström. Unicode-konsortiet rekommenderar dock att lagra UTF-8 utan någon signatur. En del programvara, till exempel gcc-kompilator, klagar om en fil innehåller UTF-8-signaturen. Många Windows-program använder å andra sidan signaturen. Och att försöka upptäcka kodningen för en byteström fungerar inte alltid.

Hur du kontrollerar om ditt projekt har UTF-8-kodning eller inte

UTF-8 är ännu inte universal, och mjukvaruutvecklare och datavetare möter ofta problem med kodning av textströmmar. Ibland ska UTF-8 användas i projektet, men en annan miljö används. Det finns flera verktyg för att upptäcka kodning av filen:

  • Vissa CMD-verktyg, som Linux-kommandoradsverktyget " fil " eller
    powershell ;
  • Python-paketet "chardet"
  • Notepad ++ som kanske det mest populära verktyget för manuell kontroll.

Hur konverterar jag en byte-grupp med UTF-8-data till en Unicode-sträng i Python

def make_unicode(data):
    if type(data) != unicode:
        data =  data.decode('utf-8')
        return data
    else:
        return data

Hur man ändrar serverns standardkodning till UTF-8

Ibland har användare från andra regioner än engelskspråkiga problem med kodning medan de till exempel programmerar ett php-projekt. Det kan vara så att servern har en annan kodning än UTF-8, och om någon vill skapa ett php-projekt i UTF-8 på den här servern, kan hans text visas fel.

Exempel: det kan vara så att på din serverns standardkodning är Windows-1251 - då bör du ta bort AddDefaultCharset windows-1251 från .htaccess- AddDefaultCharset utf-8 och skriva AddDefaultCharset utf-8 .

För att kontrollera vilken kodning din server har, ställ inte in <META charset> -taggen och aktivera "automatic encoding detection" i din webbläsare.

Spara en Excel-fil i UTF-8

Excel -> Spara som -> Spara som typ -> "Kommaseparerat värde (* .csv)" OCH Verktyg (vänster till Spara-knappen) -> Webbalternativ -> Kodning -> Spara detta dokument som -> Unicode (UTF-8 )

ange bildbeskrivning här



Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow