unicode => UTF-8 als een coderingswijze van Unicode

Opmerkingen

Wat is UTF-8 ?

UTF-8 is een codering, die een variabele lengte heeft en 8-bit code-eenheden gebruikt - dat is waarom UTF- 8 . Op internet is UTF-8 een dominante codering (vóór 2008 was ASCII dat ook elk Unicode-codepunt kan verwerken).

Is UTF-8 hetzelfde als Unicode?

"Unicode" is geen codering - het is een gecodeerde tekenset - dat wil zeggen een reeks tekens en een afbeelding tussen de tekens en gehele codepunten die deze vertegenwoordigen. Maar veel documentatie gebruikt het om te verwijzen naar coderingen . In Windows wordt bijvoorbeeld de term Unicode gebruikt om te verwijzen naar UTF-16.

UTF-8 is slechts een van de manieren om Unicode te coderen en converteert als codering de reeksen bytes naar reeksen tekens en vice versa. UTF-16 en -32 zijn andere Unicode-transformatie-indelingen.

BOM van UTF-8

Alle drie kunnen een specifieke byte-ordermarkeringen hebben, wat een magisch getal is dat verschillende belangrijke dingen voor een programma aangeeft (bijvoorbeeld Kladblok ++) - bijvoorbeeld het feit dat de geïmporteerde tekststroom Unicode is; het helpt ook bij het detecteren van de kunst van Unicode die voor deze stream wordt gebruikt. Het Unicode-consortium beveelt echter aan UTF-8 zonder enige handtekening op te slaan. Sommige software, bijvoorbeeld gcc-compiler, klaagt of een bestand de UTF-8-handtekening bevat. Veel Windows-programma's gebruiken daarentegen de handtekening. En proberen de codering van een stroom bytes te detecteren, werkt niet altijd.

Hoe te controleren of uw project UTF-8-codering heeft of niet

UTF-8 is nog niet universeel, en software-ingenieurs en data-wetenschappers hebben vaak problemen met het coderen van tekststromen. Soms wordt UTF-8 verondersteld in het project te worden gebruikt, maar een andere ecndoing wordt gebruikt. Er zijn verschillende hulpmiddelen om de codering van het bestand te detecteren:

Sommige CMD-tools, zoals Linux-opdrachtregelprogramma ' file ' of
powershell ;
Python-pakket "chardet"
Notepad ++ is misschien wel het meest populaire hulpmiddel voor handmatige controle.

Hoe een bytearray van UTF-8-gegevens naar een Unicode-tekenreeks in Python te converteren

def make_unicode(data):
    if type(data) != unicode:
        data =  data.decode('utf-8')
        return data
    else:
        return data

Hoe de standaardcodering van de server te wijzigen in UTF-8

Soms hebben gebruikers uit andere regio's dan Engelstaligen problemen met coderen tijdens het programmeren van een php-project. Het kan zijn dat de server een andere codering heeft dan UTF-8, en als iemand een php-project in UTF-8 op deze server wil maken, wordt zijn tekst mogelijk onjuist weergegeven.

Voorbeeld: het kan zijn dat op uw server de standaardcodering Windows-1251 is - dan moet u de AddDefaultCharset windows-1251 uit het .htaccess serverbestand verwijderen en AddDefaultCharset utf-8 .

Om te controleren welke codering uw server heeft, stelt u de tag <META charset> en activeert u "automatic encoding detection" in uw browser.

Sla een Excel-bestand op in UTF-8

Excel -> Opslaan als -> Opslaan als type -> "Door komma's gescheiden waarde (* .csv)" EN Hulpmiddelen (links naar knop Opslaan) -> Webopties -> Codering -> Dit document opslaan als -> Unicode (UTF-8 )

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow

unicode
UTF-8 als een coderingswijze van Unicode

Zoeken…

Opmerkingen

Hoe een bytearray van UTF-8-gegevens naar een Unicode-tekenreeks in Python te converteren

Hoe de standaardcodering van de server te wijzigen in UTF-8

Sla een Excel-bestand op in UTF-8