unicode
UTF-8 als een coderingswijze van Unicode
Zoeken…
Opmerkingen
Wat is UTF-8 ?
UTF-8 is een codering, die een variabele lengte heeft en 8-bit code-eenheden gebruikt - dat is waarom UTF- 8 . Op internet is UTF-8 een dominante codering (vóór 2008 was ASCII dat ook elk Unicode-codepunt kan verwerken).
Is UTF-8 hetzelfde als Unicode?
"Unicode" is geen codering - het is een gecodeerde tekenset - dat wil zeggen een reeks tekens en een afbeelding tussen de tekens en gehele codepunten die deze vertegenwoordigen. Maar veel documentatie gebruikt het om te verwijzen naar coderingen . In Windows wordt bijvoorbeeld de term Unicode gebruikt om te verwijzen naar UTF-16.
UTF-8 is slechts een van de manieren om Unicode te coderen en converteert als codering de reeksen bytes naar reeksen tekens en vice versa. UTF-16 en -32 zijn andere Unicode-transformatie-indelingen.
BOM van UTF-8
Alle drie kunnen een specifieke byte-ordermarkeringen hebben, wat een magisch getal is dat verschillende belangrijke dingen voor een programma aangeeft (bijvoorbeeld Kladblok ++) - bijvoorbeeld het feit dat de geïmporteerde tekststroom Unicode is; het helpt ook bij het detecteren van de kunst van Unicode die voor deze stream wordt gebruikt. Het Unicode-consortium beveelt echter aan UTF-8 zonder enige handtekening op te slaan. Sommige software, bijvoorbeeld gcc-compiler, klaagt of een bestand de UTF-8-handtekening bevat. Veel Windows-programma's gebruiken daarentegen de handtekening. En proberen de codering van een stroom bytes te detecteren, werkt niet altijd.
Hoe te controleren of uw project UTF-8-codering heeft of niet
UTF-8 is nog niet universeel, en software-ingenieurs en data-wetenschappers hebben vaak problemen met het coderen van tekststromen. Soms wordt UTF-8 verondersteld in het project te worden gebruikt, maar een andere ecndoing wordt gebruikt. Er zijn verschillende hulpmiddelen om de codering van het bestand te detecteren:
- Sommige CMD-tools, zoals Linux-opdrachtregelprogramma ' file ' of
powershell
; - Python-pakket "chardet"
- Notepad ++ is misschien wel het meest populaire hulpmiddel voor handmatige controle.
Hoe een bytearray van UTF-8-gegevens naar een Unicode-tekenreeks in Python te converteren
def make_unicode(data):
if type(data) != unicode:
data = data.decode('utf-8')
return data
else:
return data
Hoe de standaardcodering van de server te wijzigen in UTF-8
Soms hebben gebruikers uit andere regio's dan Engelstaligen problemen met coderen tijdens het programmeren van een php-project. Het kan zijn dat de server een andere codering heeft dan UTF-8, en als iemand een php-project in UTF-8 op deze server wil maken, wordt zijn tekst mogelijk onjuist weergegeven.
Voorbeeld: het kan zijn dat op uw server de standaardcodering Windows-1251 is - dan moet u de AddDefaultCharset windows-1251
uit het .htaccess serverbestand verwijderen en AddDefaultCharset utf-8
.
Om te controleren welke codering uw server heeft, stelt u de tag <META charset>
en activeert u "automatic encoding detection"
in uw browser.
Sla een Excel-bestand op in UTF-8
Excel -> Opslaan als -> Opslaan als type -> "Door komma's gescheiden waarde (* .csv)" EN Hulpmiddelen (links naar knop Opslaan) -> Webopties -> Codering -> Dit document opslaan als -> Unicode (UTF-8 )