unicode
Engelse tekst is niet alleen ASCII
Zoeken…
Opmerkingen
Een veronderstelling die regelmatig opduikt, is dat het alleen bij het omgaan met Engelse tekst onwaarschijnlijk is dat er tekens buiten de ASCII-tekenset voorkomen. Om problemen met het correct omgaan met Unicode te voorkomen, komen mensen in de verleiding om dingen te doen zoals het verwijderen van niet-ASCII-tekens of het verwijderen van accenten op letters.
Deze voorbeelden tonen aan dat deze veronderstelling onjuist is, en zelfs voor Engelse tekst moet u ervoor zorgen dat Unicode-tekens correct worden verwerkt.
diacritics
Engelse tekst heeft af en toe diakritische tekens.
- Leenwoorden, zoals nee, café, entree
- Namen, zoals Noël en Chloë
- Plaatsnamen, zoals Montréal en Québec
Emoji
Emoji zijn tegenwoordig behoorlijk populair bij sociale media.
- ☃:
U+2603
- SNEEUWMAN - 😀:
U+01F600
- GRANZEND GEZICHT - 🐪:
U+01F42A
- DROMEDARY CAMEL
Merk op dat de meeste emoji buiten het meertalige basisvlak vallen. Veel nieuwere toevoegingen bestaan uit meer dan één codepunt:
- 🇯🇵: Een vlag wordt gedefinieerd als een paar "regionale symboolindicatoren"
- 🙋🏿: Dit is een emoji plus een huidtintmodifier: 🙋 + 🏿
- 😀︎ of 😀️: met Windows 10 kunt u opgeven of een emoji gekleurd of zwart / wit is door een variatieselector toe te voegen (
U+FE0E
ofU+FE0F
)
Interpunctie
Bijna alle geschreven tekst heeft leestekens die buiten de ASCII-tekenset vallen:
- streepjes: het en-streepje -, en het em-streepje -
- Aanhalingstekens: "aanhalingstekens" in plaats van "aanhalingstekens"
- De ellips…
Speciale symbolen
Er zijn een paar veel voorkomende symbolen in gebruik:
- copyrightteken © en handelsmerktekens ® ™
- breuken zoals ¼
- superscripten. Een afkorting voor vierkante meters is bijvoorbeeld m².