Zoeken…


Opmerkingen

Een veronderstelling die regelmatig opduikt, is dat het alleen bij het omgaan met Engelse tekst onwaarschijnlijk is dat er tekens buiten de ASCII-tekenset voorkomen. Om problemen met het correct omgaan met Unicode te voorkomen, komen mensen in de verleiding om dingen te doen zoals het verwijderen van niet-ASCII-tekens of het verwijderen van accenten op letters.

Deze voorbeelden tonen aan dat deze veronderstelling onjuist is, en zelfs voor Engelse tekst moet u ervoor zorgen dat Unicode-tekens correct worden verwerkt.

diacritics

Engelse tekst heeft af en toe diakritische tekens.

  • Leenwoorden, zoals nee, café, entree
  • Namen, zoals Noël en Chloë
  • Plaatsnamen, zoals Montréal en Québec

Emoji

Emoji zijn tegenwoordig behoorlijk populair bij sociale media.

  • ☃: U+2603 - SNEEUWMAN
  • 😀: U+01F600 - GRANZEND GEZICHT
  • 🐪: U+01F42A - DROMEDARY CAMEL

Merk op dat de meeste emoji buiten het meertalige basisvlak vallen. Veel nieuwere toevoegingen bestaan uit meer dan één codepunt:

  • 🇯🇵: Een vlag wordt gedefinieerd als een paar "regionale symboolindicatoren"
  • 🙋🏿: Dit is een emoji plus een huidtintmodifier: 🙋 + 🏿
  • 😀︎ of 😀️: met Windows 10 kunt u opgeven of een emoji gekleurd of zwart / wit is door een variatieselector toe te voegen ( U+FE0E of U+FE0F )

Interpunctie

Bijna alle geschreven tekst heeft leestekens die buiten de ASCII-tekenset vallen:

  • streepjes: het en-streepje -, en het em-streepje -
  • Aanhalingstekens: "aanhalingstekens" in plaats van "aanhalingstekens"
  • De ellips…

Speciale symbolen

Er zijn een paar veel voorkomende symbolen in gebruik:

  • copyrightteken © en handelsmerktekens ® ™
  • breuken zoals ¼
  • superscripten. Een afkorting voor vierkante meters is bijvoorbeeld m².


Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow