unicode
Engelsk text är inte bara ASCII
Sök…
Anmärkningar
Ett antagande som dyker upp regelbundet är att det bara är svårt att möta tecken utanför ASCII-teckenuppsättningen när man bara handlar med engelsk text. För att undvika problem med att hantera Unicode på rätt sätt frestas människor att göra saker som att ta bort icke-ASCII-tecken eller ta bort accenter på bokstäver.
Dessa exempel visar att antagandet är fel, och även för engelsk text bör du se till att hantera Unicode-tecken korrekt.
diakritiska tecken
Engelsk text har tillfälliga diakritiker.
- Lånord, som barn, café, entré
- Namn, som Noël och Chloë
- Platsnamn, som Montréal och Québec
Emoji
Emoji är mycket populära bland sociala medier i dag.
- ☃:
U+2603
- SNOWMAN - 😀:
U+01F600
- GRINNING FACE - 🐪:
U+01F42A
- DROMEDÄRKAMEL
Observera att de flesta emoji är utanför det flerspråkiga planet. Många nyare tillägg består av mer än en kodpunkt:
- 🇯🇵: En flagga definieras som ett par "regionala symbolindikatorbokstäver"
- 🙋🏿: Detta är en emoji plus en hudtonmodifierare: 🙋 + 🏿
- 😀︎ eller 😀️: Windows 10 låter dig ange om en emoji är färgad eller svart / vit genom att lägga till en variationsväljare (
U+FE0E
ellerU+FE0F
)
skiljetecken
Nästan all skriven text har skiljetecken som ligger utanför ASCII-teckenuppsättningen:
- streck: en streck - och em streck -
- Citattecken: "citat" snarare än "citat"
- Ellipsis ...
Speciella symboler
Det finns några vanliga symboler som används:
- upphovsrättstecken ©, och varumärkesmärken ® ™
- fraktioner som ¼
- upphöjda. Till exempel är kvadratmeter kvadratmeter.