unicode
Tekst w języku angielskim to nie tylko ASCII
Szukaj…
Uwagi
Założeniem, które pojawia się regularnie, jest to, że w przypadku tylko tekstu w języku angielskim jest mało prawdopodobne, aby napotykać znaki spoza zestawu znaków ASCII. Aby uniknąć problemów z prawidłową obsługą Unicode, ludzie kuszą się do usuwania znaków spoza ASCII lub usuwania akcentów na literach.
Te przykłady pokazują, że to założenie jest błędne, i nawet w przypadku tekstu w języku angielskim należy zadbać o prawidłowe obsługiwanie znaków Unicode.
Znaki diakrytyczne
Tekst w języku angielskim ma sporadyczne znaki diakrytyczne.
- Pożycz słowa, takie jak z domu, kawiarni, entrée
- Nazwy, takie jak Noël i Chloë
- Nazwy miejsc, takie jak Montréal i Quebec
Emoji
Emoji są obecnie bardzo popularne w mediach społecznościowych.
- ☃:
U+2603
- SNOWMAN - 😀:
U+01F600
- TWARZ SZLIFOWANIA - 🐪:
U+01F42A
- DROMEDARY CAMEL
Pamiętaj, że większość emoji znajduje się poza Podstawowym wielojęzycznym samolotem. Wiele nowszych dodatków składa się z więcej niż jednego punktu kodowego:
- 🇯🇵: Flaga jest zdefiniowana jako para „liter oznaczeń symboli regionalnych”
- 🙋🏿: To jest emoji plus modyfikator odcienia skóry: 🙋 + 🏿
- 😀︎ lub 😀️: Windows 10 pozwala określić, czy emoji ma być kolorowe, czy czarno-białe,
U+FE0E
selektor odmian (U+FE0E
lubU+FE0F
)
Interpunkcja
Prawie cały tekst ma znaki interpunkcyjne, które są poza zestawem znaków ASCII:
- myślniki: myślnik - i myślnik -
- Cudzysłów: „cudzysłowy” zamiast „cudzysłowy”
- Elipsa…
Specjalne symbole
W użyciu jest kilka typowych symboli:
- znak praw autorskich © i znaki towarowe ® ™
- ułamki jak ¼
- indeksy górne. Na przykład skrótem dla metrów kwadratowych jest m².