unicode
Английский текст не только ASCII
Поиск…
замечания
Предположение, которое всплывает регулярно, заключается в том, что при работе с текстом на английском языке вряд ли встречаются символы вне набора символов ASCII. Чтобы избежать проблем с правильной обработкой Юникода, люди испытывают соблазн делать такие вещи, как удаление не-ASCII-символов или удаление любых акцентов на письмах.
Эти примеры показывают, что это предположение неверно, и даже для текста на английском языке вы должны правильно обращаться с символами Юникода.
Диакритические
Английский текст имеет случайную диакритику.
- Кредитные слова, такие как née, café, entrée
- Имена, такие как Ноэль и Хлоя
- Названия мест, таких как Монреаль и Квебек
Emoji
В эти дни Emoji довольно популярны в социальных сетях.
- ☃:
U+2603
- SNOWMAN - 😀:
U+01F600
- ЖЕЛАТЕЛЬНОЕ ЛИЦО - 🐪:
U+01F42A
- ДЕМОНСТРАЦИОННЫЙ КАМЕЛ
Обратите внимание, что большинство emoji находятся за пределами Basic Multilingual Plane. Много новых дополнений состоят из более чем одного кода:
- 🇯🇵: Флаг определяется как пара «букв индикатора региональных символов»,
- 🙋🏿: Это эмулятор плюс модификатор тона кожи: 🙋 + 🏿
- 😀︎ или 😀️: Windows 10 позволяет указать, окрашен ли emoji или черно-белый, добавив селектор вариаций (
U+FE0E
илиU+FE0F
)
пунктуация
Почти весь письменный текст имеет знаки препинания, которые находятся за пределами набора символов ASCII:
- тире: en dash - и em emash -
- Котировки: «котировки», а не «котировки»,
- Эллипсис ...
Специальные символы
Существует несколько распространенных символов:
- знак авторского права © и товарные знаки ® ™
- фракции, такие как ¼
- надстрочные. Например, сокращение квадратного метра составляет m².