Поиск…


замечания

Предположение, которое всплывает регулярно, заключается в том, что при работе с текстом на английском языке вряд ли встречаются символы вне набора символов ASCII. Чтобы избежать проблем с правильной обработкой Юникода, люди испытывают соблазн делать такие вещи, как удаление не-ASCII-символов или удаление любых акцентов на письмах.

Эти примеры показывают, что это предположение неверно, и даже для текста на английском языке вы должны правильно обращаться с символами Юникода.

Диакритические

Английский текст имеет случайную диакритику.

  • Кредитные слова, такие как née, café, entrée
  • Имена, такие как Ноэль и Хлоя
  • Названия мест, таких как Монреаль и Квебек

Emoji

В эти дни Emoji довольно популярны в социальных сетях.

  • ☃: U+2603 - SNOWMAN
  • 😀: U+01F600 - ЖЕЛАТЕЛЬНОЕ ЛИЦО
  • 🐪: U+01F42A - ДЕМОНСТРАЦИОННЫЙ КАМЕЛ

Обратите внимание, что большинство emoji находятся за пределами Basic Multilingual Plane. Много новых дополнений состоят из более чем одного кода:

  • 🇯🇵: Флаг определяется как пара «букв индикатора региональных символов»,
  • 🙋🏿: Это эмулятор плюс модификатор тона кожи: 🙋 + 🏿
  • 😀︎ или 😀️: Windows 10 позволяет указать, окрашен ли emoji или черно-белый, добавив селектор вариаций ( U+FE0E или U+FE0F )

пунктуация

Почти весь письменный текст имеет знаки препинания, которые находятся за пределами набора символов ASCII:

  • тире: en dash - и em emash -
  • Котировки: «котировки», а не «котировки»,
  • Эллипсис ...

Специальные символы

Существует несколько распространенных символов:

  • знак авторского права © и товарные знаки ® ™
  • фракции, такие как ¼
  • надстрочные. Например, сокращение квадратного метра составляет m².


Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow