Buscar..


Observaciones

Una suposición que aparece regularmente es que cuando se trata solo de texto en inglés, es poco probable que encuentre caracteres fuera del conjunto de caracteres ASCII. Para evitar problemas con el manejo correcto de Unicode, las personas tienen la tentación de hacer cosas como eliminar caracteres que no son ASCII o eliminar cualquier acento en las letras.

Estos ejemplos muestran que esta suposición es incorrecta, e incluso para el texto en inglés, debe tener cuidado de manejar los caracteres Unicode correctamente.

Diacríticos

El texto en inglés tiene los diacríticos ocasionales.

  • Palabras de préstamo, como née, café, plato principal.
  • Nombres, como Noël y Chloë
  • Nombres de lugares, como Montreal y Quebec

Emoji

Los emoji son muy populares en las redes sociales en estos días.

  • ☃: U+2603 - MUÑECO DE NIEVE
  • 😀: U+01F600 - GRINNING FACE
  • 🐪: U+01F42A - CAMEL DROMEDARIO

Tenga en cuenta que la mayoría de los emoji están fuera del plano multilingüe básico. Una gran cantidad de nuevas adiciones consisten en más de un punto de código:

  • 🇯🇵: Una bandera se define como un par de "letras indicadoras de símbolos regionales"
  • 🙋🏿: Este es un emoji más un modificador de tono de piel: 🙋 + 🏿
  • 😀︎ o 😀️: Windows 10 le permite especificar si un emoji es de color o blanco / negro agregando un selector de variación ( U+FE0E o U+FE0F )

Puntuación

Casi todo el texto escrito tiene signos de puntuación que están fuera del conjunto de caracteres ASCII:

  • guiones: el guión en -, y el guión em -
  • Las comillas: "comillas" en lugar de "comillas"
  • Los puntos suspensivos ...

Simbolos especiales

Hay algunos símbolos comunes en uso:

  • Copyright © y marcas registradas ® ™
  • fracciones como ¼
  • superíndices. Por ejemplo, una taquigrafía para metros cuadrados es m².


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow