unicode
El texto en inglés no es solo ASCII
Buscar..
Observaciones
Una suposición que aparece regularmente es que cuando se trata solo de texto en inglés, es poco probable que encuentre caracteres fuera del conjunto de caracteres ASCII. Para evitar problemas con el manejo correcto de Unicode, las personas tienen la tentación de hacer cosas como eliminar caracteres que no son ASCII o eliminar cualquier acento en las letras.
Estos ejemplos muestran que esta suposición es incorrecta, e incluso para el texto en inglés, debe tener cuidado de manejar los caracteres Unicode correctamente.
Diacríticos
El texto en inglés tiene los diacríticos ocasionales.
- Palabras de préstamo, como née, café, plato principal.
- Nombres, como Noël y Chloë
- Nombres de lugares, como Montreal y Quebec
Emoji
Los emoji son muy populares en las redes sociales en estos días.
- ☃:
U+2603
- MUÑECO DE NIEVE - 😀:
U+01F600
- GRINNING FACE - 🐪:
U+01F42A
- CAMEL DROMEDARIO
Tenga en cuenta que la mayoría de los emoji están fuera del plano multilingüe básico. Una gran cantidad de nuevas adiciones consisten en más de un punto de código:
- 🇯🇵: Una bandera se define como un par de "letras indicadoras de símbolos regionales"
- 🙋🏿: Este es un emoji más un modificador de tono de piel: 🙋 + 🏿
- 😀︎ o 😀️: Windows 10 le permite especificar si un emoji es de color o blanco / negro agregando un selector de variación (
U+FE0E
oU+FE0F
)
Puntuación
Casi todo el texto escrito tiene signos de puntuación que están fuera del conjunto de caracteres ASCII:
- guiones: el guión en -, y el guión em -
- Las comillas: "comillas" en lugar de "comillas"
- Los puntos suspensivos ...
Simbolos especiales
Hay algunos símbolos comunes en uso:
- Copyright © y marcas registradas ® ™
- fracciones como ¼
- superíndices. Por ejemplo, una taquigrafía para metros cuadrados es m².