Buscar..


Observaciones

Un punto de código Unicode, lo que los programadores a menudo piensan en un personaje, a menudo corresponde a lo que el usuario piensa que es un personaje. A veces, sin embargo, un "carácter" se compone de múltiples puntos de código, como muestran los ejemplos anteriores.

Esto significa que las operaciones como cortar una cadena o obtener un carácter en un índice determinado pueden no funcionar como se espera. Por ejemplo, el carácter de la cadena "Café" es 'e' (sin el acento). Del mismo modo, cortar la cuerda a la longitud 4 eliminará el acento.

El término técnico para tal grupo de puntos de código es un grupo de grafemas . Ver UAX # 29: Segmentación de texto Unicode

Diacríticos

Una letra con un diacrítico se puede representar con la letra y una letra modificadora de combinación. Normalmente piensas en como un personaje, pero en realidad son 2 puntos de código:

  • U+0065 - LETRA PEQUEÑA LATINA E
  • U+0301 - COMBINANDO ACENTO AGUDO

De manera similar, = c + ¸ , y = a + ˚

formas combinadas

Para complicar las cosas, a menudo hay un punto de código para la forma compuesta también:

"Café" = 'C' + 'a' + 'f' + 'e' + '´'
"Café" = 'C' + 'a' + 'f' + 'é'

Aunque estas cuerdas tienen el mismo aspecto, no son iguales y ni siquiera tienen la misma longitud (5 y 4 respectivamente).

Texto de zalgo

Hay una cosa llamada Texto de Zalgo que empuja esto al extremo. Aquí está el primer grupo de grafemas del ejemplo. Consta de 15 puntos de código: la letra latina H y 14 marcas combinadas.

H̡̫̤̤̣͉̤ͭ̓̓̇͗̎̀

Aunque esto no aparece en el texto normal, muestra que un "carácter" realmente puede consistir en un número arbitrario de puntos de código

Emoji y banderas

Una gran cantidad de emoji consisten en más de un punto de código.

  • 🇯🇵: Una bandera se define como un par de "letras indicadoras de símbolos regionales" (🇯 + 🇵)
  • 🙋🏿: Algunos emoji pueden ir seguidos de un modificador de tono de piel: 🙋 + 🏿
  • 😀︎ o 😀️: Windows 10 le permite especificar si un emoji es de color o blanco / negro agregando un selector de variación ( U+FE0E o U+FE0F )
  • 👨‍👩‍👧‍👦: una familia. Codificado uniendo el emoji para niño, niña, mujer y hombre (👦, 👧, 👩, 👨) junto con uniones de ancho cero ( U+200D ). En las plataformas que lo soportan, esto se representa como un emoji de una familia con dos hijos.


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow