25
Mar
Off

Unicode funcional para mi nave espacial

Una de las cosas que más me apasionan de nuestro espacio virtual de comunicación es que pienso que si algún día conseguimos ponernos de acuerdo para enlazar nuestros datos de forma abierta y con ontologías justas, ese será el momento en el que nos lancemos al espacio exterior. Cuanto más tardemos en ponernos de acuerdo, más probabilidad hay de que seamos colonizados o exterminados por extraterrestres. Entre estos dos extremos, la mística virtual y la nada eterna, sin duda hay y habrá un abanico de tentativas más factibles, al menos en el tiempo de esta vida que ocupo.

Utopía y apocalipsis aparte, y siguiendo con nuestra exploración humanista de los fundamentos del procesamiento lógico-matemático de nuestros lenguajes naturales, nos hemos adentrado en los sistemas de codificación de los símbolos que hemos creado y que utilizamos las humanas para comunicarnos a distancia y legar nuestro conocimiento. Este es el primer paso del proceso, cuando una letra de nuestro alfabeto se convierte en energía significativa para la máquina. Básicamente, consiste en una tabla de equivalencia entre un grupo de caracteres y una serie de números naturales cuya representación binaria es la que, en última instancia, entra a modo de energía implementada en circuito (véase ‘Ternarias’). Concretamente, estamos hablando de los estándares de codificación ASCII y Unicode, entre muchos otros.

Para que las máquinas comprendan los caracteres de nuestra escritura humana, diseñamos en los años sesenta una tabla conocida como ASCII que codifica los caracteres utilizados para representar la lengua inglesa en 7 bits, es decir, con hasta 128 valores (27 = 128). A este esquema de codificación inicial se añadieron extensiones utilizando el octavo bit disponible en la máquina de 1 byte, pero aún así este estándar americano se quedó corto para representar todas las lenguas humanas. El sueño de operatividad universal nos llevó a muchos intentos de unificación de codificaciones entre regiones y países hasta que se llegó, a principios de los años noventa, al diseño del estándar Unicode, que puede utilizar mayor cantidad de bytes a través de un Formato de Transformación (UTF). El más usado es el UTF8, de 1 byte, porque su forma compacta requiere menos cantidad de memoria y permite representar los caracteres en distintas longitudes de secuencias bit, es decir, puede utilizar más de 1 byte cuando es necesario, por ejemplo, utiliza 1 byte para representar los caracteres latinos, 2 para los árabes, 3 para los japoneses y 4 para los fenicios.

Para el paso intermedio entre la codificación binaria (de base 2) y los caracteres de escritura, y puesto que mayor cantidad de bytes deriva en largas representaciones por estar basadas únicamente en dos dígitos, se emplea el sistema hexadecimal (de base 16) en el que la equivalencia se lleva a cabo con dieciséis símbolos (del 0 al 9 y de la A a la F, las letras vienen en sustitución de los números del 10 al 15). La notación hexadecimal tiene la ventaja de que se puede traducir fácilmente a la notación binaria y viceversa, cada símbolo hexadecimal corresponde a una secuencia de 4 bits (24 = 16).

En el estándar Unicode, se incluyen caracteres alfabéticos, ideogramas, signos diacríticos, símbolos matemáticos, entre otros. Cada elemento básico del estándar se codifica con símbolos del sistema hexadecimal siguiendo la tabla de caracteres Unicode, donde, por ejemplo, la ‘L’ se representa con el código U+004C y el mismo fonema en árabe que se representa mediante la grafía ‘ل’ se corresponde con el código U+0644.

Aunque el estándar Unicode ha conseguido crear un espacio virtual de compatibilidad entre las lenguas naturales de todas las culturas humanas, incluidas las muertas, sigue planteando problemas con las llamadas CJK (china, japonesa y coreana), de ahí que surjan otros estándares más adecuados a estas últimas, como es TRON. Así vemos que por mucho que adelantemos la cabeza al cuerpo en la carrera intergaláctica, si no conseguimos una máxima representación de la humanidad en lo más básico, es que estamos pidiendo abducción a gritos.

Sigan atentos a la próxima entrega de nuestro diario humanista de transformación digital.

Translate »