Español Digital Cubano 🇪🇸📱🇨🇺
#LaNuevaForma de #NuestroIdioma
Por @DanielOrlando y @YudivianAlmeida - 13/7/2022

El español es el idioma oficial de 20 países. Es el segundo idioma nativo más hablado del mundo después del chino mandarín y el cuarto idioma más hablado del mundo en general después del inglés, el chino mandarín y el indostaní (hindi-urdu), con más de 538 millones de hablantes. A partir de 2020, se estima que alrededor de 463 millones de personas hablan español como idioma nativo y otros 75 millones como segundo idioma o idioma extranjero.

En cada una de las regiones que practican este idioma, de una forma u otra, a hecho su aporte al mismo, imprimiendo al español una heterogeneidad impresionante. Las diferencias de estilo de los hispanohablantes al expresarse va desde la fonética del mensaje hasta la estructura y el significado del mismo. En zonas como Latino América, debido a la intensa mezcla cultural, el español de la actualidad es fruto de la fusión de múltiples le lenguas aborígenes con el castellano impuesto por los colonizadores, sumado a otros idiomas que al igual que el español irrumpieron en el contingente en búsqueda de riquezas.

Mapa de Densidad de los Hispanohablantes

Otro de los podios en los que el español hace aparición es el de idioma más utilizado en Internet, posicionándose en 3er lugar después del inglés y el chino. El internet y las redes sociales, como los procesos de colonización, han significado un choque cultural importante que ha cambiado la forma de expresarse y al idioma de manera radical. Un país que a día de hoy puede ser un ejemplo claro del poder y el impacto cultural que suponen las redes sociales y el mundo digital es Cuba, pues comparado con muchos otros países hispanohablantes el tiempo de influencia del Internet en la sociedad es mucho menor

Desde su introducción a fines de la década de 1990, la Internet cubana se ha estancado debido a la falta de financiamiento, las estrictas restricciones gubernamentales, y el embargo estadounidense. A partir de 2007, esta situación comenzó a mejorar lentamente, con servicios de datos 3G desplegados en toda la isla en 2018 y 4G desde 2019, aunque a través de una red supervisada por el gobierno. El 29 de julio de 2019, Cuba legalizó el wifi privado en hogares y negocios, aunque se debe obtener un permiso para tener acceso. Según el sitio web DataReportal, en 2022, el 68% de la población cubana podría acceder a Internet.

Si pensamos en el español escrito, en su forma más clásica y previa a la digitalización del mundo, podríamos decir que un texto escrito en español esta compuesto mayormente de combinaciones de letras de la a-z y sus respectivas mayúsculas, múltiples signos de puntuación, además de algunas estructuras numéricas como pueden ser fecha, horas, cantidades, entre otras. Pero gracias a la irrupción del mundo digital en la isla, se puede afirmar que en Cuba ya no se escribe tan así.
Total
CubaDebate
Facebook
Telegram
Twitter
Youtube

La influencia de la cultura digital en el lenguaje se evidencia en diferentes medida entre las distintas redes sociales, según la características de las misma. No es sorprendente que se evidencie mayor influencia en una plataforma como Twitter donde, a diferencia de otras redes sociales como Facebook o Instagram, la mayoría de las publicaciones son textos cortos donde los usuarios expresan todo tipo de pensamientos y opiniones. Pero si es interesante ver como un sito oficial y de prosa periodística como CubaDebate también le ha dado su espacio a los aportes de la cultura digital a idioma español

El universo de la comunicación digital ha aportado al idioma 4 entidades nuevas principalmente, los emojis, los hashtags, las sitas a usuarios mediante su "username" y las url o direcciones digitales. Aquellas herramientas que inicialmente fueron pensadas para mejorar la experiencia del usuario, brindar un poco de orden en la red y ayudar a los usuarios a expandir sus mensajes a la mayor dimension posible, hoy se han convertido en parte principal de la cultura social traspasando inclusos los limites del Internet y el mundo digital.

Otro detalle muy interesante del aporte de la cultura digital al idioma, es como se pude caracterizar un contenido al analizar cuales de las nuevas herramientas usa más. Pues por ejemplo si en dicho contenido se caracteriza por la presencia de muchas urls, entonces podemos inferir que estamos en presencia de una plataforma de promociones, en la que los creadores de contenido buscan dar visibilidad a sus trabajos, productos ... O si por otro lado la característica más demandada en la escritura son los emojis entonces podemos pensar en una plataforma de contenido diverso, donde los usuarios solo escriben para reaccionar a dicho contenido. El uso de los emojis también es característico de los chats electrónicos, pero en estos sitio el uso de los emojis y los tags a usarios por lo general se encuentra compensado.

Total
CubaDebate
Facebook
Telegram
Twitter
Youtube

El principal problema de la escritura se debería ver erradicado con los distintos avances de la tecnología, pero no es así, los errores ortográficos también tiene su hueco en el inmenso mundo el lenguaje digital. No solo siguen existiendo los errores sino que en cierta medida la influencia cultural de la digitalización y la globalización, a contribuido a que la sociedad incluya palabras al lenguajes que en principio son errores ortográficos, ejemplo de esto es el uso de lenguaje unisex (compañer@s, amigxs, todes, ...) o la repetición de letras para trasmitir sensación de continuidad o énfasis (siiiiiiiii, jajajajjsjsjsj...).

La regularización lingüística, mediante la promulgación de normativas dirigidas a fomentar la unidad idiomática dentro de los diversos territorios que componen el mundo hispanohablante, es tarea de la Real Academia de la Lengua Española (RAE). La misma fue fundada en 1713 por iniciativa del ilustrado Juan Manuel Fernández Pacheco, con la aprobación del rey Felipe V de España. Las directrices lingüísticas que esta institución propone se recogen en diversas obras, pero la prioritaria es el diccionario, abreviado DLE, editado periódicamente veintitrés veces desde 1780 hasta hoy. En el mismo se recogen la lista de vocablos que conforma al idioma y sus distintos significados

Total
CubaDebate
Facebook
Telegram
Twitter
Youtube
Siempre que los autores describían esta investigación como un trabajo estadístico sobre las redes sociales, en sus círculos más cercanos siempre existían distintas apuestas sobre cuales serían las palabras más usadas, cuales las corrientes políticas más representadas. Dichas circunstancias despertaron la curiosidad de los autores, los cuales realizaron un ranking de las palabras más usadas (en las que se cuentan palabras, emojis, tags de usarios y hashtasgs, y se excluyen signos de puntuación y palabras de extremo uso como las conjunciones, artículos, ...). El ranking total cuenta con 186681 terminos distintos. Como no podía ser de otra manera en el top 5 de las palabras más usadas en el español digital cubano se encuentran 3 emojis y la palabra 'cuba'.
A continuación se muestra los resultados sobre la palabra 'asere', que desde cierto punto de vista (sobre todo en el terreno internacional) pudiera creerse que es una palabra que nos distingue a los oriundos de la isla. Sin embargo no existe artículo ni comentario en CubaDebate en la que aparezca la palabra 'asere', lo cual es muy llamativo considerando que su posición en el ranking global no es del todo mala aun con dicha desventaja. El lector esta invitado a buscar las palabra que crea que puedan estar en el top y sacar sus propias conclusiones

Al ver que se contaba con un total de 199593 textos de las distintas redes sociales, y que en estos se detectaron un total de 5077492 palabras reconocidas por la RAE, pero el DLE cuenta solo con aproximadamente 93000 palabras. Como es obvio entre todos estos textos hay miles de palabras repetidas con frecuencias verdaderamente alta, pero y ¿si se separaran estos textos por fecha? ¿Que tan originales son los cubanos al escribir? ¿Cuantas palabras solo aparecen un solo día puntual?

Los resultados de este análisis solo se muestran para los últimos 3 años, pues aunque se cuentan con textos desde 2017 la densidad de los ejemplos en esas fechas es muy baja con lo cual se consideran poco relevantes. Sin embargo dichos textos si se tuvieron en cuenta para el computo total, osea si una palabra se uso en 2017 y en 2021 nuevamente entonces esta palabra no cuenta como 'palabra original'

Como ya se comento al inicio el español de la actualidad, sobretodo el hablado en Hispanoamérica, es fruto de una intensa mezcla de cientos de culturas distinta, característica que es muy apreciada en el habla cubana. A través de todos los textos recolectados y todas las palabras analizadas, se detectaron un total de 27 etimologías distintas. Como es lógico el origen más representado es el latín, pues el español en general proviene el mismo. Pero se encuentran palabras como origen en el japonés por ejemplo

¿Cómo se hizo?
Este trabajo es el resultado de un ejercicio planteado en el Curso Optativo de Periodismo de Datos que se imparte a estudiantes de 5to,4to y 3er año de Ciencia de la Computación en la Facultad de Matemática y Computación de la Universidad de La Habana. Para el análisis del Español Digital Cubano se les utilizaron varios scrapers para obtener los distintos textos escritos en la isla. Se escogieron para este análisis las plataformas CubaDebate, Facebook, Telegram, Twitter y Youtube, para cada una de ellas se reutilizaron scrapers implementados por terceros y publicados en GitHub. A partir de dichos textos, apoyados en las bibliotecas spacy (procesamiento de lenguaje natural), pyrae (scraper del sitio oficial de la RAE) y emoji (para reconocer emojis), se realizaron los distintos cómputos y conteos que posibilitaron los resultados presentados. Entre las principales técnicas utilizadas se encuentra el empleo de expresiones regulares (para detectar entidades como hashtags, usertags o errores ortográficos por repetición de caracteres) y la detección de entidades nombradas (para detectar cuales de las palabras no reconocidas por la RAE son nombres propios). Todas las gráficas presentadas son frutos de la union de todos los cómputos realizados más la versatilidad de la biblioteca Echarts para definir múltiples gráficas