La base de datos lingüística está formada por reglas o patrones lingüísticos:

Reglas o Patrones lingüísticos

Una regla es una palabra o conjunto de palabras que combinadas de una determinada forma y a una distancia concreta tiene un significado unívoco dentro de un contexto. Ese significado es la categoría y/o el sentimiento y el contexto es el dominio. Dependiendo de qué dominios elijamos funcionarán unas reglas u otras en el texto que vamos a analizar.

Categorías lingüísticas

La categoría lingüística es el significado que tiene una regla. Actualmente tenemos aproximadamente 1000 categorías disponibles. Cada una de ellas actúa en un grupo de dominios determinados (contexto). Están jerarquizadas de forma que si un texto se clasifica en una categoría “hija” automáticamente se clasificará también en la categoría “madre”. Por otro lado, al elegir una categoría “madre” para una configuración, estaremos eligiendo a todas sus “hijas”. En este documento puedes consultar las categorías que tenemos actualmente en la base de datos lingüística junto a su definición y la jerarquía.

¿Para qué sirve la jerarquía de categorías?

La jerarquía de categorías sirve para hacer el uso de las categorías más flexible y modular. Por ejemplo, en el siguiente árbol:

Si elegimos Sitio digital, entrarán todos los mensajes clasificados en todas las categorías hijas sin ponerle su etiqueta. A todos se les asignará Sitio digital (a no ser que hayamos elegido también alguna categoría hija en la vista, que en este caso, le saldrían las dos etiquetas a los mensajes que corresponda).

Sin embargo, si elegimos una categoría hija, a los mensajes que entren en esta categoría sí les saldrán automáticamente también las categorías madre. Por ejemplo, eligiendo Fallos al comprar online, a todos los mensajes que entren, les saldrá también Fallos de sitio digital, Funcionamiento de sitio digital y Sitio digital. Para evitar que salgan todas, podemos o no seleccionar a las madres para la vista, o bien eliminar las que no nos interesen con una custom rule.

Un caso de uso que puede darse sería por ejemplo que nos interesase tener Funcionamiento de sitio digital e hijos pero los mensajes de Fallos al comprar online no los quiere agrupados con el resto pero sí queremos tener esa categoría de forma independiente. En este caso elegiríamos los mensajes que caigan en Fallos al comprar online AND Fallos de sitio digital AND Funcionamiento de sitio digital y les quitaríamos las categorías Fallos de sitio digital y Funcionamiento de sitio digital.

Categorías manuales

Por otro lado, existen las categorías manuales. Estas no dependen de lingüística, pero nos sirven para seguir alimentando la base de datos. Os agradecemos que nos peguéis en esta hoja las categorías manuales que penséis que puedan ser útiles para otros clientes junto con las keywords que contienen.

Sentimiento

Los tres tipos de sentimiento que tenemos (positivo, negativo y neutro) actúan igual que las categorías. Son el significado de un patrón y se aplican al texto de forma que si a un mensaje le sale más de un sentimiento, el resultado será neutro.

Dominios-Contexto

El dominio es el contexto en el que actúa una categoría. Los dominios actúan de forma independiente, sin jerarquizar, de forma que tenemos que elegir un conjunto de dominios para que apliquen a una monitorización. A este conjunto de dominios lo llamamos Market (solo para configuraciones en admin). Existen dominios muy genéricos (empresa) y otros muy específicos (encuesta supermercado). Por eso es importante elegir los dominios que más se ajusten al texto a analizar.

Dominios transversales

Merece la pena mencionar tres dominios que son transversales al resto, es decir, añaden a la clasificación una capa diferente al mapa de categorías general que tiene que ver con el sector y tipo de texto. Estos dominios transversales tienen una función específica distinta a la hora de monitorizar texto.

Activa emociones

Contiene el mapa de emociones. Sus categorías no describen la opinión de la persona que ha escrito el texto, sino cómo se siente esta persona en el momento de escribir (si es que lo ha manifestado). Activamos todas las categorías de emoción al añadir este dominio a una monitorización (por eso solemos incluirlo siempre).

Por ejemplo: “Estoy muy triste porque ha ganado el Real Madrid”. Si estamos monitorizando al Real Madrid, el mensaje sería negativo, pero la emoción del emisor sería Tristeza.

Activa intenciones

Contiene el mapa de intenciones. Sus categorías no describen la opinión de la persona que ha escrito el texto, sino la intención en sí misma del texto (publicación de marca, anuncio de empleo, afirmación…). Estas categorías son muy útiles para condicionar el sentimiento de forma subjetiva dependiendo del cliente y de la monitorización. Por ejemplo “Buenos días hijos de puta”. Independientemente del sentimiento y de las categorías, que dependerán de a quién estemos monitorizando, del foco de la conversación, la intención del mensaje es insultar y le saldrá la categoría Insulto.

Un caso de uso que puede ser fundamental relacionado con la intención del mensaje sería el de condicionar a que una categoría anule a otras o incluso a todas las demás. Por ejemplo, cuando un mensaje es una publicación de marca, no puede ser Atención al cliente, Trato recibido ni nada que implique opinión del cliente o usuario, por lo que se puede hacer una custom rule para que esta categoría (Publicaciones de marca) prevalezca sobre las demás. Dejamos aquí este documento con sugerencias transversales de categorías que deberían prevalecer siempre sobre las demás.

Por ejemplo, las categorías Aplausos, Felicitaciones, Elogios, Agradecimientos… no son positivas, solo captan mensajes cuya intención es aplaudir, felicitar, elogiar o agradecer. Sin embargo, pueden ser muy útiles para condicionar en determinados contextos. Por ejemplo: Si el foco de la conversación es un político o un partido político, podemos agrupar estos mensajes y condicionarlos a positivo e incluso renombrarlos como Seguidor.

Otro ejemplo: la categoría Se nombra a alguien indica eso, que la intención del mensaje es nombrar a alguien. Esto en muchos contextos quiere decir que el emisor del mensaje está participando en un sorteo, en otros, que esa persona está interesada en que la persona nombrada lea la información de un post o una noticia… Podemos renombrar y condicionar el sentimiento de estas categorías como mejor venga al cliente.

Explore

Este dominio contiene categorías temáticas generales. Es decir, no está sesgado por sectores, ya que su finalidad es clasificar en temas muy genéricos. Por ejemplo: Sanidad, Prostitución, Harry Potter…

Para seleccionar los dominios que intervendrán en una monitorización, se puede seguir este diagrama respondiendo las preguntas y siguiendo las líneas. Lo explicamos mejor en este vídeo.

Cuando configuramos en admin para social media, tenemos que elegir un mercado predeterminado entre los que hay o bien crear uno nuevo si no lo hubiese, mientras que en CX, elegimos directamente el grupo de dominios. En el diagrama, las casillas rojas indican el market (en mayúscula) y el grupo de dominios que contiene cada uno (en minúscula).

Targets

A la hora de configurar un proyecto, es de vital importancia la elección de los targets. Algunas reglas contienen pasos dinámicos, que se activan cuando se encuentra en el texto alguna palabra o keyword contenida en los targets de la configuración, por eso, cuantos más targets tengamos, más reglas aplicarán a la monitorización.

Siguiendo con el ejemplo de antes:

“Estoy muy triste porque ha ganado el Real Madrid”

Si estamos monitorizando al Real Madrid, el mensaje será Negativo y tendrá la categoría Seguidor.

Pero si estamos monitorizando al Barcelona, será neutro o incluso positivo (esto lo debería determinar el cliente). Y la categoría sería Detractor.

Igualmente, el target puede ser un deportista, un político… si en el texto aparece una forma de llamar a nuestro cliente diferente a las recogidas en los targets, las reglas no aplicarían y el mensaje se quedaría sin categorizar.

Para la elección de targets, debemos pensar en las diferentes formas de nombrar a un cliente y también en los posibles focos de sentimiento de ese cliente. Por ejemplo, si estamos monitorizando a una empresa, elegiríamos las diferentes formas de llamar a esa empresa, pero quizá también el nombre de su dueño o de su campaña publicitaria… a veces, solo con poner más targets en una configuración se solucionan problemas de categorización y/o sentimiento.

Reportes a Lingüística

Aquí enlazamos el protocolo de reportes, pero además nos gustaría tener un espacio en el que poder acercarnos a consultoría, escuchar casos concretos de fallos en la clasificación, de exceso de ediciones manuales o de vacíos en la base de datos. Con el objetivo de buscar soluciones transversales a todos los clientes que no siempre tienen que ver con la falta de patrones lingüísticos.

Lingüística para consultores