Cuando analizamos un dataset con el expertise semántico de Séntisis Intelligence, la mayoría de los mensajes son clasificados dentro de una o varias categorías de nuestra base de datos.
Algunos mensajes pueden quedar sin categorizar y, dependiendo del tipo de texto y sector que estemos analizando, hay algunos escenarios en los que la cobertura de categorías puede no ser tan exacta como se desearía.
Ahora puedes tener una mayor cobertura de categorización en tu modelo de clasificación activando la opción "AI Categorizer" dentro de la configuración de cliente:
¿Cómo funciona este análisis híbrido una vez está activado?
Una vez tengas activada la opción "AI Categorizer", debes crear dentro de tu proyecto un modelo de clasificación con los temas y categorías que más te interesen.
Puedes hacerlo manualmente o de forma asistida, como cuando creas un proyecto desde el dashboard y eliges el tipo de texto a analizar y el sector.
Si no existe un modelo de clasificación configurado en el proyecto antes de la subida del dataset, el categorizador híbrido no tendrá ningún efecto en el análisis.
El categorizador híbrido se basa en un sistema con dos fases de análisis. En primera instancia, el dataset es analizado con nuestras reglas y algoritmos en los que llevamos trabajando años.
Tras esa categorización inicial, seleccionamos automáticamente los mensajes que no tienen ninguna categoría asociada y los reanalizamos con grandes modelos de lenguaje (OpenAI) para comprobar si realmente no pueden ser clasificados en ninguna de las categorías del modelo de clasificación existente.
Tras esta comprobación, se categorizarán muchos de estos mensajes que no tenían categorías, aumentando así la cobertura de clasificación de nuestro modelo de una forma precisa y notable.
¿Qué sucede si hay categorías personalizadas dentro del modelo de clasificación de temas y categorías?
Si las categorías personalizadas sólo incluyen nombre + descripción, el categorizador híbrido las entenderá como si fuesen una categoría lingüística más, aumentando también la cobertura de éstas.
Si por el contrario, las categorías personalizadas incluyen keywords de clasificación determinista, éstas sólo clasificarán los mensajes que contengas dichas keywords y serán ignoradas por nuestro categorizador híbrido.
¿Qué puedo hacer para obtener una mejor calidad y precisión en el análisis con categorizador híbrido?
Configura una buena descripción de tu proyecto para que el categorizador híbrido tenga mucho más contexto sobre tu dataset y sea más preciso a la hora de categorizar los mensajes:
Ejemplo de descripción de proyecto:
Estos textos son opiniones de usuarios sobre el servicio de venta de productos online. Se trata de valoraciones de compra, venta y servicio de entrega en Marketplaces como Amazon o Miravia.
Si incluyes categorías personalizadas con nombre y descripción y sin keywords, asegúrate de introducir una descripción detallada de lo que debería clasificar dicha categoría. Esto ayudará mucho a mejorar la cobertura de la misma.
Ejemplo de descripción de categoría personalizada sin keywords:
Enojo: El usuario manifiesta estar enfadado por una mala experiencia de compra online.
Extra: caso de uso interesante para proyectos express
Imaginemos este hipotético escenario. Si llega un proyecto urgente que requiere analizar 5.000 textos en italiano sobre la pesca artesanal en agua dulce, podemos servirnos del categorizador híbrido para tener listo un modelo de clasificación con buena cobertura en muy poco tiempo.
Siguiendo estos sencillo pasos podríamos tener resultados de análisis muy potentes en unos minutos:
Sube el dataset a un proyecto sin configurar para observar y analizar los conceptos clave/términos más repetidos que aparecen en los mensajes:
Una vez compruebes de qué se habla más y en base al objetivo que tenga el cliente, ya puedes crear un modelo de clasificación eligiendo las categorías lingüísticas que más sentido tengan según la temática.
Incluso puedes crearlo utilizando sólo categorías personalizadas sin keywords.
A continuación, una vez ya definido el modelo de clasificación, sube el dataset de nuevo y la IA nos ayudará a clasificar todos esos mensajes en las distintas categorías incluidas en nuestro modelo de clasificación.
🙌 En muy poco tiempo tendríamos miles de mensajes clasificados con gran precisión y cobertura 🙌
-
Update 2.0 - Creación automática de temas/categorías + categorizador híbrido
En el caso de subir un primer dataset a un proyecto recién configurado con el categorizador híbrido activado, primero se ejecutarán estos procesos de análisis y tras esto se realizará la creación automática de temas y categorías, teniendo en cuenta la nueva cobertura de los mensajes.