Mejorar La Precisión De Clasificación Mediante Creación Y Ajuste De Transformadores De Oraciones

0
82
Create and fine-tune sentence transformers for enhanced classification accuracy

Los transformadores de oraciones se han convertido en herramientas esenciales en el mundo de la inteligencia artificial, particularmente en el procesamiento del lenguaje natural (NLP). Estos modelos de aprendizaje profundo convierten frases en vectores de alta calidad con longitud fija, encapsulando su significado semántico y facilitando diversas tareas de NLP como la clasificación de textos, la agrupación, la búsqueda semántica y la recuperación de información.

En el ámbito del comercio electrónico, Amazon ha utilizado transformadores de oraciones para mejorar la clasificación de productos en su extenso catálogo. Se presenta aquí un estudio que compara el desempeño de dos transformadores de oraciones diferentes al categorizar productos de Amazon: el transformador público Paraphrase-MiniLM-L6-v2 y el modelo de lenguaje más grande de Amazon, M5_ASIN_SMALL_V2.0. Este último, basado en BERT, ha sido ajustado con datos internos del catálogo de productos de Amazon, utilizando títulos, puntos destacados, descripciones y más. La hipótesis inicial era que el modelo M5 demostraría un rendimiento superior debido a su entrenamiento con datos específicos de Amazon.

La investigación confirma esta hipótesis mediante la implementación de un experimento que afina los transformadores de oraciones utilizando un conjunto de datos de productos de Amazon de 2020. Este conjunto de datos, disponible públicamente, incluye numerosos campos como nombre del producto, categoría, precio, especificaciones técnicas, entre otros. Tras la afinación, estos modelos son evaluados en su capacidad para clasificar productos en sus respectivas categorías, utilizando un clasificador XGBoost.

La clave de esta mejora radica en el proceso de preprocesamiento, el cual normaliza los textos, define la categoría principal del producto y selecciona los campos más relevantes para una clasificación precisa. Un modelo de clasificador final se desarrolla entrenando el paraphrase-MiniLM-L6-v2 durante cinco épocas, optimizándolo para minimizar la pérdida.

Los resultados del estudio mostraron que, al utilizar el transformador estándar Paraphrase-MiniLM-L6-v2, se alcanzó un 78% de precisión en la clasificación de productos. Sin embargo, tras afinar el modelo, la precisión aumentó significativamente a un 94%. En cuanto al modelo M5_ASIN_SMALL_V2.0, basado en datos internos de Amazon, la precisión inicial fue equivalente al primer modelo, pero tras su afinación, logró alcanzar un 98% de precisión.

Estos hallazgos subrayan la efectividad de afinar los transformadores de oraciones específicamente con datos de productos de Amazon, logrando así mejorar considerablemente la precisión en la clasificación de categorías de productos. En conclusión, los transformadores de oraciones finamente ajustados no solo potencian la clasificación de productos, sino que también abren nuevas posibilidades para la implementación de tecnologías de inteligencia artificial más precisas en el comercio electrónico.
vía: AWS machine learning blog