Sistemas de recomendaciÃ³n, restaurantes y reseÃ±as: MÃ¡s allÃ¡ de la media empresaglobal.es

Sistemas de recomendaciÃ³n, restaurantes y reseÃ±as: MÃ¡s allÃ¡ de la media

Abril de 2021

Juan Carlos RuÃz

Al elegir un restaurante se tiene una gran variedad de opciones, muchas de ellas desconocidas. Para decidir a dÃ³nde ir es comÃºn usar portales de reseÃ±as, que, a partir de filtros, recomiendan aquellos que cumplen los criterios del consumidor y que en el mejor de los casos se acoplan a sus gustos. Sin embargo, este enfoque normalmente carece de personalizaciÃ³n, y se limita en general a ordenar los resultados descendientemente por una calificaciÃ³n media. En mi TFM muestro cÃ³mo usando sistemas de recomendaciÃ³n basados en la informaciÃ³n textual y numÃ©rica de las reseÃ±as es posible tener un grado de personalizaciÃ³n que beneficia tanto a consumidores como restaurantes.

Los consumidores prestan cada vez mÃ¡s atenciÃ³n a las reseÃ±as en lÃnea antes de tomar una decisiÃ³n de compra o de consumo. El 91% de las personas leen reseÃ±as de manera ocasional o regular, y el 84% confÃa en las reseÃ±as online al mismo nivel que en recomendaciones personales (Gather-Up, 2018). Sin embargo el 50% de los consumidores no escribe reseÃ±as ni califica a los restaurantes (Gather-Up, 2018), y este desbalance entre la producciÃ³n y el consumo de reseÃ±as dificulta la construcciÃ³n de una imagen clara de la calidad y la experiencia de un restaurante, y la limita a los puntos de vista de los usuarios que sÃ reseÃ±an.

Sistemas de recomendaciÃ³n

Los sistemas de recomendaciÃ³n manejan tres tipos de objetos: Ãtems, usuarios y transacciones. Los Ãtems son cualquier elemento por recomendar, en este caso, los restaurantes. Luego estÃ¡ el usuario, a quien se ofrece las recomendaciones. Y tercero, las transacciones, que son la uniÃ³n entre usuarios e Ãtems, que en este contexto son las visitas a restaurantes de un consumidor.

Generalmente, los sistemas de recomendaciÃ³n se clasifican en dos tipos: Content-Based Filtering (filtrado basado en contenidos).los cuales le ofrecen al usuario Ãtems similares a los que consumiÃ³ en el pasado; y Collaborative-Filtering (filtrado Colaborativo), los cuales ofrecen al usuario Ãtems que personas con gustos similares al suyo evaluaron de manera positiva en el pasado.

A pesar de la amplia investigaciÃ³n en sistemas de recomendaciÃ³n, en la academia, el uso de tÃ©cnicas de procesamiento del lenguaje natural (NLP) en idiomas distintos al inglÃ©s junto con sistemas de recomendaciÃ³n es bastante limitado. Debido a lo anterior, decidÃ desarrollar y evaluar un sistema de recomendaciÃ³n basado en procesamiento del lenguaje natural enfocado en el contexto de restaurantes.

AcotÃ© este proyecto al contexto a la industria de restaurantes de BogotÃ¡ (Colombia). En Colombia, la apariciÃ³n del COVID-19 y las consecuentes medidas preventivas de cuarentena obligatoria tuvieron un fuerte impacto en la industria de los restaurantes y bares. De febrero a marzo de 2020 este sector presentÃ³ una variaciÃ³n de -33% en los ingresos percibidos (DANE, 2020). AdemÃ¡s, a pesar de que la industria de restaurantes aporta el 4% al PIB de Colombia y cerca del 6% de los empleos del paÃs (LeÃ³n, 2016), solo el 40% de los restaurantes llega a los cinco aÃ±os (NuÃ±ez, 2018).

Fuentes y obtenciÃ³n de los datos

En todo ejercicio de Data Science, uno de los factores mÃ¡s importantes (sino el mÃ¡s importante) es la calidad de los datos. AsÃ, la fiabilidad de las reseÃ±as fue un factor clave, pues si las reseÃ±as no reflejan la realidad del restaurante (siendo posible un sesgo hacia opiniones positivas o negativas) las recomendaciones no serÃan correctas.

El 94% de los consumidores evalÃºa las reseÃ±as de Tripadvisor como mÃ¡s fiables, rigurosas, Ãºtiles y descriptivas. Y el 90% indica que las reseÃ±as de Tripadvisor coinciden con las experiencias reales en los restaurantes, comparado con un 31% de Google y 18% de Facebook (Influences on Diner Decision-Making Survey, 2018). Es por esto que decidÃ obtener las reseÃ±as y la informaciÃ³n propia de los restaurantes de los restaurantes de TripAdvisor usando Web Scrapping [1] .

Modelo de datos

AnÃ¡logamente, sin datos correctamente organizados, con duplicados, o con errores, se llegarÃa a conclusiones errÃ³neas. Por lo que se hizo un proceso de limpieza para pasar de los datos en bruto a un modelo de datos (Figura 1). Entre las modificaciones realizadas destacan: la eliminaciÃ³n de duplicados y valores nulos; la correcciÃ³n y unificaciÃ³n de valores con distinta ortografÃa; y el uso del API de Google Maps para enriquecer la informaciÃ³n geogrÃ¡fica de los restaurantes, y para completar informaciÃ³n faltante en algunos de ellos.

Por su parte, las reseÃ±as, al ser textos libres, se catalogan como informaciÃ³n no estructurada. Para darles la estructura necesaria para que fuesen usadas para el modelado se automatizÃ³ un proceso de limpieza que cambiÃ³ el texto a minÃºsculas, corrigiÃ³ la ortografÃa, reemplazÃ³ caracteres repetidos innecesarios y eliminÃ³ stop-words [2] . AdemÃ¡s, se usÃ³ el modelo CoreNLP (Manning et. al. 2014) para hacer lematizaciÃ³n del texto [3] .Como resultado de este proceso se obtuvo un set de datos con 2.130 restaurantes, 92.024 reseÃ±as y 42.449 usuarios.

Restaurantes en funciÃ³n de su calificaciÃ³n media y el nÃºmero de reseÃ±as

La mayorÃa de las reseÃ±as asignadas por los usuarios son de 5 o 4 estrellas. Es decir, la mayorÃa tiene experiencias satisfactorias con los restaurantes que visita o tiende a escribir reseÃ±as cuando tiene una experiencia positiva. De 2.130 restaurantes posibles, en promedio, un usuario solo habrÃ¡ evaluado dos de ellos. Esto deja en evidencia una marcada situaciÃ³n de data-sparsity. [4] De hecho, de la totalidad de posibles parejas (usuario-restaurante) tan solo el 0.1% estÃ¡n presentes.

Al analizar las palabras mÃ¡s usadas en cada calificaciÃ³n de reseÃ±as de manera comparativa se ve que conforme aumenta el nÃºmero de estrellas, aumentan los calificativos positivos, especialmente los relacionados con Â´recomendadoÂ´ y Â´deliciosoÂ´. Mientras que las reseÃ±as 1 o 2 estrellas hacen mÃ¡s Ã©nfasis en el servicio y la atenciÃ³n.

Palabras mÃ¡s usadas en reseÃ±as de 1 estrella

Palabras mÃ¡s usadas en reseÃ±as de 5 estrellas

Division de datos y modelado

El conjunto de variables (features) de los restaurantes se construyÃ³ con base en el texto pre procesado: luego de agrupar por los niveles de puntuaciÃ³n (de 1 a 5 estrellas) se aplicÃ³ el mÃ©todo TF-IDF normalizado, se seleccionaron para cada nivel las 100 palabras mÃ¡s importantes y se hizo un perfil por restaurante usando una representaciÃ³n de bag-of-words sobre las 500 palabras mÃ¡s importantes. Para hacer una estimaciÃ³n correcta del desempeÃ±o de cada modelo, se dividiÃ³ el dataset en dos particiones: Entrenamiento (80%) y Prueba(20%). [5]

De los modelos probados destacan los siguientes:

Singular Value Descomposition

Es un mÃ©todo basado en Ã¡lgebra lineal que permite la reducciÃ³n de dimensionalidad. Se basa en la factorizaciÃ³n de matrices, y no hace uso de features textuales. Se enmarca entre las tÃ©cnicas de filtrado colaborativo, y utiliza una matriz en la que cada fila representa un usuario, cada columna un Ãtem y los elementos de esta matriz son las calificaciones.

Modelo Light FM

Es el modelo implementado en la librerÃa del mismo nombre, propuesto por Kula (2015). El modelo aprende embeddings [6] para consumidores y restaurantes de una manera que codifica las preferencias del consumidor sobre los restaurantes. Este modelo tiene dos caracterÃsticas principales: 1) Aprende a partir representaciones de Ãtems y usuarios. Y 2) Permite computar recomendaciones a usuarios e Ãtems nuevos. [7]

Modelo de ReseÃ±a mixta

DesarrollÃ© un modelo similar al planteado por Pero & HorvÃ¡th (2013), el cual contempla tanto el sentimiento de la reseÃ±a como la calificaciÃ³n de la misma. Este modelo tiene dos partes: por un lado, primero se estiman los sentimientos de la reseÃ±a (positivo o negativo) para crear calificaciones virtuales, y a estas se les aplica el un procedimiento de factorizaciÃ³n de matrices (SVD en este caso) [8].

Figura 28 Modelo de ReseÃ±a Mixta

Por otro lado, a las calificaciones dadas por los usuarios se le aplica SVD. Y finalmente, se hace una combinaciÃ³n lineal de las calificaciones predichas por cada una de las matrices para dar una calificaciÃ³n final sobre la cual se ordenan los resultados y se dan las recomendaciones.

R_final = R_virtual * α + R_real * (1 - α)

MÃ©tricas

Para medir los modelos y compararlos entre sÃ, se usaron principalmente tres mÃ©tricas:RMSE, Average Precision at K y Average Accuracy at K.

La evaluaciÃ³n con RMSE funciona de la siguiente manera: el modelo genera predicciones de las valoraciones para un consumidor, y luego se comparan las predicciones contra los valores reales por medio de la fÃ³rmula de RMSE. La ventaja de este enfoque es que no cae en el error de penalizar al sistema en caso de que haya recomendaciones de items que el usuario no ha evaluado.

La Precision at K (P@K) es la proporciÃ³n del top K recomendaciones que son relevantes para

un usuario. Por ejemplo, si K =10, serÃa el porcentaje de los restaurantes que son relevantes que llegan al top 10 (para un usuario dado). Luego, si se hace por usuario una media de la P@K para K valores (K=100), se consigue la Average Precision at K (APK) . Y si luego se hace una media de estas APK entre los usuarios, se obtiene la Mean Average Precision at K.

De manera similar, la Recall at K (R@K) es la proporciÃ³n de los Ãtems relevantes que llegan al top K. La Average Recall at K se calcula por usuario una media de la R@K para K valores (K=100), y la Mean Average Recall at K es el promedio estos valores.

Modelo	Baseline [9]	SVD	LightFM	ReseÃ±a mixta (RM)
RMSE - Train CV	1.251	1.03	-	1.002
RMSE - Test	1.258	1.04	-	1.02
Mean Average Precision at K - Test	0.601	0.640	0.695	0.682
Mean Average Recall at K - Test	0.125	0.165	0.232	0.184

En tÃ©rminos del RMSE, los modelos SVD y RM logran significativamente mejores resultados que el modelo baseline. El modelo RM al integrar las calificaciones virtuales de los restaurantes y computarlas en conjunto con las del modelo SVD logra un error menor diferenciado por su segundo decimal, lo que para efectos prÃ¡cticos podrÃa considerarse un resultado igual al del SVD.

La Mean Average Precision at K indica que en promedio el 60% de los Ãtems recomendados son relevantes para el usuario en el modelo baseline. Esto tiene sentido al considerar que la mayorÃa de las reseÃ±as tienen calificaciones de 4 o 5 estrellas. Los modelos LightFM y ReseÃ±a Mixta propuestos alcanzan en esta mÃ©trica valores de 0.70 y 0.68 respectivamente, superando a SVD.

A pesar de usar tÃ©cnicas de NLP no se consiguieron mejoras significativas frente al modelo SVD. Esto puede deberse a varias razones, una de ellas es la data-sparsity del dataset. El dataset solo tiene un 0.1% de las posibles parejas usuario-reseÃ±a, lo cual dificulta a cualquier algoritmo el cÃ¡lculo de recomendaciones, y perjudica las mÃ©tricas en casos en los que los usuarios tienen un bajo nÃºmero de reseÃ±as.

Los resultados demuestran que los modelos basados en texto ofrecen una mejora sobre aquellos que solamente tienen en cuenta las calificaciones otorgadas a los restaurantes por parte de los usuarios.Sin embargo, el grado de data-sparsity de los datos es determinante en la consecuciÃ³n de buenas predicciones, pues incluso tras incluir informaciÃ³n textual, las mejoras a la hora de hacer recomendaciones son marginales si no existen suficientes reseÃ±as.

Referencias

Gather-Up. (2018). Online Reviews Study: Restaurants & Reviews. Gather Up. https://gatherup.com/blog/online-reviews-study-restaurants-reviews/
DANE. (04/2020). Encuesta mensual de servicios (EMS) . Departamento Administrativo Nacional de EstadÃstica. https://www.dane.gov.co/files/investigaciones/boletines/ems/bol_ems_abril_20.pdf
LeÃ³n, D. (2016, July 10). Restaurantes del paÃs aportan 4% al PIB. Vanguardia. https://www.vanguardia.com/economia/nacional/restaurantes-del-pais-aportan-4-al-pib-CFVL375667
NuÃ±ez, G. E. (2018, December 29). Muchos restaurantes no llegan a los cinco aÃ±os: Acodres. https://diariolaeconomia.com/fabricas-e-inversiones/item/4130-muchos-restaurantes-no-llegan-a-los-cinco-anos-acodres.html
Pero, Š., & HorvÃ¡th, T. (2013). Opinion-Driven Matrix Factorization for Rating Prediction. In User Modeling, Adaptation, and Personalization (pp. 1-13). https://doi.org/10.1007/978-3-642-38844-6_1
Manning, Christopher D., Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. 2014. The Stanford CoreNLP Natural Language Processing Toolkit In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pp. 55-60.
Hug, N., (2020). Surprise: A Python library for recommender systems. Journal of Open Source Software, 5(52), 2174, https://doi.org/10.21105/joss.02174
Kula, M. (2015). Metadata Embeddings for User and Item Cold-start Recommendations. arXiv Preprint.
Chen, L., Chen, G., & Wang, F. (2015). Recommender systems based on user reviews: the state of the art. In User Modeling and User-Adapted Interaction (Vol. 25, Issue 2, pp. 99-154). https://doi.org/10.1007/s11257-015-9155-5

[1] MÃ©todo que simula el comportamiento humano en una pÃ¡gina, y que de manera masiva obtiene la informaciÃ³n de una pÃ¡gina web. La obtenciÃ³n de datos de Tripadvisor se limitÃ³ a las 300 primeras reseÃ±as por restaurante para no violar ninguna ley de propiedad de los datos, y no se obtuvo informa.
[2] Palabras sin significado como artÃculos, pronombres, preposiciones, etc. Y que no agregan valor al anÃ¡lisis. Para esto se usÃ³ la librerÃa NLTK.
[3] La lematizaciÃ³n consiste en reemplazar las formas flexionadas de una palabra por su lema correspondiente (como se encontrarÃa en un diccionario) basado en su significado. Por ejemplo, de Â«ExcelentÃsimoÂ» por Â«excelenteÂ», o Â«ComimosÂ» por Â«comerÂ».
[4] Si se contempla una matriz de dos dimensiones en la que en un lado estÃ¡n los restaurantes y en el otro los usuarios, se tiene que se cubren muy pocas de todas las posibles combinaciones.
[5] Debido al data sparsity se decidiÃ³ tener en Train la mayor cantidad de datos, sin que Test dejase de ser representativo. Sobre el de Train se hizo cross-validation de 5 folds para los algoritmos que requirieron encontrar hiper parÃ¡metros. Los hiper parÃ¡metros se optimizaron usando grid-search. Los modelos finales fueron entrenados en la totalidad de datos de Train.
[6] Representaciones latentes en un espacio de alta dimensiÃ³n.
[7] Los usuarios y los Ãtems se pueden describir dadas sus features, y estas son conocidas con antelaciÃ³n y representan meta-datos de usuarios y de Ãtems. Para este caso se tienen en cuenta sÃ³lo features de los Ãtems, dado que no se tiene informaciÃ³n de los usuarios. Estas features fueron los vectores resultantes del proceso de Bag-of-words.
[8] Se usÃ³ la librerÃa Senti-py que tiene un modelo para la detecciÃ³n de sentimiento en espaÃ±ol. Para el mÃ©todo SVD se usÃ³ la librerÃa Surprise.
[9] El modelo baseline fue un modelo regresivo que contempla una media general, y las desviaciones del usuario y del restaurante.

Juan Carlos Ruiz es alumno de Afi Escuela.

Compartir-Descargar

Octubre de 2025

CUÃ‰NTAME VIII: EspaÃ±a, la octava potencia industrial

1163 visualizaciones

Abril de 2017

EvoluciÃ³n del sector de Sociedades de GarantÃa RecÃproca

1147 visualizaciones

Febrero de 2012

Esther RodrÃguez FernÃ¡ndez

El proceso de negociaciÃ³n internacional

1132 visualizaciones

Enero de 2012

Maribel GÃ³mez SÃ¡nchez

La venta de empresas con financiaciÃ³n del vendedor: Â«vendor financeÂ»

949 visualizaciones

Enero de 2026

Mariana Mazzucato

Salud para todos: mÃ¡s que una concesiÃ³n, un imperativo econÃ³mico

604 visualizaciones