Utilizando Â«Data ScienceÂ» para encontrar nuestro restaurante ideal empresaglobal.es

Utilizando Â«Data ScienceÂ» para encontrar nuestro restaurante ideal

Febrero de 2019

MatÃas NicolÃ¡s Caputti

Cada vez que tenemos intenciÃ³n de ir a un nuevo restaurante nos surge la duda de si serÃ¡ el indicado y cubrirÃ¡ nuestras expectativas como comensales. Como parte de mi trabajo de Fin de MÃ¡ster del MÃ¡ster en Â«Data ScienceÂ» y Â«Big DataÂ» de Afi Escuela de Finanzas, buscarÃ© dar respuesta a dicha problemÃ¡tica mediante el uso de distintas tÃ©cnicas de Â«Data ScienceÂ».

La empresa estadounidense Yelp, fundada por Jeremy Stoppelman y Russel Simmons, es una plataforma que actÃºa como red social y permite a los usuarios subir y compartir fotos y opiniones de los restaurantes y establecimientos que visitan. Actualmente Yelp aloja millones de fotos de restaurantes cargadas por sus usuarios de todo el mundo.

Con el fin de poder procesar dichas fotos de manera automÃ¡tica, Yelp presentÃ³ en la plataforma Kaggle un desafÃo titulado Â«ClasificaciÃ³n de fotos de restaurantes de YelpÂ»[1]. Dicho desafÃo consiste en construir un modelo que asocie automÃ¡ticamente restaurantes con mÃºltiples etiquetas, usando un conjunto de datos de fotos subidas por los usuarios a su plataforma.

AnÃ¡lisis de los datos

Para el desarrollo del trabajo se utilizÃ³ el set de datos de dicha competencia, dividido en particiones de train y test. La particiÃ³n de train, con 230.000 imÃ¡genes pertenecientes a 2.000 restaurantes, fue utilizada para entrenar los distintos modelos que irÃ© utilizando. La particiÃ³n de test, con 240.000 imÃ¡genes pertenecientes a 10.000 restaurantes, fue utilizada para evaluar el desempeÃ±o de los modelos utilizados.

Las imÃ¡genes del set de datos tienen resoluciÃ³n media de 375*500 pÃxeles. Para unificar tamaÃ±os, fueron ajustadas a 96*96 pÃxeles. AdemÃ¡s, para lograr una correcta representaciÃ³n digital de las caracterÃsticas de cada imagen, se ajustaron sus niveles de iluminaciÃ³n, contraste y desenfoque.

El objetivo del trabajo, al igual que el del desafÃo, fue etiquetar a cada restaurante con una o mÃ¡s de las siguientes etiquetas:

Good for lunch: Bueno para almorzar
Good for dinner: Bueno para cenar
Takes reservations: Toma reservas
Outdoor seating: Mesas exteriores
Restaurant is expensive: Restaurante caro
Has alcohol: Tiene alcohol
Has table service: Tiene servicio de mesa
Ambiance is classy: Ambiente elegante
Good for kids: Bueno para niÃ±os

En la siguiente figura se pueden observar algunas de las imÃ¡genes del set de datos con sus respectivas etiquetas.

ImÃ¡genes del set de datos con sus etiquetas correspondientes

Fuente: elaboraciÃ³n propia.

Dentro de las 9 posibles etiquetas para cada restaurante, y tal como se puede observar en la siguiente figura, se detecta que no todas estÃ¡n asignadas uniformemente en la misma cantidad de imÃ¡genes. Las etiquetas que mÃ¡s se repiten, con ocurrencia en mÃ¡s del 75% de las imÃ¡genes, son Â«Has table serviceÂ» y Â«Has alcoholÂ». La que menos se repite, con ocurrencia del 24% es Â«Good for lunchÂ». Sin embargo, mantendrÃ© las clases desequilibradas ya que las clases mayoritarias son las que mÃ¡s importan a las personas a la hora de ir a un restaurante.

ImÃ¡genes por etiqueta
(%)

Fuente: elaboraciÃ³n propia.

ModelizaciÃ³n

Una vez entendido el problema y los datos que tenemos para resolverlo, lo primero que hice fue comparar distintas tÃ©cnicas y modelos que me permitieran asignar etiquetas a cada imagen.

Todos los modelos que probÃ© fueron evaluados mediante la mÃ©trica F1 o F1 score [2], la misma que fue utilizada en el desafÃo publicado en Kaggle para seleccionar al equipo ganador.

La mÃ©trica F1 brinda un equilibrio en el rendimiento tanto para la Â«precisionÂ» (p) como para el Â«recallÂ» (r), e intenta optimizarlos conjuntamente.

Como a priori es difÃcil saber quÃ© algoritmo serÃ¡ el que mejor se acople al problema, utilicÃ© una tÃ©cnica llamada spot checking [3] mediante la cual evaluÃ© distintos algoritmos sin ajustar sus parÃ¡metros, para dar rÃ¡pidamente con el mejor de ellos.

Los algoritmos que probÃ© mediante esta tÃ©cnica fueron: Decision Trees, Gradient Boosting, k-Neighbors, Logistic Regression, Multinomial Naive Bayes, Random Forest y Support Vector Machines (SVM). En la siguiente figura se observa para cada algoritmo un boxplot con los 5 valores de F1 que fueron obtenidos luego de aplicar validaciÃ³n cruzada.

Score F1 por algoritmo

Fuente: elaboraciÃ³n propia.

Los mejores resultados son obtenidos por los algoritmos SVM con F1 entre 0.57 y 0.59 y, apenas por debajo, Gradient Boosting con F1 entre 0.57 y 0.585. Sin embargo, ningÃºn algoritmo logrÃ³ superar la barrera de valores F1 superiores a 0.60, por lo que abordarÃ© el problema desde la perspectiva del aprendizaje profundo o deep learning en busca de mejores resultados.

Un modelo de deep learning es diseÃ±ado para analizar continuamente los datos con una estructura lÃ³gica estratificada de algoritmos similar a la que utiliza un ser humano para sacar conclusiones, llamada red neuronal. El diseÃ±o de una red neuronal artificial estÃ¡ inspirado en la red neuronal biolÃ³gica del cerebro humano, lo que hace que en problemas de alta complejidad la inteligencia de la mÃ¡quina sea mucho mÃ¡s capaz que la de los modelos de aprendizaje automÃ¡tico estÃ¡ndar.

Para mi problema de clasificaciÃ³n de restaurantes, principalmente por ser imÃ¡genes mi objeto de estudio, utilicÃ© redes neuronales con capas convolucionales que permiten extraer mayor cantidad de caracterÃsticas (features) de cada imagen, para luego clasificar dichas caracterÃsticas en las capas densas superiores de cada red.

Las arquitecturas de red que utilicÃ© fueron las siguientes:

Red convolucional base: basada en LeNet-5, introducida por Yann LeCun [4], que presenta dos grupos de capas convolucionales, seguidas de capas de pooling, una capa densa y, finalmente, un clasificador.
Redes pre-entrenadas y transferencia de aprendizaje: arquitecturas de red mÃ¡s complejas con el fin de mejorar el rendimiento y precisiÃ³n de la red. Hice pruebas sobre arquitecturas VGGNet[5] e InceptionV3[6]. UtilicÃ© dichas redes pre-entrenadas sobre los sets de datos ImageNet[7] y Places365[8]. Por Ãºltimo, realicÃ© un entrenamiento selectivo de sÃ³lo algunos bloques de sus capas superiores, para agilizar los tiempos de entrenamiento.
Redes Ensemble: hice pruebas de agrupaciÃ³n sobre las arquitecturas anteriores en busca de una red mÃ¡s robusta. UtilicÃ© dos formas para ensamblar las redes:
- Maximum: evaluando predicciones de cada modelo y tomando las predicciones mÃ¡ximas en cada caso.

Cada arquitectura fue entrenada y evaluada de forma remota en una instancia de Amazon Web Services Elastic Compute Cloud (AWS EC2) [9], haciendo uso de una GPU Tesla K80.

En la siguiente figura se pueden ver los rendimientos de cada arquitectura de red evaluada, al igual que con los algoritmos anteriores antes, con el score F1.

Score F1 para cada arquitectura de red

Fuente: elaboraciÃ³n propia.

El modelo Ensemble (average) fue el modelo que mejor respuesta consiguiÃ³ frente al problema de etiquetado mÃºltiple, ya que es el que mejor valor F1 obtuvo y el que posiblemente mejor se comporte cuando se lo ponga a prueba en producciÃ³n para etiquetar nuevas imÃ¡genes. Todas las arquitecturas de red superaron ampliamente a los algoritmos probados anteriormente en el spot checking.

En la siguiente figura se observan las curvas de evoluciÃ³n de la pÃ©rdida (loss) y valor de F1 a lo largo del entrenamiento del modelo Ensemble (average) . El mismo finalizÃ³ su entrenamiento en la Ã©poca 30, y obtuvo su mayor rendimiento en la Ã©poca 23.

Curvas de evoluciÃ³n de loss y accuracy del modelo Ensemble (average)

Fuente: elaboraciÃ³n propia.

Resultados

Los resultados obtenidos sirvieron para cumplir con el principal objetivo del trabajo. Es decir, se logrÃ³ crear un modelo que asigne mÃºltiples etiquetas a imÃ¡genes de restaurantes, lo que conllevÃ³ experimentar gran variedad de algoritmos y redes neuronales, y permitiÃ³ arribar a una soluciÃ³n con resultados mÃ¡s que adecuados para el problema, logrando sÃ³lo un 3% menos de rendimiento que la soluciÃ³n ganadora, lo que significa que este trabajo se hubiera posicionado en un hipotÃ©tico 35o lugar de la competencia de Kaggle en la cual se presentaron mÃ¡s 350 equipos.

Se presentÃ³ como modelo final el Ensemble (average) de redes neuronales. Dicho ensemble logrÃ³ el mejor valor de F1: 0.822 con las imÃ¡genes de train y 0.803 con las imÃ¡genes de test, superando ampliamente a los algoritmos del spot checking y a las demÃ¡s arquitecturas de red. Sin embargo, no hay modelos perfectos y, al ser puesto en producciÃ³n, es probable que en ciertos casos falle.

El desarrollo completo del trabajo y los distintos bloques de cÃ³digo utilizados en el mismo pueden ser accedidos en la memoria del TFM [10], donde tambiÃ©n hay otras pruebas realizadas sobre el set de datos, tales como reducciÃ³n de dimensionalidad y pruebas de etiquetado mediante clustering y aprendizaje no supervisado.

Nota: este artÃculo es un extracto del trabajo de fin de curso del Master en Data Science y Big Data 2017-2018, Afi Escuela de Finanzas.

[1] Â«Yelp Restaurant Photo ClassificationÂ», publicado en Kaggle. Consultar aquÃ.
[2] Â«MÃ©trica de evaluaciÃ³n F1 scoreÂ». Consultar aquÃ.
[3] Â«How to Develop a Reusable Framework to Spot-Check AlgorithmsÂ». Consultar aquÃ.
[4] Â«LeNet-5, convolutional networksÂ». Consultar aquÃ.
[5] Â«Very Deep Convolutional Networks for Large-scale Image RecognitionÂ» por Karen Simonyan y Andrew Zisserman. Consultar aquÃ.
[6] Â«Rethinking the Inception Architecture for Computer VisionÂ» por Christian Szegedy, Vincent Vanhoucke y Sergey Ioffe. Consultar aquÃ.
[7] Â«ImageNet datasetÂ». Consultar aquÃ.
[8] Â«Places datasetÂ». Consultar aquÃ.
[9] Â«Amazon Elastic Compute Cloud (Amazon EC2)Â». Consultar aquÃ.
[10] Memoria TFM Â«AnÃ¡lisis clasificatorio de imÃ¡genes de restaurantesÂ» por MatÃas Caputti, Junio 2018. Consultar aquÃ.

MatÃas NicolÃ¡s Caputti es Graduado del MÃ¡ster en Data Science y Big Data de Afi Escuela de Finanzas.

Compartir-Descargar

Febrero de 2024

Pedro Tomey

Cuantificar para prevenir: BarÃ³metro anual de las catÃ¡strofes en EspaÃ±a

2349 visualizaciones

Junio de 2022

Los cambios demogrÃ¡ficos y la empresa

1519 visualizaciones

Marzo de 2024

Rebeca Gimeno

El viaje de las mujeres al mundo laboral: cÃ³mo llegaron a quererlo todo

1338 visualizaciones

Febrero de 2024

Ana RodrÃguez Olalla

1118 visualizaciones

Febrero de 2024

Raquel GarcÃa GÃ³mez

Empresas ante el cambio climÃ¡tico: la importancia de una formaciÃ³n comprometida

1067 visualizaciones