Utiliza Â«Data ScienceÂ» para encontrar tu prÃ³xima canciÃ³n preferida empresaglobal.es

Utiliza Â«Data ScienceÂ» para encontrar tu prÃ³xima canciÃ³n preferida

Septiembre de 2019

Â¿CÃ³mo es que aplicaciones como Spotify, Deezer, Youtube o Apple Music saben tanto lo que nos gusta? AdemÃ¡s de recomendar contenido de personas con gustos similares a los nuestros, Â¿quÃ© otras tÃ©cnicas utilizan estas plataformas para recomendar mÃºsica?
Estas y otras preguntas las exploro en mi trabajo de Fin de MÃ¡ster en Â«Data ScienceÂ» y Â«Big DataÂ» de Afi Escuela de Finanzas.

La aplicaciÃ³n de algoritmos de machine learning en la industria musical ha tenido un crecimiento considerable durante los Ãºltimos aÃ±os, siendo integrados a distintos procesos de la industria: composiciÃ³n, mezcla, producciÃ³n, remasterizaciÃ³n, venta, recomendaciÃ³n, etc.

Las plataformas de music streaming son quizÃ¡ el mÃ¡s claro ejemplo de la transformaciÃ³n de la industria. Ya no se trata solo de comprar mÃºsica, sino de escucharla, compartirla y tener siempre disponibles nuevas opciones para escuchar.

Los sistemas de recomendaciÃ³n basados en filtros colaborativos[1] son utilizados por distintas industrias con presencia digital debido a su comprobado Ã©xito. Sin embargo, empresas como Spotify y Youtube integran en sus sistemas de recomendaciÃ³n modelos basados en contenido como los Batch Audio Models para el anÃ¡lisis de archivos de audio, utilizados en la bÃºsqueda de patrones musicales que puedan mejorar las recomendaciones.

IntegraciÃ³n de Batch Audio Models en Sistema de recomendaciÃ³n de Spotify

Fuente: Conferencia Machine Learning and Big Data for Music Discovery - 2017[2]

AnÃ¡lisis de los datos

Para explorar el uso de algoritmos de machine y deep learning en el reconocimiento de patrones musicales, hicimos uso del set de datos FMA[3] aÃ±adiendo un set de datos de mÃºsica propia, generando un set de datos final de 104,343 archivos de mÃºsica.

Para poder medir la calidad de nuestros modelos entrenados, el objetivo es la clasificaciÃ³n de los archivos de mÃºsica por gÃ©nero musical, para lo cual se utilizaron 16 gÃ©neros de mÃºsica distintos: Experimental, Electronic, Rock, Instrumental, Pop, Folk, Hip-Hop, International, Jazz, Classic, Country, Spoken, Blues, Solu-RnB, Old-Time / Historic y Easy Listening.

Nuestro set de archivos de mÃºsica se encuentra desequilibrado en cuanto a gÃ©neros musicales: mientras que la clase mayoritaria (Experimental) concentra un 21% del total de archivos, la minoritaria (Easy Listening) apenas representa el 0,4% del total.

Archivos por gÃ©nero musical
(%)

Fuente: elaboraciÃ³n propia.

Algunas otras observaciones interesantes que encontramos en el anÃ¡lisis de datos es que contamos con un total de 332,22 dÃas de mÃºsica, el 24% de los archivos contenÃan el origen de sus artistas siendo la gran mayorÃa de AmÃ©rica del Norte y la UE y el 96% de las canciones con letra son en inglÃ©s.

Para el entrenamiento de nuestro modelo utilizamos 93,222 archivos de audio y 11,121 archivos como set de pruebas.

ModelizaciÃ³n y Resultados

Nuestro proceso de modelizaciÃ³n consta de dos ejes principales, en ambos casos utilizamos las mÃ©tricas de Accuracy para interpretar con facilidad el resultado del modelo y Kappa [4] buscando maximizar una mÃ©trica funcional para clasificaciÃ³n multiclase que tome en cuenta la probabilidad por azar y el desbalanceo de clases.

Machine Learning

Para la utilizaciÃ³n de algoritmos de clasificaciÃ³n con datos estructurados realizamos un pre-procesamiento de los archivos de audio, extrayendo patrones musicales a travÃ©s de distintas tÃ©cnicas de recuperaciÃ³n de informaciÃ³n musical (Music Information Retrieval - MIR)[5] con la librerÃa de python Librosa.[6]

Como resultado de las tÃ©cnicas de recuperaciÃ³n de informaciÃ³n musical se obtienen matrices numÃ©ricas que representan la seÃ±al en el dominio del tiempo o de la frecuencia, rescatando caracterÃsticas como la velocidad, la potencia, la melodÃa, el timbre e incluso las armonÃas y acordes. Por cada matriz obtuvimos sus momentos matemÃ¡ticos[7] buscando la reducciÃ³n de dimensionalidad, obteniendo como resultado 518 variables.

Como mÃ©todos de selecciÃ³n de variables utilizamos tÃ©cnicas como PCA[8], MDA[9] y diferentes combinaciones de tÃ©cnicas MIR que dieron mejores resultados. Algunas de estas tÃ©cnicas son MFCC: Mel Frequency Cepstral Coefficients, CTR: Spectral contrast, CHR: Chroma, CEN: Spectral Centroid, RMSE: Root Mean Square Energy, TON: Tonnetz.

Accuracy - SelecciÃ³n de variables y modelos*
(%)

* Accuracy obtenido por diferentes modelos y tÃ©cnicas de reducciÃ³n de dimensionalidad.
Fuente: elaboraciÃ³n propia.

Basado en el valor obtenido de Kappa y Accuracy de cada modelo, el tiempo de entrenamiento, y la diversidad de forma de construcciÃ³n de cada algoritmo, se creÃ³ un ensemble por votaciÃ³n que incluye los algoritmos Xtreme Gradient Boosting, Logistic Regression y Linear Support Vector Machine.

El resultado final obtenido es un 46,32% de aciertos con un Kappa de 33,22%. Pudimos observar que nuestro modelo es influenciado por las tres clases mayoritarias; experimental, rock y electrÃ³nica, debido al desbalance de clases; sin embargo, el gÃ©nero con mejor predicciÃ³n es una clase minoritaria (Old-Time / Historic).

Matriz de confusiÃ³n de modelo Ensemble

Fuente: elaboraciÃ³n propia.

Deep learning

Spotify utiliza como parte de sus modelos basados en Batch Audio Models, arquitecturas basadas en Redes Neuronales Convolucionales (CNN [10]), por lo que exploramos por lo menos 3 arquitecturas distintas a las que llamaremos como:

Modelo Spotify [11]
Modelo Deep Sound [12]
Modelo CNN - LSTM [13]

Para realizar el entrenamiento y prueba de estos algoritmos, se recortaron ventanas de audio de 30 segundos, convertimos los archivos de audio en matrices que representan un espectrograma[14] con dimensiones de 646 x 128, y se definiÃ³ una estrategia EarlyStopping [15] donde al no existir mejoramiento durante por lo menos dos Ã©pocas en la funciÃ³n de pÃ©rdida, se detiene el entrenamiento.

La arquitectura con mejores resultados obtenidos es una arquitectura propuesta por nosotros que comprende el uso de Redes Convolucionales y LSTM, obteniendo una exactitud del 61,38%.

Arquitectura Red CNN - LSTM propuesta

Fuente: elaboraciÃ³n propia.

Comportamiento de la funciÃ³n de pÃ©rdida y el accuracy en fases de entrenamiento y validaciÃ³n de las arquitecturas propuestas

Spotify - Accuracy

Spotify - FunciÃ³n de PÃ©rdida

DeepSound - Accuracy

DeepSound - FunciÃ³n de PÃ©rdida

LSTM - Accuracy

LSTM - FunciÃ³n de PÃ©rdida

Fuente: elaboraciÃ³n propia.

Nuestra arquitectura CNN-LSTM fue utilizada para la implementaciÃ³n de una aplicaciÃ³n de visualizaciÃ³n dinÃ¡mica donde podemos observar la clasificaciÃ³n de archivos de audio en tiempo real[16] basada en aplicaciÃ³n DeepSound.

El proceso de modelizaciÃ³n descrito requiriÃ³ del uso de servicio en la nube como Google Cloud, y EC2 de Amazon Web Services (GPU y CPU).

ConclusiÃ³n

Las tÃ©cnicas de recuperaciÃ³n de informaciÃ³n musical (MIR) demostraron eficacia en el reconocimiento de patrones musicales y aporte a la clasificaciÃ³n de archivos por gÃ©nero musical, sin embargo, con las arquitectura basadas en redes neuronales donde nuestro pre-procesamiento de datos consistiÃ³ en convertir el audio a un formato de espectrograma, obtenemos mejores resultados sin el esfuerzo de entender y conocer tÃ©cnicas especializadas de seÃ±ales y audio.

Las arquitecturas basadas en redes neuronales nos permiten el aprovechamiento de modelos previamente entrenados, lo cual serÃ¡ Ãºtil para su escalabilidad, re-entrenamiento continuo e integraciÃ³n con modelos basados en filtros colaborativos.

Para conocer mÃ¡s detalles de las tÃ©cnicas MIR, tÃ©cnicas de selecciÃ³n de variables, pruebas de balanceo, y resultados detallados, puede acceder a la memoria del TFM[17].

[1] Filtros colaborativos.
[2] Conferencia Spotify.
[3] Free Music Archive (FMA).
[4] Kappa.
[5] Music Information Retrieval (MIR).
[6] Librosa.
[7] Momentos matemÃ¡ticos.
[8] Principal Component Analysis (PCA).
[9] Mean Decrease in Accuracy (MDA).
[10] Convolutional Neural Network (CNN).
[11] Modelo Spotify.
[12] Modelo Deep Sound.
[13] Long Short-term Memory (LSTM).
[14] Mel Spectrogram.
[15] EarlyStopping.
[16] AplicaciÃ³n de clasificaciÃ³n de gÃ©nero musical en tiempo real.
[17] Memoria TFM: Modelo de clasificaciÃ³n de gÃ©neros musicales basado en recuperaciÃ³n de informaciÃ³n musical (MIR) y anÃ¡lisis de espectrogramas por Ludwig Rubio, Junio 2019.

Ludwig Gerardo Rubio Jaime es Machine Learning Engineer en Omedena.

Compartir-Descargar

Mayo de 2025

Roberto Oliver MartÃnez

Sostenibilidad en el sector bancario: Â¿enfriamiento o mayor pragmatismo?

1579 visualizaciones

Mayo de 2025

Claudia AntuÃ±a Rubio | Ricardo Pedraz

1516 visualizaciones

Mayo de 2025

Ãngel MartÃnez Jorge

Fiscalidad verde y sostenibilidad de las finanzas pÃºblicas

1086 visualizaciones

Mayo de 2025

David Cano

Otro abril histÃ³rico

1035 visualizaciones

Junio de 2025

Alfonso GonzÃ¡lez | Jose MarÃa Contreras

Blockchain, Â¿el nuevo Internet?

1026 visualizaciones