Thèse de Boyang Gao

Sujet :

Descriptions sémantiques structurés de musique Titres

Date de début : 01/10/2009
Date de soutenance : 15/12/2014

Encadrant : Liming Chen
Co-encadrant : Emmanuel Dellandréa

Résumé :

Aujourd'hui l'analyse automatique de la musique fait face à deux défis majeurs 1) de classer automatiquement la musique en classes sémantiques pour les classes exemple d'émotion et de genre ; 2) pour terminer le calcul en un temps abordable pour les grands ensembles de données. Pour répondre aux deux problèmes, nous extrayons les trois premiers niveaux d'information de musique : faible, moyen et élevé. Nous construisons ensuite différents modèles sur les trois niveaux de fonctionnalités pour effectuer la classification. Enfin, nous fusionnons les trois sorties de niveau pour fournir classement final. Informations de bas niveau désigne les caractéristiques de niveau de signal directement extraites de la vague de la musique tels que MFCC. A ce niveau, les caractéristiques sont d'abord transformées avec le modèle de sac de mots - puis classés par SVM. Pour accélérer le calcul de sac de - mots pour les grandes données, nous proposons de transformer k-means, GMM et MAP dans la matrice sous forme de multiplication qui peuvent être effectivement accéléré par différents cadres de calcul parallèles tels que GPU, processeur multi - noyau, Hadoop, Spark clusters. Au niveau intermédiaire, nous explorons de tirer parti des connaissances de la musique tels que le son des instruments de musique et des statistiques de note de musique. Nous vous proposons de décomposer la musique sur un dictionnaire MIDI en utilisant des méthodes de représentation clairsemés modifiés. Statistiques de note est en outre intégrées pour améliorer la précision de décomposition. Au haut niveau, nous avons l'intention d'utiliser des paroles pour extraire l'information émotionnelle directe fondée sur les résultats de traitement du langage naturel. Dans l'étape de fusion finale, le rendement des procédés de fusion pondérée seront appliqués.