En poursuivant votre navigation, vous acceptez l’utilisation de cookies à des fins statistiques et de personnalisation. En savoir plus

Fouille du web

Le marché de l’emploi est entré de plain-pied dans l’ère numérique. Une majorité de l’information liée au recrutement est accessible sur internet, que ce soit par les sites des entreprises, les réseaux sociaux ou encore les sites de l’Open Data. C’est pourquoi l’objectif de Multiposting est d’exploiter et de croiser ces ressources, afin d’obtenir un aperçu exhaustif du marché du recrutement.

Big Data

Pour manipuler une telle masse de données, Multiposting utilise une architecture Big Data. Chaque page web récupérée nécessite d’être segmentée, nettoyée et normalisée, avant d’être stockée dans une base de données complètement structurée. L’équipe technique compte de nombreux experts en Hadoop, Spark et HBase, ce qui permet d’effectuer tous ces traitements en parallèle, sur des bases de données distribuées, c’est à dire réparties sur plusieurs ordinateurs. Les statistiques et modèles mathématiques produits par Multiposting demandent de lourd calculs qui sont ainsi exécutés d’une façon la plus robuste et rapide qui soit.

1Raw data
2Parallel data processing
3Distributed database
4Client Application

1 Raw data

2 Parallel data processing

3 Distributed database

4 Client Application

Machine Learning

Les millions de profils et offres collectées par Multiposting nous permettent de calculer des statistiques, mais aussi de construire des modèles prédictifs. Ces approches correspondent à du Machine Learning, aussi appelé apprentissage statistique, et reproduisent automatiquement des raisonnements humains à partir d’un jeu de données. Les modèles que nous développons à Multiposting sont inédits et spécialement dédiés à la structure de nos données, ce qui donne lieu régulièrement à des publications d’articles scientifiques. Nos efforts se concentrent notamment à apprendre les modèles en se basant sur des jeux de données “naturels”, c’est-à-dire qui existent tels quels et ne nécessitent pas de supervision manuelle supplémentaire : nous cherchons ainsi à reproduire les mécanismes d’embauche présents implicitement dans les CV et offres d’emploi.

1Human reasoning
2Annotated data-set
3Learning

1 Human reasoning

2 Annotated data-set

3 Learning

Une utilisation première du machine learning à Multiposting est la normalisation de textes. Afin de calculer des statistiques exhaustives et pertinentes, il nous faut exprimer les données agrégées d’Internet dans un langage structuré, lisible par une machine. Par exemple, il nous faut répondre à des questions telles que : quel est le niveau d’études de ce candidat ? Quel est le coeur de métier de cette offre d’emploi ? Cette normalisation est au coeur de l’application SmartSearch, car afin de prédire les tendances du marché de l’emploi, il faut en premier lieu en exprimer la structure.

Analyse sémantique

Les textes contenus dans les offres et profils sont pour la plupart écrits en langage naturel. L’analyse sémantique vise à comprendre le sens de ces phrases afin d’en extraire l’information. Ainsi, les modèles développés chez Multiposting permettent d’extraire d’une offre d’emploi les thèmes qu’elle traite, les tâches à effectuer ou encore les compétences associées. Ces informations nous servent d’une part à normaliser nos données, et d’autre part à exprimer l’essentiel d’un profil ou d’une offre en quelques mots.

Deep Learning

Dans le soucis de bénéficier des avancées les plus récentes et prometteuses du Machine Learning, nous avons développé des algorithmes de Deep Learning. Ce type d’algorithme se représente comme un réseau de neurones comportant de nombreuses couches, afin de capturer des concepts cachés dans les documents, aussi appelés “high-level features”. Ces algorithmes, principalement développés et utilisés par Google et Facebook, sont actuellement les plus performants dans de nombreux domaines, tels que la reconnaissance d’image ou la prédiction de la réponse à un mail. Les développement de Multiposting ont notamment donné des résultats pour le problème d’appariement offre / CV, en d’autres termes le recrutement automatisé.

1Problem
2Extracted features
3Neuron layer
4Neuron layer
5Prediction
CV
Job

1 Problem

2 Extracted features

3 Neuron layer

4 Neuron layer

5 Prediction

Publications

Nos différents travaux ont donné lieu à diverses publications d’articles scientifiques, présentés dans des conférences internationales de premier rang orientées data science.

Conférences internationales

Bringing order to the job market: Efficient job categorization in e-recruitment

E. Malherbe, M. Cataldi, and A. Ballatore, SIGIR ’15: Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2015.

A case-based approach for easing schema semantic mapping

E. Malherbe, T. Iwaszko, and M.-A. Aufaure, in Case-Based Reasoning Research and Development. Springer, 2015.

From a ranking system to a confidence aware semi-automatic classifier

E. Malherbe, Y. Vanrompay, and M.-A. Aufaure, Procedia Computer Science, vol. 60, 2015.

Field selection for job categorization and recommendation to social network users

E. Malherbe, M. Diaby, M. Cataldi, E. Viennet, and M.-A. Aufaure, in Advances in Social Networks Analysis and Mining (ASONAM), 2014 IEEE/ACM International Conference on. 2014.

A semi-supervised hybrid system to enhance the recommendation of channels in terms of campaign ROI

J. Séguéla et G. Saporta, in CIKM'2011 : 20th ACM Conference on Information and Knowledge Management, 2011.

A comparison between latent semantic analysis and correspondence analysis

J. Séguéla et G. Saporta, in CARME'2011 : International conference on Correspondence Analysis and Related Methods, 2011.

A semi-supervised recommender system to predict online job performance

J. Séguéla et G.Saporta, in SDA'2011 : Theory and Application of High-dimensional Complex and Symbolic Data Analysis in Economics and Management Science, 2011.

Automatic categorization of job postings

J. Séguéla et G.Saporta, in COMPSTAT'2010, 19th International Conference on Computational Statistics, 2010.

Conférences nationales

Automatic categorisation of job adverts into job categories

J. Séguéla, In EGC'2011 : 11e Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances, 2011.

e-Recruitment : searching for relevant key words in job advert titles

J. Séguéla, G. Saporta et S. Le Viet, In JADT'2010 : 10th International Session on Statistical Analysis of Textual Data, June 2010.

Counting models used to determine candidate job application decisions online

J. Séguéla et G. Saporta, in JDS'2010 : 42nd Statistical Session, 2010.