Opinion Miner est un prototype de solution d’analyse textuelle que j’ai conçue et développée pour le cabinet Inférences. Depuis le début des années 2000, Inférences a adopté une approche originale d’analyse du discours des entreprises, de leurs clients et de leurs employés : un travail rigoureux et fondé sur une approche quantitative pour produire des synthèses précises et pertinentes.
Avec l’émergence du web social et des nouvelles solutions de CRM, les volumes de texte de plus en plus importants à traiter rendaient nécessaire une automatisation de ce travail. C’était l’occasion pour Inférences de se positionner différemment sur le marché de la veille et de l’analyse des contenus en développant une solution logicielle propre qui exploite ses ressources linguistiques internes. Plutôt qu’un énième dashboard, Opinion Miner promet des analyses justes, lisibles et fondées sur les contenus.
Les principes ayant présidé à la conception d’Opinion Miner reflètent ce positionnement :
> un travail en différé plutôt qu’en temps réel, qui permet des traitements TAL en profondeur et privilégie l’analyse humaine plutôt que le tout automatique
> valoriser les compétences propres des humains et des machines : la finesse d’analyse des humains, la puissance des ordinateurs
> des composants sur mesure quand c’est nécessaire, des technologies éprouvées dans les autres cas.
Opinion Miner se compose de trois modules :
– un module de recherche de patrons morphosyntaxiques souple et puissant, capable d’identifier lemmes, formes fléchies, étiquettes (tags), et de les combiner entre eux ou avec des négations et des modalisateurs.
– une interface web de validation légère, très réactive, qui permet à un analyste humain de tagguer rapidement des verbatims, de créer facilement de nouveaux patrons morphosyntaxiques, et d’exporter ses résultats vers d’autres outils pour construire rapports et visualisation de données ;
– un pipeline de machine learning qui utilise les résultats du travail des analystes pour entraîner des classifieurs permettant de traiter de gros volumes de verbatims similaires.