Découvrez notre catalogue de formation 2026
Se connecter
Ou creér votre compte
Vous venez d'ajouter à votre sélection
Votre panier est vide, Voir nos formations

Description

Ce cours vous exposera les méthodes utilisées pour organiser et optimiser l'exploitation de ressources textuelles non structurées. Vous apprendrez à les catégoriser, à les marquer automatiquement ou à les rendre visibles des moteurs de recherche en utilisant des outils comme Apache Solr ou Mahout.

À qui s'adresse cette formation ?

Pour qui ?

Chefs de projet, administrateurs GED, développeurs, archivistes, documentalistes.

Prérequis

Les objectifs de la formation

  • Comprendre les enjeux de l'exploitation des ressources textuelles non structurées
  • Identifier les composants et les étapes du cycle de traitement des contenus
  • Classifier, catégoriser, marquer automatiquement les contenus

Programme de la formation

    • Pourquoi le traitement des ressources textuelles est un enjeu stratégique ? Les particularités du traitement des contenus non structurés.
    • Exploiter les ressources textuelles : créer de la valeur à partir du chaos.
    • Présentation de la plateforme logicielle utilisée pendant la formation.
    • Travaux pratiques Faire une recherche dans un courriel donné en exemple et en extraire un paragraphe particulier.
    • Lister tous les mots du paragraphe et afficher les noms des personnes citées.
    • Les catégories grammaticales de base.
    • Le système morphologique : racine, préfixe, suffixe.
    • L'identification des unités lexicales (tokenization).
    • La détection des limites de phrase.
    • Travaux pratiques Extraire les phrases d'un article de journal, en lister les mots.
    • Présenter chaque nom sous forme singulier/pluriel.
    • Regrouper les résultats de recherche avec Carrot2.
    • Regrouper des collections de documents avec Apache Mahout.
    • Catégoriser des documents avec Apache Lucene.
    • Rechercher des contenus sémantiques à l'aide de Falcons.
    • Travaux pratiques Utiliser la classification automatique d'un corpus de documents pour proposer le plan de classement d'une application de GED.
    • Accéder aux contenus des différents formats de fichier.
    • Extraire du contenu de différents formats de fichier à l'aide d'Apache Tika.
    • Analyser les contextes pour résoudre des ambiguïtés.
    • Utiliser les graphes pour modéliser l'information syntaxique et sémantique des contenus non structurés.
    • Travaux pratiques A partir d'un contenu fourni, identifier les unités ambiguës.
    • Lister les contextes d'apparition des différentes unités ambiguës.
    • Proposer une stratégie de résolution.
    • Les différentes techniques de recherche.
    • Les concepts associés à la recherche : indexation, interface, classement des résultats, présentation des résultats.
    • Exemple de recherche par facettes : Amazon.
    • com.
    • Exemple d'utilisation du serveur de recherche Apache Solr.
    • Travaux pratiques Extraire et indexer le contenu d'un article de journal à l'aide d'Apache Solr.
    • Etablir un jeu de test pour évaluer la performance du système d'indexation.
    • Qu'est-ce que Prism ? Principaux concepts.
    • Les problématiques que résout le framework et celles qu'il ne résout pas.
    • L'architecture Prism.
    • Les différents modules Prism.
    • Les objectifs de chaque module.
    • Les Quick Starts et les fonctionnalités de Prism.
    • L'accès à la documentation Prism.
    • Démonstration Démonstrations des différents Quick Starts illustrant les fonctionnalités de Prism.
  • 1213
  • 14 h

Soumettez votre avis