Un moteur de recherche d’entreprise, qu’est-ce que c’est ?

Quand on parle de moteur de recherche, tout le monde pense aux moteurs de recherche web avec en tête le plus connu d’entre eux Google.

Mais il existe un autre type de moteurs de recherche : les moteurs de recherche d’entreprise qui permettent d’effectuer des recherches parmi les informations et les documents d’une entreprise (bien sûr ces outils sont utilisé dans le périmètre privé de l’entreprise, les données ne sont pas accessibles à tous sur internet).

Il ne faut pas les confondre avec les moteurs de recherche web d’entreprises qui eux permettent de faire des recherches parmi une base de données qui regroupe des informations sur des entreprises.

Mais pourquoi utiliser un moteur de recherche d’entreprise ?

Les salariés sont censés savoir où sont rangées les informations sur lesquelles ils travaillent, non ? Effectivement, mais ce n’est pas toujours si simple. Les salariés savent bien sûr où sont rangés les documents qu’ils ont produits, les informations avec lesquelles ils travaillent tous les jours. Mais pour le reste c’est un peu plus compliqué. Votre collègue a créé un document pour la réunion de vendredi prochain que vous voulez lire. Vous savez qu’il est stocké sur le serveur de fichiers partagé de l’entreprise mais vous ne savez pas où précisément et votre collègue n’utilise pas le même système de classement que vous. Suivant le nombre de fichiers et de dossiers et sous-dossiers sur ce serveur, vous pouvez perdre pas mal de temps à retrouver ce document.

On produit de plus en plus d’informations et la majorité d’entre elles sont maintenant sous forme numérique, qu’il faut bien stocker quelque part. Et souvent, les lieux de stockage sont multiples : un ou plusieurs serveurs de fichiers partagés, une ou plusieurs applications métier, un intranet… Ces outils peuvent bien sûr disposer de leur propre moteur de recherche, mais s’il faut à chaque fois lancer sa requête dans chaque application pour trouver l’information que l’on cherche, l’efficacité n’est pas vraiment au rendez-vous. Le moteur de recherche permet de remédier à cela en devenant une interface unique d’accès aux contenus. Il est un moyen efficace pour délivrer rapidement aux utilisateurs les informations qu’ils recherchent.

Comment fonctionne un moteur de recherche d’entreprise ?

Sur le même principe qu’un moteur de recherche web mais ce n’est pas tout à fait pareil.

Quand on effectue une recherche dans un ensemble de documents (et le web peut aussi être considéré comme un ensemble de documents), il y a deux manières de procéder :

♦On tape un ou plusieurs mots-clés et l’outil de recherche parcours l’ensemble des documents pour trouver ceux dans lesquels le ou les mots-clés apparaissent. Cette méthode est très longue. C’est ce qui se produit quand on fait une recherche dans un document PDF ouvert dans Adobe Reader par exemple.

♦On tape un ou plusieurs mots-clés et l’outil de recherche s’appuie sur la constitution d’un index, c’est-à-dire une liste d’occurrences dans laquelle chaque mot est associé aux documents dans lesquels il est présent. Cette méthode est beaucoup plus rapide car le moteur de recherche n’a pas à parcourir à chaque fois l’ensemble des documents pour savoir si ce mot-clé existe, il a juste à voir s’il l’a déjà relevé et si oui dans quels documents. C’est ce principe qui est appliqué sur le web par des moteurs comme Google ou Bing.

Sur le web, les moteurs de recherche font de la recherche plein texte ou texte intégral (Full Text pour la version anglaise). Ce principe est aussi appliqué en entreprise mais avec certaines limites. En effet, la recherche plein texte n’est pas applicable pour tous les types de documents. Sur le web, les documents sont en HTML, à quelques exceptions près. Le moteur de recherche peut sans problème parcourir les documents HTML pour les indexer. C’est aussi le cas pour les documents bureautiques comme les fichiers de traitement de texte, de tableurs, les fichiers PDF. La recherche plein texte rencontre des limites avec les fichiers multimédias (image, son, vidéo…) et certains formats de fichiers propriétaires comme les fichiers de la suite Adobe Creative (fichiers photoshop .psd, fichiers Indesign .indd, fichiers Illustrator .ai et d’autres). Pour ces fichiers, puisque le moteur de recherche ne peut pas en parcourir le contenu, il se base sur ses métadonnées et en particulier le titre, l’auteur, la date, les mots-clés si elles existent.

Quels acteurs trouve-t-on sur le marché des moteurs de recherche d’entreprise ?

La présentation suivante n’est pas exhaustive.

Comme pour toute technologie informatique, on retrouve là des technologies open source et des technologies propriétaires.

Lucene est une technologie de moteur de recherche open source développée par la fondation Apache. On peut y associer Solr qui est aussi une technologie développée par la fondation Apache. On trouve plusieurs outils de recherches basés sur ces deux technologies.

Constellio est un système de recherche pour entreprise complet. Il est basé sur les technologies Lucene, Solr et Google Connectors. Avec Constellio, les entreprises peuvent disposer d’un moteur de recherche avec de nombreuses fonctionnalités (gestion de la sécurité, gestion multilingue, correction orthographique…) et totalement open source. Constellio est développé par l’entreprise canadienne Doculibre. Pour les entreprises françaises qui seraient intéressées pour utiliser Constellio, pas besoin de traverser l’Atlantique, FranceLabs partenaire de Doculibre assure le déploiement et la maintenance du produit en France.

La société Polyspot propose une solution de recherche basée sur Lucene et Solr. Son outil Polyspot Enterprise Search permet de fédérer la recherche dans différentes sources de données et d’afficher les résultats selon différentes vues.

Google propose aussi une solution de recherche pour les entreprises. Il propose aux entreprises des solutions clé en main, adaptées au volume d’informations à traiter, simple à utiliser (comme tous les produits Google) et pouvant faire des recherches dans de nombreuses sources d’informations.

Exalead (technologie 100% propriétaire) propose une solution de moteur de recherche qui permet de faire plus que simplement rechercher des documents. Son outil catégorise également l’information pour lui donner du sens et permet ainsi de faire des recherches plus poussées avec mise en relation d’informations et reporting.

Edit du 12/10/2012 : L’ADBS organise des manifestation sur le thème des moteurs de recherche. Pour en savoir plus.

2 réflexions sur “Un moteur de recherche d’entreprise, qu’est-ce que c’est ?

  1. Bonjour,

    J’ai lu que vous repreniez la rédaction de votre blog (mai 2015)! Je me permets donc de vous apporter une information si vous voulez mettre à jour votre article sur la recherche dans les répertoires partagés.

    Car en effet, depuis 3 ans un acteur français s’est ajouté et meriterait d’être ajouté à votre liste de solutions de recherche en entreprise. Cet acteur est IntraCherche (http://www.intracherche.com). Comme les solutions que vous présentez, IntraCherche propose la recherche dans les documents bureautiques. Mais en outre, cette solution s’occupe aussi des PDF scannés et peut même les enrichir du texte original (les anglais parlent de searchable PDF).

    À l’heure de la dématérialisation des documents il me semble utile de mentionner cette information;-)

    En tout cas bonne reprise du blog et merci pour vos articles

    Disclaimer : intracherche soutient certains de nos projets collaboratifs de vulgarisation informatique.

    • Merci pour cette information.

      Effectivement, ces articles sur les moteurs de recherche d’entreprise datent de plus de trois an et le panorama des acteurs du domaine s’est transformé.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s