Infodoc en ligne

cahier-crayon

Dossier moteurs de recherche d’entreprise 1/6

5 Commentaires

Cette année, j’ai eu l’occasion de me pencher sur les moteurs de recherche d’entreprise. Ce sont des outils dont on ne m’a quasiment pas parlés lors de ma formation mais qui commencent à se répandre dans les entreprises.

Après avoir participé à la mise en place d’un moteur de recherche dans l’entreprise où je suis en alternance, j’ai eu l’occasion de faire de travailler sur le sujet lors de mes cours. Le résultat de mon travail est un dossier pour faire découvrir les moteurs de recherche d’entreprise à ceux qui se pose des questions sur le sujet. A quoi cela sert-il ? Comment est-ce que ça fonctionne ? Pourquoi en utiliser un ? Quelles questions faut-il se poser avant de choisir un outil ? Voici quelques unes des questions auxquelles je veux proposer des réponses.

Je publie ici la première partie du dossier. Les cinq autres suivront au rythme d’une par semaine.

Si vous avez des questions, des remarques, des compléments d’information ou toute autre chose à dire sur le sujet n’hésiter pas à commenter. Tout partage de connaissance est enrichissant.

Bonne lecture.

Introduction

Voici un dossier consacré à la recherche d’information en entreprise, une notion aussi appelée enterprise search ou business search, avec ses outils dédiés : les moteurs de recherche d’entreprise.

Pourquoi un tel sujet ? Car ce sont des outils de plus en plus adoptés par les entreprises et qui présentent de réels intérêts pour la gestion de l’information.

J’ai d’ailleurs rencontré plusieurs cas d’entreprises qui souhaitaient mettre en place un moteur de recherche interne.

En octobre 2012, l’ADBS a organisé une formation intitulée « Mettre en place un moteur de recherche d’entreprise », qui est reconduite pour l’année 2013. L’ADBS, toujours, a aussi organisé à Lyon une journée d’étude, en partenariat avec Collaboratif Info, sur le thème : « Le moteur de recherche interne, élément clé de l’accès à l’information dans l’entreprise ». Cet intitulé reflète bien la principale fonction des moteurs de recherche d’entreprise.

Ce sont des outils qui ont toute leur place dans la stratégie de gestion et d’accès à l’information d’une entreprise ou d’une organisation. Dans un univers informationnel en croissance exponentielle, il est nécessaire de mettre en place des outils pour s’y retrouver. Les moteurs de recherche d’entreprise permettent de répondre à ce besoin et de faire plus encore.

Ce dossier est construit autour de trois axes, répondant aux questions : quoi, pourquoi et comment.

  • Qu’est-ce qu’un moteur de recherche d’entreprise ? Comment le définir ? Comment fonctionne-t-il ?
  • Qu’est-ce que l’utilisation d’un moteur de recherche peut apporter à l’entreprise ?
  • Comment choisir un moteur de recherche ? Quelles sont les questions à se poser ? Quels sont les critères de choix ?

Les objectifs de ce dossier sont :

  • De fournir une première approche des moteurs de recherche d’entreprise à ceux qui veulent en savoir plus sur le sujet,
  • De montrer l’intérêt qu’il peut y avoir à utiliser ces outils,
  • De fournir des pistes pour les personnes qui souhaiteraient mettre en place un moteur de recherche d’entreprise.

Première partie – Un moteur de recherche d’entreprise, qu’est-ce que c’est ?

Pour bien comprendre les enjeux des moteurs de recherche d’entreprise commençons par définir de quoi il s’agit et comment ils fonctionnent. Attardons-nous ensuite sur ses particularités.

Moteur de recherche : de quoi parle-t-on ?

Avant de définir un moteur de recherche d’entreprise, commençons par définir ce qu’est un moteur de recherche en général, ainsi que son principe de fonctionnement.barre-recherche

La principale fonction d’un moteur de recherche est de signaler l’existence et la localisation de ressources répondant à la demande de l’utilisateur – demande formulée via des mots-clés choisis librement.

Sur le site de l’ADBS, on trouve la définition suivante :

« Robot de recherche : logiciel permettant la construction automatique d’index de mots contenus dans les pages d’informations sur des sites web ou autres ressources sur l’internet et leur interrogation à travers des interfaces dédiées ; la construction automatique d’un index suppose un module de collecte automatique des données qui opère sur les sites serveurs (spider ou crawler) et un module d’indexation qui construit automatiquement l’index à partir des résultats de l’étape précédente ; l’interrogation suppose un module de recherche spécifique sur les index ainsi créés (moteur de recherche). »

Pour sa part, l’Encyclopédie Wikipédia définit un moteur de recherche comme :

« Une application web permettant de retrouver des ressources (pages web, articles de forums Usenet, images, vidéos, fichiers, etc.) associées à des mots quelconques. Certains sites offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même. »

Comme le montre la définition de l’ADBS, un moteur de recherche est composé de trois éléments essentiels. Ces trois éléments correspondent aux trois étapes du fonctionnement d’un moteur de recherche.

  • Un module de collecte automatique des informations (appelé aussi crawler ou spider)
  • Un module d’indexation
  • Un module de classement automatisé des informations

crawling-indexation-classement

Les trois étapes de fonctionnement d’un moteur de recherche

Le robot crawler parcourt tous les contenus qui doivent être indexés par le moteur de recherche. Il « lit » les informations contenues dans les ressources, en extrait les plus importantes et les stocke sur des serveurs afin de s’en servir pour constituer un index.

Le module d’indexation permet l’indexation automatique du contenu récolté à l’étape précédente.

Selon le Dictionnaire de l’information publié aux éditions Armand Colin, la forme basique de l’indexation automatique « est le traitement du texte intégral (full text) et la constitution de fichiers inversés par élimination des mots vides et sélection de toutes les chaînes de caractères situées entre deux séparateurs. »

Le moteur de recherche construit deux index :

  • Un index contenant le corpus d’informations capturées par le robot crawler ;
  • Un index inversé contenant la liste de tous les mots-clés relevés lors de l’indexation et associé aux ressources qui les contiennent avec leur adresse.

C’est cet index inversé que le moteur de recherche interroge lors d’une requête. Grâce à lui, il n’a pas à parcourir tous les documents indexés pour déterminer lesquels sont intéressants. C’est ce qui lui permet de faire remonter des résultats en quelques millièmes de secondes.

On constate d’ailleurs qu’il est plus rapide de faire une recherche dans un corpus aussi étendu que le web que de faire une recherche dans un document PDF assez long, qui lui ne dispose pas d’index.

loupe-search

Le classement des résultats identifiés lors d’une requête se fait grâce au module de classement.

Pour les moteurs de recherche sur le web, c’est lors de cette étape que se joue la concurrence. L’algorithme de classement est ce qui fait la différence entre les différents moteurs de recherche. En effet, un moteur de recherche qui ne fait pas remonter des résultats pertinents pour l’utilisateur en haut de liste ne va pas être utilisé bien longtemps.

Pour classer ses contenus, le moteur de recherche se base sur la fréquence des mots-clés et sur leur répartition dans le document. Cela permet de faire des calculs de pondération et de mesurer l’importance d’un mot par rapport à son poids dans l’ensemble de la ressource. Plus un mot-clé est présent, plus il est important. Et la place du mot joue aussi : un mot présent dans le titre est plus important que s’il se trouve dans le corps du texte. C’est ce que l’on appelle le tri par pertinence et c’est la base du classement automatisé de documents.

Mais cette méthode montre des limites et il est facile de la détourner. Les moteurs de recherche ont donc cherché d’autres moyens pour classer leurs résultats.

Le tri par popularité prend en compte la valeur des liens hypertextes pointant vers la page considérée. C’est sur cette méthode qu’est basé le PageRank de Google.

Le tri par mesure d’audience se base sur le nombre d’internautes qui ont visité la page et sur le temps qu’ils y ont passé. Plus le nombre d’internaute ayant visité une page est élevé et plus ils y ont passé de temps, plus cette page sera placée haut par rapport à une autre avec les mêmes mots-clés.

Il existe plusieurs catégories de moteurs de recherche. Leurs principales différences tiennent surtout au périmètre dans lequel la recherche est effectuée. Mais le fonctionnement en trois étapes (crawl, indexation, classement) est le même pour tous.

On trouve plusieurs grands types de moteurs de recherche :

  • Les moteurs de recherche sur internet qui permettent d’interroger le web avec pour le plus connu d’entre eux Google. Citons aussi Bing, Duckduckgo ou Ixquick Search.
  • Les moteurs de recherche internes à un site web, comme par exemple ceux permettant de trouver un produit sur un site marchand. C’est une catégorie de moteur de recherche d’entreprise mais tourné vers l’extérieur.

illustration moteur Fnac

Capture d’écran du site Fnac.com et utilisation de son moteur de recherche

  • Les moteurs de recherche installés sur un ordinateur personnel (desktop search) qui permettent de rechercher en local sur l’ordinateur comme Copernic Desktop Search ou Spolight sous MacOS.
  • Les moteurs de recherche intégrés dans des logiciels comme les CRM, les GED ou autres applications métiers.

interface recherche avancee alfresco

Interface de recherche avancée du système de gestion de contenu Alfresco

  • Les moteurs de recherche d’entreprise proprement dit. Ce sont ces derniers qui nous intéressent ici.

Les moteurs de recherche d’entreprise sont des outils qui indexent les contenus situés dans plusieurs entrepôts d’informations de l’entreprise (c’est-à-dire les serveurs et applications où sont stockées les données).

Leur fonctionnement est le même que celui décrit précédemment pour les moteurs web, mais il rajoute un élément en plus : les connecteurs. Il s’agit d’un adaptateur qui va permettre au moteur de recherche de se connecter aux différentes sources d’information à indexer pour aller les crawler. Ces informations sont ensuite mises en communs et des traitements peuvent leur être appliqués (enrichissement sémantique, mise en relation de données, repérage des doublons…). La recherche s’effectue via une interface qui ressemble de plus en plus à celles des moteurs web.

fonctionnement-moteur

Schéma représentant le fonctionnement d’un moteur de recherche d’entreprise

Un moteur de recherche d’entreprise ne fonctionne donc pas tout à fait pareil qu’un moteur de recherche sur le web. Il s’adapte aux spécificités du contexte dans lequel il s’inscrit. En effet, les problématiques de recherche en entreprise ne sont pas les mêmes que sur le web.

A suivre…

About these ads

5 réflexions sur “Dossier moteurs de recherche d’entreprise 1/6

  1. Pingback: moteur de recherche | Pearltrees

  2. Pingback: Dossier moteurs de recherche d'entreprise 1/6 |...

  3. Pingback: DIM = gestion de l'information numérique | Annotary

  4. Bonjour,
    Introduction intéressante sur un sujet très intéressant et très riche :-)
    Quelques suggestions de thème :
    – Recherche avancée : sémantique, lien avec thésaurus, recherche par facette…
    – Recherche en entreprise : une différence importante par rapport aux moteurs de recherche du web = problématique des droits d’accès. Les résultats retournés doivent prendre en compte les accès de la personne.
    – Moteur de recherche en entreprise : proposer une liste de grands critères à étudier pour faciliter le choix (intégration avec le SI, API, personnalisation, architecture, scalabilité, performances…)
    – Sur quelques moteurs de « référence », présenter les fonctions ‘originales’

  5. Bonjour Florent,
    Merci pour cet intérêt.
    La plupart des thèmes que vous suggérez seront traités par la suite.
    Les fonctions de recherche avancées seront présentées, surtout la recherche par facette.
    Les différences entre la recherche sur le web et la recherche en entreprise seront abordées dès mardi prochain.
    Les points auxquels prêter attention lors du choix d’un moteur de recherche d’entreprise apparaîtront dans quelques semaines.
    Par contre, les fonctions des originales des différents outils seront peu approfondies. Pour bien présenter les fonctionnalités des outils, je pense qu’il faut pouvoir les tester et je n’ai pas eu cette possibilité.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s