Automatiser la collecte d’information
Introduction
Automatiser la collecte d’information consiste à déléguer à des outils logiciels la tâche répétitive, et sans grande valeur ajoutée, de surveillance de sources d’information et de récupération systématique des informations pertinentes pour la veille.
Cette automatisation est basée sur deux approches de la collecte d’information : la veille radar et la veille cible (ces approches ont été conceptualisées par Christophe Deschamps : https://www.outilsfroids.net/2016/12/veiller-en-mode-radar-ou-en-mode-cible/). Ces dernières reposent sur des outils différents :
-
Les outils d’alertes et de suivi de mots-clés pour la veille radar.
-
Les outils de surveillance (surveillance de pages web et agrégateur de flux RSS) pour la veille cible.
L’automatisation de la collecte d’information
Deux approches différentes mais complémentaires
Plus que des approches centrées sur la seule étape d’automatisation de la veille, la veille radar et la veille cible peuvent être vues comme deux « philosophies » différentes de la veille.
En effet, là où la veille cible repose sur une définition précise du plan de veille et l’identification des sources d’information à surveiller, la veille radar, quant à elle, s’appuie sur des outils de surveillance de mots-clés en fonction de types de contenus divers et variés (billets, tweets, pages web, vidéos, etc.) et non à partir de sources bien identifiées.
Il s’agit bien de « philosophies » différentes dans la mesure où la veille cible se focalise sur des zones du web identifiées et connues alors que la veille radar s’ouvre à des zones indifférenciées et potentiellement inconnues, facilitant ainsi la découverte de nouvelles sources, voire de nouvelles thématiques.
Veille radar et veille cible
Si fréquemment ces deux approches sont utilisées comme alternative l’une de l’autre, en réalité, elles sont fortement complémentaires.
L’une permet de concentrer ses efforts de veille...
Suivre des mots-clés
L’utilisation d’un ou plusieurs moteurs de recherche afin de trouver des informations pertinentes pour sa veille peut s’avérer très utile, voire dans certains cas indispensables. Malheureusement, ce type de recherche est effectué manuellement. Heureusement, il existe des services en ligne qui permettent de répondre au besoin d’automatisation de ces recherches. Il s’agit des services de suivi de mots-clés. Ces derniers permettent à la fois une surveillance du Web des contenus mais également du Web social.
Principe de fonctionnement
Le principe de fonctionnement des services de suivi de mots-clés est extrêmement simple et se déroule en trois temps.
Démarche pour automatiser le suivi de mots-clés
Définition d’une alerte
Dans un premier temps, l’utilisateur crée une alerte en définissant :
-
son nom ;
-
la requête qui va permettre de déclencher l’alerte dès qu’il y aura un nouveau résultat ;
-
la fréquence de surveillance ;
-
les types de sources sur lesquels lancer la requête.
Exemple de définition d’une alerte (Mention)
Les types de sources disponibles peuvent varier d’un service de suivi de mots-clés à l’autre :
-
web
-
blogs
-
actualités
-
forums
-
images
-
vidéos
-
réseaux sociaux
-
etc.
Il s’agit bien de types de sources, voire de formats de contenus, et non de sources en particulier avec une URL bien identifiée. Il faut tout de même noter que certains services de suivi de mots-clés proposent de surveiller un nombre limité de sources bien identifiées comme des profils de réseaux sociaux.
Par ailleurs, en fonction du service de suivi de mots-clés utilisé, d’autres fonctionnalités peuvent être disponibles au niveau de la création d’une alerte. À titre d’exemple, citons :
-
l’exclusion de sites ou d’URL spécifiques ;
-
la mise en avant des résultats de certaines sources jugées importantes ou influentes ;
-
la suppression automatique des contenus non pertinents dans les résultats ;
-
etc.
Réception des alertes
En règle générale, les services de suivi de mots-clés envoient des alertes...
S’abonner à des flux d’information
Certains sites web ou sources d’information offrent la possibilité à leurs visiteurs d’être informés dès qu’une nouvelle publication est mise en ligne.
Ces services d’abonnement sont très précieux pour le veilleur. Non seulement il peut sélectionner les sources et les flux mis à disposition par ces sources et donc les informations qui en émanent, mais il peut aussi et surtout collecter automatiquement des informations en provenance de multiples sources.
Tout ceci est rendu possible grâce au format RSS et aux logiciels qui l’exploitent.
Qu’est-ce qu’un flux RSS ?
RSS est un format de données utilisant des balises XML pour décrire le contenu d’une publication. L’utilisation du format RSS est relativement simple et reprend celle du HTML : un fichier texte, comportant des balises qui définissent le contenu du site, est interprété par un logiciel spécifique, un lecteur RSS, nommé aussi agrégateur de flux RSS.
L’utilisation du format RSS est relativement simple et reprend celle du HTML : un fichier texte, comportant des balises qui définissent le contenu du site, est interprété par un logiciel spécifique, un lecteur RSS.
Principe de fonctionnement des flux RSS
Concrètement, un site web va mettre à disposition de ses lecteurs un fichier au format RSS au travers d’une URL. Cette URL va alors pouvoir être interrogée régulièrement par le lecteur de flux RSS de l’utilisateur. Celui-ci va vérifier s’il y a eu ou non des mises à jour en comparant le contenu du fichier avec celui qu’il a récupéré lors de la dernière vérification. S’il y a de nouveaux contenus, le lecteur de flux RSS récupérera ces contenus et les transmettra à l’utilisateur.
On parle de flux RSS car l’utilisateur est informé au fur et à mesure des nouvelles publications sur le site web. Le contenu des flux RSS peut être différent d’un site ou d’une source à l’autre....
Mettre sous surveillance des pages web
Dans le cas où vous souhaitez surveiller une source d’information en particulier et qu’elle ne dispose pas d’un flux RSS ou que le flux disponible n’est pas adapté à votre besoin, une solution existe : les outils de surveillance.
Principe de fonctionnement
Les outils de surveillance reposent sur le principe général de la comparaison. Ainsi, pour surveiller une page web, un outil de surveillance va collecter cette page à un instant t, la sauvegarder, puis collecter et sauvegarder à nouveau cette même page mais à un instant t+1. En comparant les deux sauvegardes, l’outil de surveillance pourra mettre en évidence les changements survenus : ajout de contenu, modification, suppression, etc.
Mais, pour que tout ceci soit possible, il est au préalable nécessaire de paramétrer deux grands types d’éléments :
-
La source à mettre sous surveillance.
-
Les critères de déclenchement d’une alerte.
Paramétrage de la source à mettre sous surveillance
Le paramétrage d’une source d’information à mettre sous surveillance consiste principalement à fournir son URL. Cependant, si ce n’est pas uniquement la page web qui se trouve à l’URL indiquée que vous souhaitez surveiller mais plusieurs pages voire le site entier, il va alors être nécessaire de fournir des éléments complémentaires.
En effet, tout comme les moteurs de recherche, les outils de surveillance reposent sur des crawleurs qui parcourent les pages d’un site web de liens hypertextes en liens hypertextes.
Par défaut, si vous fournissez une URL à un outil de surveillance, il ne consultera que cette page et ne suivra pas les liens présents sur celle-ci. Pour mettre sous surveillance tout un site, ou simplement une partie, il va donc falloir paramétrer la profondeur. Par exemple, une profondeur égale...