Pourquoi une même définition pour deux termes ? Parce qu’ils sont relativement proches : ces deux techniques visent à collecter des données, avec quelques nuances toutefois. Quand le data scrapping consiste à extraire des données issues de différentes sources (serveur local ou web), le data crawling désigne plus précisément le fait de télécharger des données en masse, sur le web uniquement. Dernière nuance : le data crawling induit le dédoublonnage des données, ce qui n’est pas le cas du data scrapping.
Dans la grande famille des données, il y a celles qu’on peut acquérir moyennant monnaie sonnante et trébuchante, celles dont on dispose, celles qu’on peut obtenir par des moyens techniques (crawling, scraping), et enfin celles qui sont accessibles gratuitement. Ce sont ces dernières que l’on qualifie d’Open Data, pour désigner des données en accès libre. Souvent mises à disposition par les institutions publiques (comme dans le tourisme), ces données sont brutes, segmentées et nécessitent d’être travaillées et assemblées pour dévoiler tout leur potentiel.
Les PoCs ne sont pas limités au domaine de la data, loin s’en faut : ils sont partout où les entreprises innovantes veulent tester la faisabilité de leur solution, en conditions réelles. “PoC” est l’acronyme de Proof of Concept, pour Preuve de Concept en français — étrangement, l’acronyme PdC n’a pas du tout été adopté dans l’Hexagone. En bref, il s’agit d’un prototype, d’une maquette, mais beaucoup plus cool dès lors qu’on l’appelle PoC.