Votre recherche
 

Data Science

Avec le volume de données produites et la vitesse d’accumulation, une organisation, quelque en soit sa taille, doit mettre en œuvre une véritable stratégie des gestion et de valorisation des données.

Cette stratégie regroupe l’ensemble des actions liées aux données : identification, collecte, qualification, normalisation, enrichissement, utilisation, sécurisation… L’objectif est simple : rationaliser la gestion des données pour permettre d’en tirer rapidement des informations utiles et de les transformer en véritable capital stratégique.

Nos équipe vous accompagneront sur l’ensemble de ces sujets, pour vous permettre de mettre rapidement en place une stratégie de gestion des données efficaces, dont vous pourrez tirer rapidement profit.

Nous accompagnons également les institutions dans leurs démarches de publication de données ouvertes. Nous conseillons également les entreprises qui souhaitent décloisonner et enrichir leurs données métiers.

Si utiles qu’elles soient devenues dans les sujets d’innovation et de transformation numérique, les données ne sont pas toujours immédiatement ou facilement disponibles.

Celles-ci peuvent être enfermées à l’intérieur d’un silo de donnée interne, voir de multiples silos par exemple, ou bien elles peuvent être identifiées, mais hors de portées des capacités techniques de l’entreprise comme c’est parfois le cas de données fournisseurs ou d’informations stratégiques utiles au pilotage de l’activité.

Ces données peuvent parfois être réparties sur des écosystèmes de milliers de sites différents, individuellement sans valeur, mais dont la réunion permet de constituer une ressource extrêmement stratégique.

Notre équipe est rompue aux problématiques de transformation de données.

Nous intervenons à ce stade sur des sujets de qualité de donnée, via l’alignement de l’existant sur des référentiels existants ou à concevoir, mais aussi plus simplement sur des sujets de normalisation ou de dédoublonnage, via les solutions ETL du marché que nous maîtrisons (Talend…) ou des stratégies à façon adaptées à l’usage.

Des données internes disponibles et normalisées offrent des possibilités nouvelles d’usages et d’innovation en connectant vos SI à des jeux de données externes préalablement identifiés et sélectionnés.

Ainsi, il est possible de profiter de la masse croissante des données disponibles en open data ou constitués spécialement pour vous (voir l’acquisition) pour enrichir vos applicatifs, sans avoir à en supporter le coût de création.

L’écosystème disponible offre ainsi à nos clients de nouvelles méthodes pour segmenter leurs marchés, leur donner de nouveaux éclairages sur leur clientèle, ou enrichir leurs services des nombreuses ressources rendues disponibles par notre expertise.

Notre équipe possède un savoir faire dans 3 grands domaines du Machine Learning :

Ontologies / moteurs d’inférence
Versions modernisées des systèmes experts d’autrefois, et dédiées au management de la connaissance, ces technologies s’accordent bien à retranscrire et maintenir un savoir métier, afin d’utiliser celui-ci dans vos SI, seul ou en complément d’autres méthodes de raisonnement. Ces technologies sont parties intégrantes du Web Sémantique.

Analyse statistique
Pas de name dropping de nom d’algorithmes exotiques ici tant ceux-ci sont nombreux à venir garnir la trousse à outil des data scientists. Tout l’enjeu spécifique est ici de choisir le bon algorithme à mettre en œuvre pour un usage donné.

Deep Learning
L’Apprentissage profond, version sous stéroïde du concept déjà ancien des réseau de neurones constitue aujourd’hui une véritable jungle pour le décideur qui voudrait tenter d’approcher le sujet sous un angle métier.

Une fois éteintes les sirènes du marketing des vendeurs de solutions qui voudraient faire passer une discipline artisanale, intellectuelle et fondamentalement sur mesure pour un produit tout fait répondant magiquement à tous les usages, le décideur gardera à l’esprit trois points clés essentiels dans la mise en œuvre de ce type de solution :

  • Le choix d’une librairie, brique technologique, ou service cloud adapté à l’usage ;
  • La quantité et la qualité de données nécessaires à l’entraînement du système (bien que certains algorithmes aient besoin de peu ou pas de données mais au prix d’une modélisation particulièrement exhaustive du problème à résoudre. Voir AlphaGo Zero sur ce sujet.) qui doit être suffisante, et qui peut également induire des problématiques d’acquisition et d’étiquetage de données ;
  • La capacité de l’entreprise à adresser les spécificités d’hébergement (et notamment les coûts serveurs) induites par l’entraînement des modèles et leur utilisation.

Cette phase constitue l’aboutissement de la chaîne de valeur.

Les données, après passage dans l’une ou l’autre des étapes précédentes, sont injectées, en temps réel ou non, dans les SI de l’entreprise, afin d’alimenter l’informatique de gestion, le décisionnel, ou bien les intranets/extranet abritant les usages nécessitant les données.