Qu’est-ce que le machine learning ?

Michael Chen | Content Strategist |25 novembre 2024

Le machine learning est devenu un terme familier ces dernières années alors que le concept est passé de la science-fiction à un moteur clé de la façon dont les entreprises et les organisations traitent l'information. Alors que le rythme de création des données continue de croître de manière exponentielle, les outils de machine learning sont essentiels pour les entreprises qui cherchent à découvrir des modèles, à étouffer les tendances et à tracer la voie la plus rentable.

A quel point le machine learning est-il banalisé ? Si vous avez cliqué sur la recommandation d'un site d'e-commerce ou d'une plateforme de streaming, si vous avez été informé d'une utilisation abusive potentielle d'une carte de crédit ou si vous avez utilisé un logiciel de transcription, vous avez bénéficié du machine learning. Il est utilisé dans la finance, la santé, le marketing, la vente en retail et dans de nombreux autres secteurs pour extraire des informations précieuses des données et automatiser les processus.

Qu’est-ce que le machine learning ?

Le machine learning (ML) est un sous-ensemble de l'intelligence artificielle qui se concentre sur la création de systèmes qui apprennent (et s'améliorent) à mesure qu'ils ingèrent des données. L’intelligence artificielle est un terme large qui désigne des systèmes ou des machines imitant l’intelligence humaine. Le machine learning et l’IA sont souvent abordés ensemble, et les termes sont parfois utilisés de manière interchangeable, mais ils ne veulent pas dire la même chose.

En somme, tout le machine learning repose sur l'IA, mais toute l'IA ne repose pas sur le machine learning.

Points à retenir

  • Le machine learning est un sous-ensemble de l'IA.
  • Les quatre types de machine learning les plus courants sont supervisés, non supervisés, semi-supervisés et renforcés.
  • Les types populaires d'algorithmes de machine learning incluent les réseaux neuronaux, les arbres de décision, le clustering et les forêts aléatoires.
  • Les cas d'utilisation courants du machine learning dans l'entreprise incluent l'identification et la classification des objets, la détection des anomalies, le traitement des documents et l'analyse prédictive.

Explication de l’apprentissage automatique

Le machine learning est une technique qui découvre des relations jusque-là inconnues parmi les données en recherchant des ensembles de données potentiellement très volumineux pour découvrir des modèles et des tendances qui vont au-delà d'une simple analyse statistique. Le machine learning utilise des algorithmes sophistiqués entraînés pour identifier des modèles dans les données, créant ainsi des modèles. Ces modèles peuvent être utilisés pour faire des prédictions et classifier les données.

Notez qu'un algorithme n'est pas identique à un modèle. Un algorithme est un ensemble de règles et de procédures utilisées pour résoudre un problème spécifique ou effectuer une tâche particulière, tandis qu'un modèle est la sortie ou le résultat de l'application d'un algorithme à un ensemble de données.

Avant l'entraînement, vous avez un algorithme. Après l'entraînement, vous avez un modèle.

Par exemple, le machine learning est largement utilisé dans les soins de santé pour des tâches telles que l'analyse d'imagerie médicale, l'analyse prédictive et le diagnostic de maladies. Les modèles de machine learning sont idéalement adaptés pour analyser des images médicales, telles que les IRM, les rayons X et les tomodensitométries, afin d'identifier des modèles et de détecter des anomalies qui peuvent ne pas être visibles par l'œil humain ou qu'un diagnosticien surmené pourrait manquer. Les systèmes de machine learning peuvent également analyser les symptômes, les informations génétiques et d'autres données sur les patients pour suggérer des tests pour des conditions telles que le cancer, le diabète et les maladies cardiaques.

Les principales caractéristiques du machine learning sont les suivantes :

  • Repérage automatique des modèles
  • Prédiction des résultats probables
  • Création d'informations exploitables
  • Possibilité d'analyser de très grands volumes de données

Types de machine learning

Il existe quatre principaux types de machine learning. Chacun a ses propres forces et limites, c'est pourquoi il est important de choisir la bonne approche pour la tâche spécifique à accomplir.

  • Le machine learning supervisé est le type le plus courant. Ici, les données étiquetées enseignent à l'algorithme quelles conclusions il devrait faire. Tout comme un enfant apprend à identifier les fruits en les mémorisant dans un imagier, l'algorithme, dans le cas de l'apprentissage supervisé, est entraîné par un ensemble de données déjà étiqueté. Un exemple de machine learning supervisé est un filtre d'e-mails indésirables, où l'algorithme est entraîné sur un ensemble de données étiquetées dans lequel chaque e-mail est marqué comme étant un spam ou non. Le modèle apprend de ces exemples étiquetés et peut ensuite prédire si les nouveaux e-mails entrants sont susceptibles d'être des spams ou non en fonction des modèles qu'il a identifiés. Ce type d'apprentissage supervisé nécessite qu'un expert humain fournisse les bonnes réponses en étiquetant les données afin que l'algorithme puisse apprendre et faire des prédictions précises à l'avenir.

    Notez que l'objectif ici n'est pas de s'entraîner à l'aide de données vierges. Vous voulez imiter ce que le système verra dans le monde réel ? Certains spams sont faciles à repérer mais d'autres exemples sont furtifs ou borderline. Des données trop propres entraînent une suradaptation, ce qui signifie que le modèle n'identifiera que d'autres échantillons purs.
  • Le machine learning non supervisé utilise une approche plus indépendante, dans laquelle un ordinateur apprend à identifier des processus et des modèles complexes sans s'appuyer sur des données étiquetées précédemment. Le machine learning non supervisé implique non seulement une formation basée sur des données sans étiquettes, mais il n'y a pas non plus de résultat spécifique défini, par exemple si un e-mail est probablement du spam.

    Le machine learning non supervisé a tendance à repérer des regroupements de données similaires, créant ainsi des clusters. Une fois entraîné, le modèle peut identifier des modèles similaires et placer ces données dans son groupe approprié. Parmi les utilisations courantes de machine learning non supervisé figurent les moteurs de recommandations utilisés dans les applications grand public pour fournir des suggestions telles que « Les clients qui ont acheté tel article ont également acheté tel autre ». Lorsque des modèles différents sont identifier, l'algorithme peut les reconnaître comme des anomalies, ce qui est utile pour la détection des fraudes.
  • Le machine learning semi-supervisé résout le problème du manque de données étiquetées pour entraîner complètement un modèle. Par exemple, vous pouvez avoir des jeux de données d'entraînement volumineux, mais vous ne souhaitez pas consacrer le temps et le coût de l'étiquetage de l'ensemble entier. En utilisant une combinaison de méthodes supervisées et non supervisées, vous pouvez souvent obtenir un modèle entièrement entraîné. Le processus de formation commence comme l'apprentissage supervisé, en utilisant des données étiquetées pour obtenir des résultats initiaux et établir des directives pour l'algorithme. Lorsque les données étiquetées sont épuisées, le modèle semi-entraîné reçoit les jeux de données non étiquetés. Il utilise l'entraînement dont il dispose et examine les données non étiquetées, dans le but d'ajouter des données à l'ensemble de données étiqueté. Si le modèle peut trouver une étiquette appropriée pour un échantillon avec une grande certitude, cet échantillon est ajouté aux données étiquetées. Le processus d'apprentissage recommence, mais maintenant avec un plus grand ensemble d'échantillons étiquetés. En itérant, davantage d'échantillons sont étiquetés avec ce qu'on appelle souvent des pseudo-étiquettes, et le modèle peut être affiné davantage.

    Le machine learning par renforcement, tel que le machine learning non supervisé, utilise des ensembles de données sans étiquette et permet aux algorithmes d'évaluer les données. Cependant, l'apprentissage par renforcement diffère en ce sens qu'il travaille vers un objectif défini plutôt que d'explorer les données pour découvrir les modèles qui pourraient exister. Avec un objectif à l'esprit, l'algorithme procède à un processus d'essais et d'erreurs. Chaque mouvement reçoit une rétroaction positive, négative ou neutre, que l'algorithme utilise pour affiner son processus décisionnel global. Les algorithmes d'apprentissage par renforcement peuvent fonctionner à un niveau macro pour atteindre l'objectif du projet même si cela implique de traiter les conséquences négatives à court terme. De cette façon, l'apprentissage par renforcement gère des situations plus complexes et dynamiques que d'autres méthodes car il permet au contexte de l'objectif du projet d'influencer le risque dans les choix. Enseigner à un ordinateur de jouer aux échecs est un bon exemple. Le but global est de remporter le jeu mais cela peut nécessiter de sacrifier des pièces au fur et à mesure que le jeu se poursuit.

Quel modèle est le plus adapté à vos besoins ? Le choix d'une approche supervisée ou de l'une des trois autres méthodes dépend généralement de la structure et du volume de vos données, du budget et des heures qui peuvent être consacrés à la formation, ainsi que du cas d'usage auquel vous souhaitez appliquer le modèle final. Rater la recommandation d'un chemiser s'accordant avec une jupe peut être sans conséquence. Rater une tumeur, nettement moins.

Fonctionnement du machine learning

Comme son nom l'indique, le machine learning fonctionne en créant des modèles statistiques informatiques affinés pour un but donné en évaluant les données d'entraînement plutôt que par l'approche classique où les programmeurs développent un algorithme statique qui tente de résoudre un problème. Au fur et à mesure que les ensembles de données passent par le modèle de machine learning, la sortie obtenue est jugée sur la précision, ce qui permet aux data scientists d'ajuster le modèle à l'aide d'une série de variables établies, appelées hyperparamètres, et de variables ajustées algorithmiquement, appelées paramètres d'apprentissage.

Etant donné que l'algorithme s'ajuste au fur et à mesure qu'il évalue les données d'entraînement, le processus d'exposition et de calcul autour de nouvelles données entraîne l'algorithme à devenir meilleur dans ce qu'il fait. L'algorithme est la partie informatique du projet, tandis que le terme « modèle » est un algorithme entraîné utilisable pour des cas d'usage de mots réels.

La portée, les ressources et les objectifs des projets de machine learning détermineront le chemin le plus approprié, mais la plupart impliquent une série d'étapes.

1. Rassembler et compiler des données

L'entraînement des modèles de machine learning nécessite de nombreuses données de haute qualité. Le trouver est parfois difficile, et l'étiqueter, si nécessaire, peut être très gourmand en ressources. Après avoir identifié les sources de données potentielles, évaluez-les pour déterminer la qualité globale et l'alignement avec les ressources existantes d'intégration et de dépôt de données du projet. Ces sources constituent la base d'entraînement d'un projet de machine learning.

2. Sélectionnez un algorithme approprié pour obtenir le modèle souhaité

Selon que le projet prévoit d'utiliser l'apprentissage supervisé, non supervisé ou semi-supervisé, les data scientists peuvent sélectionner les algorithmes les plus appropriés. Par exemple, un projet plus simple avec un jeu de données étiqueté peut utiliser une arborescence de décision, tandis que la mise en cluster (divisant les échantillons de données en groupes d'objets similaires) nécessite davantage de ressources de calcul car l'algorithme fonctionne sans supervision pour déterminer le meilleur chemin vers un objectif.

3. Affiner et préparer les données pour l'analyse

Les chances sont que les données entrantes ne seront pas prêtes à partir. La préparation des données nettoie les ensembles de données pour s'assurer que tous les enregistrements puissent être facilement ingérés pendant la formation. La préparation comprend une gamme de tâches de transformation, telles que l'établissement de formats de date et d'heure, la jointure ou la séparation de colonnes selon les besoins, et la définition d'autres paramètres de format, tels que des chiffres significatifs acceptables dans des données numériques réelles. D'autres tâches clés incluent le nettoyage des enregistrements en double, également appelé suppression des doublons de données, ainsi que l'identification et éventuellement la suppression des valeurs aberrantes.

4. Éduquer le modèle grâce à l'entraînement

Une fois que le modèle final souhaité a été sélectionné, le processus de formation commence. Lors de l'entraînement, un jeu de données organisé, étiqueté ou non, est transmis à l'algorithme. Dans les exécutions initiales, les résultats ne sont peut-être pas excellents, mais les data scientists modifieront au besoin pour affiner les performances et augmenter la précision. Ensuite, l'algorithme affiche à nouveau les données, généralement en plus grandes quantités pour les régler plus précisément. Plus l'algorithme voit de données, mieux le modèle final devrait fournir les résultats souhaités.

5. Evaluer les performances et la précision du modèle

Une fois que le modèle a été entraîné avec une précision suffisante, il est temps de lui donner des données inédites pour tester son fonctionnement. Souvent, les données utilisées pour les tests constituent un sous-ensemble des données d'entraînement mises de côté pour être utilisées après la formation initiale.

6. Affiner et améliorer les paramètres de modèles

Le modèle est désormais très probablement proche du déploiement. Les exécutions avec des jeux de données de tests doivent produire des résultats très précis. Des améliorations sont apportées grâce à des formations supplémentaires avec des données spécifiques, souvent propres aux opérations d'une entreprise, pour compléter les données généralisées utilisées dans la formation initiale.

7. Lancer le modèle

Grâce à l'optimisation des résultats, le modèle est maintenant prêt à traiter les données inédites dans une utilisation normale de la production. Lorsque le modèle est actif, les équipes de projet collectent des données sur le fonctionnement du modèle dans des scénarios réels. Cela peut être fait en surveillant des mesures de performances clés, telles que la précision, l'exactitude globale des prédictions du modèle et le rappel, le rapport des observations positives correctement prédites. Pensez également à la façon dont les prédictions du modèle affectent les résultats commerciaux sur le terrain : est-ce qu'il génère de la valeur, que ce soit dans l'augmentation des ventes de blouses ou la pose de meilleurs diagnostics ?

La réalisation régulière d'audits et d'examens de la performance du modèle peut aider à cerner les problèmes ou les distorsions qui ont pu survenir après le déploiement et sont essentiels pour s'assurer que le modèle fonctionne efficacement et réponde aux objectifs souhaités.

Fonctionnement du machine learning

Algorithmes de machine learning

Les algorithmes sont la partie informatique d'un projet de machine learning. Une fois formés, les algorithmes produisent des modèles avec une probabilité statistique de répondre à une question ou d'atteindre un objectif. Cet objectif pourrait être de trouver certaines fonctionnalités dans les images, telles qu' « identifier tous les chats », ou il pourrait être de repérer des anomalies dans les données susceptibles d'indiquer une fraude, un spam ou un problème de maintenance avec une machine. D'autres algorithmes peuvent encore tenter de faire des prédictions, telles que les vêtements qu'un acheteur pourrait également aimer en fonction de ce qui se trouve actuellement dans son panier.

Voici quelques-uns des algorithmes les plus courants utilisés dans le machine learning :

  • Réseaux neuronaux : le cerveau humain crée des réseaux de nœuds qui exécutent des fonctions aussi variées que le traitement d'images de nos yeux, le stockage de souvenirs et le contrôle de nos muscles. Les réseaux neuronaux basés sur ordinateur sont modélisés d'après cette architecture cérébrale, créant des couches de nœuds qui pèsent les relations entre les données qu'ils ont analysées et les données dans les nœuds adjacents. En tant que réseau, ces noeuds peuvent déterminer les caractéristiques des données, telles que les éléments d'une image.
  • Régression linéaire : les algorithmes de régression linéaire prennent des points de données et créent une équation mathématique pour une ligne qui prend le mieux en charge les résultats prévus. C'est ce qu'on appelle parfois la « ligne du meilleur ajustement ». La régression linéaire fonctionne en ajustant les variables de l'équation pour minimiser les erreurs dans les prédictions. Un exemple de régression linéaire est observé dans les soins pédiatriques, où différents points de données peuvent prédire la taille et le poids d'un enfant en fonction de l'historique des données. De même, l'IMC est une régression linéaire qui tente de corréler la taille et le poids à la graisse corporelle globale. Comme l'algorithme utilise une ligne simple pour ses prédictions, les taux d'erreurs peuvent être élevés. Par exemple, un IMC de 30 indique l'obésité. C'est souvent vrai pour le grand public, mais certainement pas pour les athlètes de force tels que les défenseurs de la NFL.
  • Régression logistique : mieux utilisée pour les résultats binaires, la régression logistique est comme une régression linéaire, mais avec des considérations spéciales aux limites des plages de données possibles. Un exemple de régression logistique comprend une analyse de réussite/échec sur la probabilité de convertir un client potentiel en client payant. La régression logistique est souvent utilisée dans les diagnostics médicaux, par exemple, les concentrations plasmatiques de glucose sur une certaine plage sont utilisées comme un indicateur puissant du diabète. La régression logistique peut également être utilisée pour prédire si un e-mail est un spam ou non, ou si une transaction par carte de crédit est frauduleuse.
  • Clustering : le clustering est une forme d'apprentissage non supervisé qui expose un algorithme à des ensembles de données non étiquetés dans lesquels les données peuvent appartenir à des groupes ou clusters distincts. Lorsque l'algorithme évalue les données d'entraînement, il recherche des modèles et des détails qui se chevauchent entre les données et crée des groupes. Supposons que l'algorithme examine la valeur nutritionnelle d'une grande variété de fruits. Il pourrait trouver que les agrumes forment un groupe, les baies un autre, et les melons un troisième. Cela permet de mieux comprendre ce qui rend chaque cluster unique. Le regroupement est particulièrement utile pour tout type de projet de catégorisation, tel que la segmentation du marché.
  • Arbres décisionnels : les arbres décisionnels utilisent l'apprentissage supervisé et les progressions hypothétiques pour effectuer des prédictions. Selon la complexité du projet, les arbres de décision peuvent être idéaux en tant qu'algorithmes d'éclairage des ressources qui produisent des résultats simples. Par exemple, si un collège voulait déterminer quels étudiants pouvaient être dispensés d'anglais en première année, il pourrait utiliser un arbre de décision qui demande d'abord si l'étudiant avait eu quatre ans d'anglais au lycée et, dans l'affirmative, si l'étudiant avait au moins une moyenne générale de 3,6 dans ces cours. Un chemin alternatif pourrait simplement demander si l'étudiant a eu certaines notes en lecture, écriture et en langues aux examens élémentaires.
  • Forêts aléatoires : les arbres de décision eux-mêmes présentent des limites en raison de leurs workflows rigides inhérents et de la nécessité de répondre à toutes les questions d'évaluation. Dans notre exemple d'arbre décisionnel ci-dessus, le collège pourrait exiger que les deux conditions soient vraies, même si en trouver une seul pourrait suffire. Il pourrait y avoir d'autres facteurs à prendre en compte, tels que la réussite d'un étudiant à l'épreuve d'expression écrite à l'admission. Si les trois facteurs étaient nécessaires, le collège aurait du mal à exiger un « surajustement » à l'arbre décisionnel. Les étudiants qui ont bien réussi aux trois critères réussiraient très probablement sans aller au cours de rédaction. Cependant, d'autres qui réussiraient aussi bien seront encore tenus d'aller en cours. Les forêts aléatoires rassemblent des ensembles d'arbres décisionnels qui pèsent cumulativement sur les résultats pour présenter une perspective plus large. Avec les forêts aléatoires, les projets peuvent toujours utiliser la mécanique de base des arbres décisionnels tout en envisageant des relations nuancées entre les points de données pertinents. Ainsi, notre établissement pourrait diviser ces trois critères en arbres décisionnels distincts, puis utiliser des pondérations pour décider qui peut se passer des cours de rédaction, en se basant, par exemple, sur le fait que les bons résultats en anglais au lycée sont l'indicateur le plus prédictif et que la réussite à la dissertation l'est le moins.

Au-delà des réseaux neuronaux

Le machine learning utilise un large éventail d'algorithmes. Alors que ceux mentionnés ci-dessus règnent en popularité, voici cinq algorithmes moins courants mais toujours utiles.

Amélioration du gradient Crée des modèles séquentiellement en se concentrant sur les erreurs précédentes dans la séquence. Utile pour la détection des fraudes et des spams.
Voisins les plus proches (KNN) Modèle simple mais efficace qui classe les points de données en fonction des étiquettes de leurs voisins les plus proches dans les données d'entraînement.
Analyse des composantes principales (ACP) Réduit la dimensionnalité des données en identifiant les fonctionnalités les plus importantes. Il est utile pour la visualisation et la compression des données, par exemple pour la détection d'anomalies.
Q-learning Emploie et agent qui apprend par des essais et erreurs, et reçoit des récompenses pour les actions souhaitées et des pénalités pour avoir pris la mauvaise direction.
Machine à vecteurs de support (SVM) Crée un hyperplan pour séparer efficacement les points de données appartenant à différentes classes, telles que la classification des images.

Avantages du machine learning

Le machine learning permet aux entreprises d'extraire des informations de leurs données qu'elles pourraient ne pas trouver autrement. Voici quelques-uns des avantages les plus courants de l'intégration du machine learning dans les processus :

  • Rationalisation de la prise de décision et de l'analyse prédictive : les décisions basées sur les données commencent par l'analyse des données. C'est une déclaration évidente, mais lorsqu'il est fait manuellement, le processus d'analyse demande beaucoup de temps et de ressources et peut ne pas produire suffisamment d'informations pour justifier le coût. Le machine learning peut parcourir de grands volumes de données pour identifier les tendances et les modèles afin que les utilisateurs puissent se concentrer sur les requêtes et les résultats exploitables plutôt que d'optimiser le traitement manuel des données. Selon l'outil d'analyse, le machine learning peut générer des prédictions et identifier des informations difficiles à trouver dans les données, ce qui permet une analyse plus approfondie et une plus grande valeur pour l'entreprise.
  • Améliorer l'efficacité et automatiser les tâches : le machine learning est à l'origine de nombreuses technologies qui rendent les collaborateurs plus efficaces. De nombreuses tâches peu cognitives et répétitives, y compris la vérification orthographique ainsi que la numérisation et la classification des documents, sont désormais effectuées par les ordinateurs, grâce au machine learning.

    Le machine learning excelle également dans l'analyse rapide et instantanée des données, extrêmement difficile pour les humains. Cette transaction est-elle frauduleuse ou cet e-mail est-il une arnaque de phishing ? Les systèmes de machine learning peuvent souvent déterminer avec précision la réponse en quelques secondes et prendre automatiquement les mesures appropriées. En combinant les technologies de ML, les prédictions peuvent être faites à partir de données accompagnées d'explications des facteurs qui ont influencé la prédiction, aidant les dirigeants à tracer la meilleure voie pour leur organisation.
  • Personnalisation et innovation dans les services : le machine learning a ouvert une nouvelle porte à l'expérience client grâce à la personnalisation. L'historique des achats, l'historique de navigation, les données démographiques et des informations supplémentaires peuvent être utilisés pour créer un profil client individuel, qui peut ensuite être référencé par des profils similaires pour faire des prédictions sur les intérêts des clients. Cela permet de proposer des offres de moteurs de suggestions, des remises générées automatiquement et d'autres types d'engagement personnalisé pour que les clients restent fidèles.

    En utilisant la nomenclature abordée ici : les arbres décisionnels peuvent aider à classer les clients. Peut-être qu'un client aime la mode vintage et d'occasion tandis qu'un autre aime les vêtements de créateurs de pointe. Le regroupement de chaque client avec des clients similaires peut aider à identifier les produits sur lesquels il cliquera probablement ou s'il y a des chances qu'il soit fortement motivé par les ventes. Le machine learning peut alors prédire les meilleures offres pour chaque client en considérant les clusters dans lesquels il s'intègre.

Défis liés au machine learning

Les projets de machine learning sont aussi efficaces que le système et les ressources avec lesquels ils sont construits. Cela souligne la nécessité d'investir dans une planification et une préparation appropriées.

Voici quelques-uns des défis les plus courants auxquels sont confrontés les projets de machine learning :

  • Qualité des données : l'adage « garbage in, garbage out » s'applique au machine learning. La qualité des données est essentielle, à la fois pendant la phase de formation et en production. Des données de haute qualité peuvent conduire à des résultats plus précis fournis en temps opportun et de manière efficace ; des données de faible qualité peuvent créer des inexactitudes et des distorsions dans les modèles résultants. Notez que la « qualité » peut signifier différentes choses pour différents projets. Pour la formation des systèmes de reconnaissance d'images, les données doivent représenter ce que le modèle verra dans le monde réel. Cela inclut les sujets dans l'ombre, légèrement hors de la mise au point et ne regardant pas directement dans la caméra. A des fins de formation, plus les données ressemblent à ce que le système verra en production, mieux c'est.

    À cette fin, les entreprises devraient vérifier les sources de données, transformer les ensembles de données pour des formats cohérents et compatibles, exécuter des procédures de nettoyage et de déduplication, former les utilisateurs aux processus et aux protocoles, et intégrer des outils pour évaluer la qualité et l'adéquation.
  • Biais : les données peuvent être propres, mais sont-elles exemptes de biais ? Prenons un cas évident : disons que vous souhaitiez former un système de machine learning pour détecter les chiens en images, et vous ayez un ensemble de données important de photos uniquement de labradors et caniches. Après l'entraînement, le modèle est parfait pour détecter ces chiens. Vous pourriez dire qu'il est entraîné pour cela. Mais lorsqu'on lui montre une photo d'un bouledogue, il dit qu'il ne peut pas trouver de chien. Evidemment, car il n'a pas été entraîné pour cela.

    La création du bon ensemble de données d'entraînement est l'un des aspects les plus délicats et les plus coûteux de la création d'outils de machine learning qui fonctionnent comme vous le souhaitez. La difficulté de trouver certains types de données peut souvent générer une source involontaire de biais. Par exemple, le mastiff tibétain est une race rare, mais les chiens ressemblent à un Terre-Neuve brun orangé. Donc, s'il n'existe pas suffisamment d'échantillons de données de mastiffs tibétains, ce ne sera pas trop surprenant si un modèle de machine learning l'identifie comme un Terre-Neuve.
  • Sécurité des données : malgré ses nombreux avantages, le machine learning peut introduire toute une série de problèmes de sécurité. Les données utilisées dans l'analyse de machine learning peuvent contenir des informations sensibles ou exclusives non destinées à la consommation publique. De même, les données peuvent être la cible d'une cyberattaque destinée à contaminer le modèle et à intégrer des mauvaises informations dans les résultats. Les étapes de préparation des données peuvent à la fois exposer et résoudre les vulnérabilités de sécurité, en particulier lorsque les ensembles de données passent par des processus d'exportation ou d'importation entre les systèmes. Pour aider à atténuer les problèmes de sécurité, les entreprises doivent utiliser un éventail de politiques, procédures et contrôles de sécurité, y compris une formation pratique du personnel.
  • Confidentialité des données : veiller à ce que les données sensibles ne soient pas divulguées est un effort continu. L'anonymisation des données est une pratique émergente mais elle n'est pas toujours disponible ni suffisante. Par exemple, disons qu'une entreprise souhaite offrir un service qui permette à ses clients professionnels d'en savoir plus sur leurs consommateurs finaux en fonction des données qu'elle a collectées. Ce type d'information doit être protégé et utilisé conformément aux exigences légales, et les entreprises doivent examiner attentivement les nouveaux vecteurs de menaces qui pourraient tenter de compromettre les données par le biais d'un système de ML.

Cas d’utilisation de l'apprentissage automatique

Le machine learning peut apporter des avantages significatifs à presque tous les secteurs et départements d'une entreprise. Si les chiffres sont écrasés et que les données existent, le machine learning offre un moyen d'augmenter l'efficacité et de générer de nouveaux types d'engagement. Les cas d'usage courants du machine learning dans tous les secteurs sont les suivants :

  • Vente au détail : pour les détaillants, le machine learning peut aider les opérations, les ventes, etc. Au niveau des opérations, le machine learning peut analyser les données de la supply chain afin d'optimiser la gestion des stocks et d'identifier les retards possibles en amont. Pour aider à augmenter les ventes, le machine learning peut examiner l'historique de recherche et de navigation d'un client, ainsi que les données démographiques, afin de créer un profil qui sert de base à d'autres interactions.
  • Médias en continu : à l'instar des détaillants, les streamers audio et vidéo peuvent créer des profils clients en fonction de l'engagement d'un utilisateur, de son historique de navigation et de ses données démographiques. Ce profil peut ensuite alimenter des moteurs de recommandations qui aident à la découverte et à l'engagement ultérieur.
  • Finances : l'une des utilisations les plus puissantes et les plus simples du machine learning est la détection des fraudes pour le secteur financier. Grâce au machine learning, les algorithmes peuvent identifier le comportement général des comptes, puis commencer à signaler un comportement anormal pour des enquêtes de fraude potentielles.
  • Santé : le secteur de la santé est prêt à utiliser le machine learning dans presque tous les aspects des opérations. Les profils des patients par le biais de dossiers médicaux électroniques peuvent identifier les problèmes possibles à l'avance en fonction de modèles comparés à des données démographiques similaires. Les données des appareils Internet of Things, telles qu'un distributeur intelligent de médicaments, peuvent signaler rapidement les erreurs, et les données opérationnelles de la fréquentation des patients ou de l'utilisation des lits d'hôpital peuvent informer l'évolutivité du personnel.

Machine learning plus rapide et plus sécurisé avec Oracle

Le machine learning dans Oracle Database offre un large éventail de fonctionnalités pour accélérer le processus de machine learning. Grâce à la possibilité de conserver les données dans la base de données, les data scientists peuvent simplifier leur workflow et augmenter la sécurité tout en tirant parti de plus de 30 algorithmes intégrés à hautes performances, de la prise en charge des langages populaires, y compris R, SQL et Python, des fonctionnalités de machine learning automatisées et des interfaces sans code.

Pour les entreprises disposant d'ensembles de données volumineux, le machine learning dans la base de données avec HeatWave MySQL annule la nécessité de déplacer les données vers un système distinct pour le machine learning, ce qui peut aider à augmenter la sécurité, à réduire les coûts et à gagner du temps. HeatWave AutoML automatise le cycle de vie du machine learning, notamment la sélection d'algorithmes, l'échantillonnage intelligent des données pour l'entraînement de modèle, la sélection des caractéristiques et l'optimisation des hyperparamètres, ce qui fait gagner du temps aux clients et leur épargne des tâches chronophages.

Le gain pour le machine learning est la capacité d'analyser et d'interpréter de grandes quantités de données rapidement et avec précision. Une fois entraînés, les modèles de machine learning peuvent identifier en quelques secondes ou minutes des modèles, tendances et informations qui pourraient prendre des semaines à être détectés par les humains, ou qui pourraient ne jamais voir le jour. Le résultat est une prise de décision plus éclairée, une résolution améliorée des problèmes et la capacité de faire des prédictions basées sur les données. En outre, les modèles de machine learning peuvent automatiser les processus en rotation, ce qui permet d'économiser du temps et des ressources. Le machine learning réalise son potentiel pour révolutionner le lieu de travail et stimuler l'innovation.

Le machine learning est la clé pour libérer de la valeur dans vos données, et la première étape d'un programme d'intelligence artificielle réussi.

FAQ sur le machine learning

Quelle est la différence entre l'IA et le machine learning ?

L'intelligence artificielle est le nom donné au large sujet informatique qui se concentre sur la construction et l'affinage de systèmes pour penser comme des humains. Le machine learning est un sous-ensemble de ce domaine qui se concentre spécifiquement sur l'aspect informatique du processus d'apprentissage. Les deux termes sont souvent utilisés de manière interchangeable et font face à des défis similaires, mais ils existent séparément malgré ce lien.

Quels sont les quatre principaux types de machine learning ?

Les quatre types de machine learning sont les suivants :

  • Supervisé. L'apprentissage supervisée utilise des jeux de données étiquetés pour entraîner l'algorithme vers un objectif spécifique.
  • Non supervisé. L'apprentissage non supervisé utilise des jeux de données non étiquetés qui fournissent l'espace d'algorithme pour explorer et identifier les modèles.
  • Semi-supervisé. L'apprentissage semi-supervisé utilise des ensembles de données étiquetés pour l'entraînement initial afin d'établir les paramètres généraux du projet. Ensuite, l'algorithme utilise cet entraînement pour évaluer les échantillons non étiquetés pour voir s'il peut les étiqueter avec une forte probabilité. Ce processus peut être répété, l'ensemble d'échantillons étiquetés augmentant à chaque itération.
  • Renforcement. L'apprentissage par renforcement agit de la même manière que l'apprentissage non supervisé en ce sens qu'il utilise des ensembles de données non étiquetés. Cependant, l'apprentissage par renforcement se concentre sur l'apprentissage de la meilleure façon pour atteindre un objectif spécifique grâce à une rétroaction positive, négative et neutre plutôt que de rechercher des modèles.

Est-il difficile d'apprendre le machine learning ?

Comme tout métier technique, l'apprentissage des tenants et aboutissants du machine learning est un processus itératif qui nécessite du temps et du dévouement. Un bon point de départ pour le machine learning est d'avoir une base dans les langages de programmation, tels que Python ou R, ainsi qu'une compréhension des statistiques. De nombreux éléments impliqués dans l'évaluation des résultats du machine learning nécessitent une compréhension des concepts statistiques, tels que la régression, la classification, l'ajustement et les paramètres.

Qu'est-ce qu'un exemple de machine learning ?

L'un des exemples les plus courants de machine learning est un moteur de suggestion. Dans l'e-commerce, cela est considéré comme une suggestion de produit « vous pouvez aussi aimer... ». Dans les médias de streaming vidéo, cela est vu comme des idées pour ce qu'il faut regarder ensuite. Dans ces cas, l'algorithme prend l'historique d'un utilisateur et crée des prédictions pour ce que l'utilisateur peut trouver intéressant ; plus l'utilisateur ajoute des points de données, plus l'algorithme peut affiner les prédictions.