Analyse topologique des données

En mathématiques appliquées , l'analyse topologique des données ( ATD ) est une approche d'analyse des ensembles de données utilisant des techniques de topologie . L'extraction d'informations à partir d'ensembles de données de grande dimension, incomplets et bruités est généralement complexe. L'ATD offre un cadre général pour analyser de telles données de manière indépendante de la métrique choisie, tout en assurant une réduction de dimensionnalité et une robustesse au bruit. De plus, elle hérite de sa nature topologique la fonctorialité , concept fondamental des mathématiques modernes, ce qui lui permet de s'adapter aux nouveaux outils mathématiques.la topologie algébrique et d'autres outils des mathématiques pures pour permettre une étude mathématiquement rigoureuse de cette « forme ». Son principal outil est l'homologie persistante , une adaptation de l'homologie aux nuages de points . L'homologie persistante a été appliquée à de nombreux types de données dans de nombreux domaines. De plus, son fondement mathématique revêt également une importance théorique. Les caractéristiques uniques de la TDA en font un pont prometteur entre la topologie et la géométrie.équations de Lotka-Volterra forme un cercle fermé dans l'espace d'état. La TDA fournit des outils pour détecter et quantifier ce type de mouvement récurrent

De nombreux algorithmes d'analyse de données, notamment ceux utilisés en TDA, nécessitent la définition de divers paramètres. Sans connaissance préalable du domaine , le choix des paramètres appropriés pour un jeu de données est complexe. L'idée principale de l'homologie persistante est d'exploiter l'information obtenue à partir de toutes les valeurs des paramètres en encodant cette masse considérable d'informations sous une forme compréhensible et facile à représenter. En TDA, cette information se traduit mathématiquement par un groupe d'homologie . De manière générale, on suppose que les caractéristiques qui persistent pour une large gamme de paramètres sont des caractéristiques « réelles ». Les caractéristiques qui persistent uniquement pour une gamme restreinte de paramètres sont considérées comme du bruit, bien que la justification théorique de cette hypothèse reste floue.

Histoire ancienne

Les précurseurs du concept complet d'homologie persistante sont apparus progressivement au fil du temps. En 1990, Patrizio Frosini a introduit une pseudo-distance entre sous-variétés, puis la fonction de taille , qui, sur les courbes unidimensionnelles, est équivalente à l'homologie persistante d'ordre 0. Près d'une décennie plus tard, Vanessa Robins a étudié les images des homomorphismes induits par l'inclusion. Enfin, peu après, Herbert Edelsbrunner et al. ont introduit le concept d'homologie persistante, ainsi qu'un algorithme efficace et sa visualisation sous forme de diagramme de persistance. Gunnar Carlsson et al. ont reformulé la définition initiale et proposé une méthode de visualisation équivalente appelée « codes-barres de persistance » , interprétant la persistance dans le langage de l'algèbre commutative.

En topologie algébrique, l'homologie persistante a émergé grâce aux travaux de Sergueï Barannikov sur la théorie de Morse. L'ensemble des valeurs critiques de la fonction de Morse lisse a été partitionné canoniquement en paires « naissance-mort », les complexes filtrés ont été classés, leurs invariants, équivalents aux diagrammes de persistance et aux codes-barres de persistance, ainsi que l'algorithme efficace pour leur calcul, ont été décrits sous le nom de formes canoniques en 1994 par Barannikov.

Concepts

Quelques concepts couramment utilisés sont présentés ci-dessous. Notez que certaines définitions peuvent varier d'un auteur à l'autre.

Un nuage de points est souvent défini comme un ensemble fini de points dans un espace euclidien , mais peut être considéré comme n'importe quel espace métrique fini.

Le complexe de Čech d'un nuage de points est le nerf de la couverture de boules de rayon fixe autour de chaque point du nuage.

Un module de persistance indexé par est un espace vectoriel pour chaque , et une application linéaire chaque fois que , telle que pour tout et chaque fois que Une définition équivalente est un foncteur de considéré comme un ensemble partiellement ordonné vers la catégorie des espaces vectoriels.

Le groupe d'homologie persistante d'un nuage de points est le module de persistance défini comme , où est le complexe de Čech de rayon du nuage de points et est le groupe d'homologie.

Un code-barres de persistance est un multiensemble d'intervalles dans , et un diagramme de persistance est un multiensemble de points dans ( ).

La distance de Wasserstein entre deux diagrammes de persistance et est définie comme où et parcourt les bijections entre et . Veuillez vous référer à la figure 3.1 dans Munch pour une illustration.

La distance de goulot d'étranglement entre et est . Il s'agit d'un cas particulier de distance de Wasserstein, en posant .

Propriété de base

théorème de structure

Le premier théorème de classification pour l'homologie persistante est apparu en 1994 via les formes canoniques de Barannikov. Le théorème de classification interprétant la persistance dans le langage de l'algèbre commutative est apparu en 2005 : pour un module de persistance de type fini à coefficients de corps, intuitivement, les parties libres correspondent aux générateurs d'homologie qui apparaissent au niveau de filtration et ne disparaissent jamais, tandis que les parties de torsion correspondent à celles qui apparaissent au niveau de filtration et persistent pendant les étapes de la filtration (ou, de manière équivalente, disparaissent au niveau de filtration ).

L'homologie persistante est visualisée par un code-barres ou diagramme de persistance. Ce code-barres trouve son origine dans les mathématiques abstraites. Plus précisément, la catégorie des complexes filtrés finis sur un corps est semi-simple. Tout complexe filtré est isomorphe à sa forme canonique, somme directe de complexes filtrés simples de dimension un et deux.

Stabilité

La stabilité est souhaitable car elle assure la robustesse face au bruit. Si est un espace homéomorphe à un complexe simplicial, et sont des fonctions continues apprivoisées , alors les espaces vectoriels de persistance et sont de présentation finie, et , où désigne la distance de goulot d'étranglement et est l'application qui associe à une fonction continue apprivoisée le diagramme de persistance de sa -ième homologie.

Flux de travail

Le flux de travail de base dans TDA est :

nuage de points		complexes imbriqués		module de persistance		code-barres ou diagramme

Si est un nuage de points, remplacez-le par une famille imbriquée de complexes simpliciaux (tels que le complexe de Čech ou de Vietoris-Rips). Ce processus convertit le nuage de points en une filtration de complexes simpliciaux. L'homologie de chaque complexe de cette filtration donne un module de persistance
Appliquez le théorème de structure pour obtenir les nombres de Betti persistants , le diagramme de persistance ou, de manière équivalente, le code-barres.

Graphiquement parlant,

Calcul

Le premier algorithme d'homologie persistante sur tous les corps, dans le cadre de la topologie algébrique, a été décrit par Barannikov par réduction à la forme canonique à l'aide de matrices triangulaires supérieures. L'algorithme d'homologie persistante sur a été proposé par Edelsbrunner et al. . L'ouvrage d'Edelsbrunner et Harer offre des orientations générales en topologie algorithmique

Un problème qui se pose en calcul est le choix du complexe. Les complexes de Čech et de Vietoris-Rips semblent les plus naturels de prime abord ; cependant, leur taille croît rapidement avec le nombre de points de données. Le complexe de Vietoris-Rips est préféré au complexe de Čech car sa définition est plus simple et la définition de ce dernier dans un espace métrique fini général exige un effort supplémentaire. Des méthodes efficaces pour réduire le coût de calcul de l’homologie ont été étudiées. Par exemple, les complexes α et les complexes témoins sont utilisés pour réduire la dimension et la taille des complexes.

Récemment, la théorie de Morse discrète s'est révélée prometteuse pour l'homologie computationnelle, car elle permet de réduire un complexe simplicial donné à un complexe cellulaire beaucoup plus petit, homotope au complexe original. Cette réduction peut être effectuée simultanément à la construction du complexe à l'aide de la théorie des matroïdes , ce qui permet d'améliorer encore les performances. Un autre algorithme récent permet de gagner du temps en ignorant les classes d'homologie à faible persistance.

Divers logiciels sont disponibles, tels que javaPlex , Dionysus , Perseus , PHAT , DIPHA , GUDHI , Ripser et TDAstats . Une comparaison de ces outils est réalisée par Otter et al. Giotto-tda est un package Python dédié à l'intégration de l'analyse topologique des données (TDA) dans le flux de travail d'apprentissage automatique via scikit-learn.L'API du package R TDA permet de calculer des concepts récents comme le paysage et l'estimateur de distance à noyau. Le Topology ToolKit est spécialisé dans les données continues définies sur des variétés de faible dimension (1, 2 ou 3), typiques de la visualisation scientifique . Cubicle est optimisé pour les données d'images en niveaux de gris de grande taille (de l'ordre du gigaoctet) en dimension 1, 2 ou 3, utilisant les complexes cubiques et la théorie de Morse discrète . Un autre package R, TDAstats , utilise la bibliothèque Ripser pour calculer l'homologie persistante.

Visualisation

Il est impossible de visualiser directement des données de grande dimension. De nombreuses méthodes ont été développées pour extraire une structure de faible dimension à partir de ces données, telles que l'analyse en composantes principales et la mise à l'échelle multidimensionnelle . Cependant, il est important de noter que le problème est mal posé, car un même ensemble de données peut présenter de nombreuses caractéristiques topologiques différentes. Ainsi, l'étude de la visualisation des espaces de grande dimension est essentielle à l'analyse topologique des données (TDA), même si elle n'implique pas nécessairement l'utilisation de l'homologie persistante. Des tentatives récentes ont néanmoins été menées pour utiliser l'homologie persistante en visualisation de données

Carlsson et al. ont proposé une méthode générale appelée MAPPER . Elle reprend l'idée de Jean-Pierre Serre selon laquelle un revêtement préserve l'homotopie. Une formulation généralisée de MAPPER est la suivante :

Soient et deux espaces topologiques et soit une application continue. Soit un recouvrement ouvert fini de . Le résultat de MAPPER est le nerf du recouvrement par pullback , où chaque préimage est décomposée en ses composantes connexes. Il s'agit d'un concept très général, dont le graphe de Reeb et les arbres de fusion sont des cas particuliers.

Il ne s'agit pas tout à fait de la définition originale. Carlsson et al. choisissent d'être ou , et le recouvrent d'ensembles ouverts tels qu'au plus deux s'intersectent. Cette restriction implique que la sortie se présente sous la forme d'un réseau complexe . La topologie d'un nuage de points fini étant triviale, des méthodes de clustering (telles que la méthode de liaison simple ) sont utilisées pour produire l'analogue des ensembles connexes de l'image initiale lorsque MAPPER est appliqué aux données réelles.

Mathématiquement parlant, MAPPER est une variante du graphe de Reeb . Si le graphe est au plus unidimensionnel, alors pour chaque , Cette flexibilité accrue présente également des inconvénients. L'un d'eux est l'instabilité : un changement dans le choix de la couverture peut entraîner une modification importante du résultat de l'algorithme. Des travaux ont été menés pour surmonter ce problème.

Trois applications réussies de MAPPER sont décrites dans Carlsson et al. J. Curry commente les applications présentées dans cet article : « La présence d’évasements ou de filaments constitue un point commun intéressant. »

Une implémentation gratuite de MAPPER, écrite par Daniel Müllner et Aravindakshan Babu, est disponible en ligne . MAPPER constitue également la base de la plateforme d'IA d'Ayasdi.

persistance multidimensionnelle

La persistance multidimensionnelle est importante pour l'analyse topologique des données (TDA). Ce concept apparaît à la fois en théorie et en pratique. Les premières recherches sur la persistance multidimensionnelle remontent aux débuts de la TDA . Carlsson et Zomorodian ont introduit la théorie de la persistance multidimensionnelle dans et, en collaboration avec Singh ont proposé l'utilisation d'outils d'algèbre symbolique (méthodes des bases de Gröbner) pour calculer les modules MPH. Leur définition présente la persistance multidimensionnelle à n paramètres comme un module gradué sur un anneau de polynômes à n variables. Des outils d' algèbre commutative et homologique sont appliqués à l'étude de la persistance multidimensionnelle dans les travaux de Harrington, Otter, Schenck et Tillman . La première application recensée est une méthode de comparaison de formes, similaire à l'invention de la TDA

La définition d'un module de persistance n- dimensionnel dans est

Un espace vectoriel est associé à chaque point de l' espace vectoriel.
La carte est attribuée si (
Les cartes satisfont tout

Il convient de noter qu'il existe des controverses sur la définition de la persistance multidimensionnelle.

L'un des avantages de la persistance unidimensionnelle est sa représentabilité par un diagramme ou un code-barres. Cependant, il n'existe pas d'invariants complets discrets pour les modules de persistance multidimensionnels. La principale raison en est que la structure de l'ensemble des indécomposables est extrêmement complexe d'après le théorème de Gabriel dans la théorie des représentations de carquois, bien qu'un module de persistance n-dimensionnel de type fini puisse être décomposé de manière unique en une somme directe d'indécomposables grâce au théorème de Krull-Schmidt.

Néanmoins, de nombreux résultats ont été établis. Carlsson et Zomorodian ont introduit l' invariant de rang , défini comme le , où est un module n-gradué de type fini. En une dimension, il est équivalent au code-barres. Dans la littérature, l'invariant de rang est souvent appelé nombres de Betti persistants (NBP). Dans de nombreux travaux théoriques, les auteurs ont utilisé une définition plus restrictive, analogue à la persistance des ensembles de sous-niveaux. Plus précisément, les nombres de Betti persistants d'une fonction sont donnés par la fonction , prenant chaque à , où et .

Parmi ses propriétés fondamentales figurent la monotonie et le saut diagonal. Les nombres de Betti persistants seront finis si est un sous-espace compact et localement contractile de .

En utilisant une méthode de feuilletage, les réseaux bayésiens périodiques (PBN) de dimension k peuvent être décomposés en une famille de PBN de dimension 1 par déduction de dimensionnalité. Cette méthode a également permis de démontrer la stabilité des PBN multidimensionnels. Les discontinuités des PBN n'apparaissent qu'aux points où soit est un point de discontinuité de , soit est un point de discontinuité de , sous l'hypothèse que et est un espace topologique compact et triangulable.

L'espace persistant, une généralisation du diagramme persistant, est défini comme le multiensemble de tous les points de multiplicité supérieure à 0 et de la diagonale. Il fournit une représentation stable et complète des réseaux bayésiens persistants (RBP). Les travaux en cours de Carlsson et al. visent à donner une interprétation géométrique de l'homologie persistante, ce qui pourrait éclairer la manière de combiner la théorie de l'apprentissage automatique et l'analyse topologique des données.

Le premier algorithme pratique de calcul de la persistance multidimensionnelle a été inventé très tôt. Par la suite, de nombreux autres algorithmes ont été proposés, basés sur des concepts tels que la théorie de Morse discrète et l'estimation d'échantillon fini.

Autres persistances

Le paradigme standard en TDA est souvent désigné sous le terme de persistance de sous-niveau . Outre la persistance multidimensionnelle, de nombreux travaux ont été menés pour étendre ce cas particulier.

persistance en zigzag

Les applications non nulles du module de persistance sont soumises à la relation de préordre dans la catégorie. Cependant, les mathématiciens ont constaté que l'unanimité de direction n'est pas essentielle à de nombreux résultats. « Le point philosophique est que la théorie de la décomposition des représentations de graphes est relativement indépendante de l'orientation des arêtes du graphe » . La persistance en zigzag est importante sur le plan théorique. Les exemples donnés dans l'article de synthèse de Carlsson pour illustrer l'importance de la fonctorité partagent tous certaines de ses caractéristiques.

Persistance étendue et persistance des ensembles de niveaux

Certaines tentatives visent à assouplir les restrictions plus strictes imposées à la fonction. Veuillez vous référer aux sections « Catégorisation et cosheaves » et « Impact sur les mathématiques » pour plus d’informations.

Il est naturel d'étendre l'homologie de persistance à d'autres concepts fondamentaux de la topologie algébrique, tels que la cohomologie et l'homologie/cohomologie relative. Une application intéressante est le calcul des coordonnées circulaires d'un ensemble de données via le premier groupe de cohomologie persistante.

persistance circulaire

L'homologie de persistance classique étudie les fonctions à valeurs réelles. L'application à valeurs dans le cercle pourrait s'avérer utile : « la théorie de la persistance pour les applications à valeurs dans le cercle promet de jouer, pour certains champs vectoriels, le même rôle que la théorie de la persistance standard pour les champs scalaires », comme l'indiquent Dan Burghelea et al. La principale différence réside dans le fait que les cellules de Jordan (dont la forme est très similaire à celle des blocs de Jordan en algèbre linéaire) sont non triviales pour les fonctions à valeurs dans le cercle, alors qu'elles seraient nulles dans le cas réel. Leur combinaison avec les codes-barres permet d'obtenir les invariants d'une application apprivoisée, sous des conditions modérées.

Deux techniques qu'ils utilisent sont la théorie de Morse-Novikov et la théorie de la représentation graphique. Des résultats plus récents peuvent être trouvés dans D. Burghelea et al. Par exemple, l'exigence de docilité peut être remplacée par la condition beaucoup plus faible de continuité.

Persistance avec torsion

La démonstration du théorème de structure repose sur le fait que le domaine de base est un corps ; de ce fait, peu d’études ont été menées sur l’homologie de persistance avec torsion. Frosini a défini une pseudométrique sur ce module particulier et a prouvé sa stabilité. L’une de ses nouveautés est qu’elle ne dépend d’aucune théorie de classification pour définir la métrique.

Catégorisation et cogerbes

L’un des avantages de la théorie des catégories est sa capacité à élever les résultats concrets à un niveau supérieur, en révélant des relations entre des objets apparemment sans lien. Peter Bubenik et al. proposent une brève introduction à la théorie des catégories adaptée à l’analyse topologique des données (TDA).

La théorie des catégories est le langage de l'algèbre moderne et a été largement utilisée dans l'étude de la géométrie algébrique et de la topologie. On a noté que « l'observation clé de est que le diagramme de persistance produit par ne dépend que de la structure algébrique portée par ce diagramme » . L'utilisation de la théorie des catégories en TDA s'est avérée fructueuse

En suivant les notations faites dans Bubenik et al., la catégorie d'indexation est n'importe quel ensemble préordonné (pas nécessairement ou ), la catégorie cible est n'importe quelle catégorie (au lieu de la catégorie couramment utilisée ) et les foncteurs sont appelés modules de persistance généralisés dans , sur .

L'un des avantages de l'utilisation de la théorie des catégories en TDA réside dans une meilleure compréhension des concepts et la découverte de nouvelles relations entre les démonstrations. Prenons deux exemples pour illustrer ce propos. La compréhension de la correspondance entre l'entrelacement et le couplage est primordiale, car le couplage a été la méthode initialement employée (modifiée à partir de la théorie de Morse). Un résumé des travaux est disponible dans Vin de Silva et al. De nombreux théorèmes peuvent être démontrés beaucoup plus facilement dans un cadre plus intuitif. Un autre exemple concerne la relation entre la construction de différents complexes à partir de nuages de points. On a depuis longtemps remarqué que les complexes de Čech et de Vietoris-Rips sont liés. Plus précisément, [ La relation essentielle entre les complexes de Čech et de Rips apparaît beaucoup plus clairement dans le langage des catégories.

Le langage de la théorie des catégories permet également de formuler les résultats en des termes compréhensibles par la communauté mathématique au sens large. La distance de goulot d'étranglement est largement utilisée en TDA en raison des résultats sur la stabilité par rapport à cette distance. En fait, la distance d'entrelacement est l' objet terminal d'une catégorie d'ensembles partiellement ordonnés de métriques stables sur les modules de persistance multidimensionnels dans un corps premier .

Les faisceaux , concept central de la géométrie algébrique moderne , sont intrinsèquement liés à la théorie des catégories. En termes simples, les faisceaux sont l'outil mathématique permettant de comprendre comment l'information locale détermine l'information globale. Justin Curry considère la persistance des ensembles de niveau comme l'étude des fibres de fonctions continues. Les objets qu'il étudie sont très similaires à ceux de MAPPER, mais avec la théorie des faisceaux comme fondement théorique. Bien qu'aucune avancée majeure dans la théorie de l'analyse topologique des données (TDA) n'ait encore utilisé la théorie des faisceaux, celle-ci est prometteuse car de nombreux théorèmes élégants de la géométrie algébrique s'y rapportent. Par exemple, une question théorique naturelle est de savoir si différentes méthodes de filtration aboutissent au même résultat.

Stabilité

La stabilité est primordiale en analyse de données, car les données réelles sont bruitées. En utilisant la théorie des catégories, Bubenik et al. ont distingué les théorèmes de stabilité souple et rigide, et ont démontré que les cas souples sont formels. Plus précisément, le flux de travail général de l'analyse des données topologiques (TDA) est le suivant :

données		module de persistance topologique		module de persistance algébrique		invariant discret

Le théorème de stabilité souple affirme que est lipschitzienne , et le théorème de stabilité stricte affirme que est lipschitzienne.

La distance de goulot d'étranglement est largement utilisée en TDA. Le théorème d'isométrie affirme que la distance d'entrelacement est égale à la distance de goulot d'étranglement. Bubenik et al. ont simplifié la définition pour l'appliquer aux foncteurs munis d'une projection sous-linéaire ou d'une famille sur-linéaire, où reste une pseudométrique. Compte tenu des propriétés remarquables de la distance d'entrelacement, nous introduisons ici la définition générale de la distance d'entrelacement (au lieu de la première) : Soit (une fonction de vers monotone et satisfaisant pour tout ). Un entrelacement entre F et G est constitué de transformations naturelles et , telles que et .

Les deux principaux résultats sont

Soit un ensemble préordonné muni d'une projection sous-linéaire ou d'une famille sur-linéaire. Soit un foncteur entre catégories quelconques . Alors, pour deux foncteurs quelconques , on a .
Soit un ensemble partiellement ordonné d'un espace métrique , et soit un espace topologique. Soient des fonctions (non nécessairement continues), et soit le diagramme de persistance correspondant. Alors .

Ces deux résultats résument de nombreux résultats sur la stabilité de différents modèles de persistance.

Pour le théorème de stabilité de la persistance multidimensionnelle, veuillez vous référer à la sous-section sur la persistance.

théorème de structure

Le théorème de structure est d'une importance capitale pour l'analyse topologique des données (TDA) ; comme l'a commenté G. Carlsson, « ce qui rend l'homologie utile comme discriminateur entre les espaces topologiques est le fait qu'il existe un théorème de classification pour les groupes abéliens de type fini ». (voir le théorème fondamental des groupes abéliens de type fini ).

L'argument principal utilisé dans la preuve du théorème de structure original est le théorème de structure standard pour les modules de type fini sur un domaine d'idéaux principaux . Cependant, cet argument échoue si l'ensemble d'indexation est .

En général, tous les modules de persistance ne sont pas décomposables en intervalles. De nombreuses tentatives ont été faites pour assouplir les restrictions du théorème de structure initial. [ Le résultat le plus remarquable est celui de Crawley-Boevey, qui a résolu le cas . Le théorème de Crawley-Boevey stipule que tout module de persistance ponctuel de dimension finie est une somme directe de modules d'intervalles.

Pour comprendre la définition de son théorème, il convient d'introduire quelques concepts. Un intervalle de est défini comme un sous-ensemble tel que si et s'il existe tel que , alors aussi. Un module d'intervalle associe à chaque élément l'espace vectoriel et associe l'espace vectoriel nul aux éléments de . Toutes les applications sont l'application nulle, sauf si et , auquel cas est l'application identité. Les modules d'intervalle sont indécomposables.

Bien que le résultat de Crawley-Boevey soit un théorème très puissant, il ne s'étend pas au cas q-dompté. Un module de persistance est q-dompté si son rang est fini pour tout . Il existe des exemples de modules de persistance q-domptés qui ne sont pas ponctuellement finis. Cependant, il s'avère qu'un théorème de structure similaire reste valable si l'on supprime les caractéristiques qui n'existent qu'à une seule valeur d'indice. Ceci s'explique par le fait que les parties de dimension infinie à chaque valeur d'indice ne persistent pas, du fait de la condition de rang fini. Formellement, la catégorie observable est définie comme , où désigne la sous-catégorie pleine de dont les objets sont les modules éphémères ( lorsque ).

Notez que les résultats étendus énumérés ici ne s'appliquent pas à la persistance en zigzag, car l'analogue d'un module de persistance en zigzag sur n'est pas immédiatement évident.

Statistiques

Les données réelles étant toujours finies, leur étude exige de prendre en compte la stochasticité. L'analyse statistique permet de distinguer les caractéristiques intrinsèques des données des artefacts dus au bruit aléatoire. L'homologie persistante ne possède aucun mécanisme intrinsèque permettant de différencier les caractéristiques à faible probabilité de celles à forte probabilité.

Une application des statistiques à l'analyse topologique des données consiste à étudier les propriétés statistiques des caractéristiques topologiques des nuages de points. L'étude des complexes simpliciaux aléatoires apporte un éclairage sur la topologie statistique. Katharine Turner et al. proposent une synthèse des travaux menés dans ce domaine.

Une seconde approche consiste à étudier les distributions de probabilité sur l'espace de persistance. Cet espace est défini par , où est l'espace de tous les codes-barres contenant exactement intervalles et les équivalences sont si . Cet espace est relativement complexe ; par exemple, il n'est pas complet au sens de la métrique du goulot d'étranglement. La première tentative d'étude de cet espace est due à Yuriy Mileyko et al. Dans leur article, l'espace des diagrammes de persistance est défini par , où est la diagonale de . Une propriété intéressante est que est complet et séparable au sens de la métrique de Wasserstein . L'espérance, la variance et la probabilité conditionnelle peuvent être définies au sens de Fréchet . Ceci permet d'adapter de nombreux outils statistiques à l'analyse topologique des données (TDA). Les travaux sur test de signification de l'hypothèse nulle , les intervalles de confiance [ et les estimations robustes constituent des avancées notables.

Une troisième approche consiste à considérer directement la cohomologie de l'espace probabiliste ou des systèmes statistiques, appelés structures d'information et constitués essentiellement du triplet ( ), espace d'échantillonnage , variables aléatoires et lois de probabilité. Les variables aléatoires sont considérées comme des partitions des n probabilités atomiques (vues comme un (n-1)-simplexe de probabilité, ) sur le treillis des partitions ( ). Les variables aléatoires ou modules de fonctions mesurables fournissent les complexes de cochaîne, tandis que le cobord est considéré comme l'algèbre homologique générale découverte par Gerhard Hochschild, munie d'une action à gauche implémentant l'action de conditionnement. La première condition de cocycle correspond à la règle de la chaîne de l'entropie, permettant de dériver de manière unique, à une constante multiplicative près, l'entropie de Shannon comme première classe de cohomologie. La considération d'une action à gauche déformée généralise le cadre aux entropies de Tsallis. La cohomologie de l'information est un exemple de topos annelé. L'information mutuelle multivariée k apparaît dans les expressions des cofrontières, et son annulation, liée à la condition de cocycle, fournit des conditions équivalentes d'indépendance statistique. Les minima d'information mutuelle, également appelés synergie, donnent lieu à des configurations d'indépendance intéressantes, analogues aux liens homotopiques. En raison de sa complexité combinatoire, seul le sous-cas simplicial de la cohomologie et de la structure d'information a été étudié sur les données. Appliqués aux données, ces outils cohomologiques quantifient les dépendances et indépendances statistiques, notamment les chaînes de Markov et l'indépendance conditionnelle , dans le cas multivarié. Notamment, l'information mutuelle généralise le coefficient de corrélation et la covariance aux dépendances statistiques non linéaires. Ces approches ont été développées indépendamment et ne sont liées qu'indirectement aux méthodes de persistance, mais peuvent être comprises approximativement dans le cas simplicial à l'aide du théorème de Hu Kuo Tin, qui établit une correspondance biunivoque entre les fonctions d'information mutuelle et les fonctions mesurables finies d'un ensemble muni d'un opérateur d'intersection, afin de construire le squelette complexe de Čech . La cohomologie de l'information offre une interprétation et une application directes en termes de neurosciences (théorie de l'assemblage neuronal et cognition qualitative ), de physique statistique et de réseaux neuronaux profonds pour lesquels la structure et l'algorithme d'apprentissage sont imposés par le complexe de variables aléatoires et la règle de la chaîne d'information.

Les paysages de persistance, introduits par Peter Bubenik, offrent une représentation différente des codes-barres, plus propice à l'analyse statistique. Le paysage de persistance d'un module persistant est défini comme une fonction , , où désigne la droite réelle étendue et . L'espace des paysages de persistance est particulièrement intéressant : il hérite de toutes les propriétés avantageuses de la représentation des codes-barres (stabilité, facilité de représentation, etc.), mais des quantités statistiques peuvent y être facilement définies, et certains problèmes rencontrés dans les travaux de Y. Mileyko et al., tels que la non-unicité des espérances, peuvent être résolus. Des algorithmes efficaces pour le calcul avec les paysages de persistance sont disponibles. Une autre approche consiste à utiliser une persistance modifiée, à savoir la persistance d'image, de noyau et de co-noyau.

Applications

Classification des applications

Il existe plusieurs façons de classer les applications de l'analyse des données topologiques (TDA). La plus naturelle est sans doute par domaine. Voici une liste non exhaustive d'applications réussies : squelettisation de données, étude de formes, reconstruction de graphes, analyse d'images, matériaux, analyse de la progression des maladies, réseaux de capteurs, analyse de signaux, toile cosmique, réseaux complexes, géométrie fractale, évolution virale, propagation des contagions sur les réseaux, classification des bactéries par spectroscopie moléculaire, microscopie à super-résolution, imagerie hyperspectrale en physico-chimie, télédétection, sélection de caractéristiques, et signes avant-coureurs de crises financières.

Une autre façon consiste à distinguer les techniques par G. Carlsson,

L'une consiste en l'étude des invariants homologiques des données sur des ensembles de données individuels, et l'autre en l'utilisation des invariants homologiques dans l'étude des bases de données où les points de données eux-mêmes ont une structure géométrique.

Impact sur les mathématiques

L'analyse topologique des données et l'homologie persistante ont influencé la théorie de Morse . Cette dernière a joué un rôle fondamental dans la théorie de l'analyse topologique des données, notamment en matière de calcul. Certains travaux sur l'homologie persistante ont étendu des résultats concernant les fonctions de Morse aux fonctions apprivoisées, voire aux fonctions continues . Un résultat oublié de R. Deheuvels, antérieur à l'invention de l'homologie persistante, étend la théorie de Morse à toutes les fonctions continues. graphes de Reeb et une classe particulière de cofaisceaux . Ce résultat est motivé par des travaux théoriques en TDA, le graphe de Reeb étant lié à la théorie de Morse et MAPPER en étant dérivé. La démonstration de ce théorème repose sur la distance d'entrelacement.

L'homologie persistante est étroitement liée aux séquences spectrales . En particulier, l'algorithme ramenant un complexe filtré à sa forme canonique permet un calcul des séquences spectrales beaucoup plus rapide que la procédure standard de calcul des groupes page par page. La persistance en zigzag pourrait s'avérer d'une importance théorique pour les séquences spectrales.

DONUT : une base de données d’applications TDA

La base de données DONUT (Database of Original & Non-Theoretical Uses of Topology) est une base de données d'articles scientifiques présentant des applications pratiques de l'analyse topologique des données dans divers domaines scientifiques. Créée en 2017 par Barbara Giunti, Janis Lazovskis et Bastian Rieck , DONUT comptait 447 articles en octobre 2023 . Elle a fait l'objet d'un article dans le numéro de novembre 2023 des Notices of the American Mathematical Society .

Applications à l'apprentissage automatique adverse

La stabilité des caractéristiques topologiques face à de petites perturbations a été exploitée pour renforcer la robustesse des réseaux de neurones graphiques contre les attaques adverses. Arafat et al. ont proposé un cadre de robustesse intégrant systématiquement les représentations des caractéristiques topologiques du graphe, tant locales que globales, dont l'impact est contrôlé par une fonction de perte topologique régularisée robuste. Compte tenu des ressources limitées de l'attaquant, ils ont établi des garanties de stabilité pour les représentations des nœuds, démontrant ainsi un lien important entre la stabilité topologique et l'apprentissage automatique adverse .