Visualisation des informations. Le rôle des méthodes de visualisation de l'information pédagogique dans l'enseignement

"On dit qu'un dessin vaut mille mots, et c'est vrai, à condition que le dessin soit bon." Archer

Avec une augmentation de la quantité de données accumulées, même en utilisant des algorithmes de Data Mining arbitrairement puissants et polyvalents, il devient de plus en plus difficile de « digérer » et d'interpréter les résultats obtenus. Et, comme vous le savez, l'une des dispositions du Data Mining est la recherche de modèles pratiquement utiles. Un modèle ne peut devenir pratiquement utile que s'il peut être compris et compris.

En 1987, à l'initiative du comité technique de l'informatique graphique de l'ACM SIGGRAPH IEEE Computer Society, en lien avec la nécessité d'utiliser de nouvelles méthodes, outils et technologies de données, les tâches correspondantes de la direction de la visualisation ont été formulées.

Les méthodes de présentation visuelle ou graphique des données comprennent des graphiques, des diagrammes, des tableaux, des rapports, des listes, diagrammes structurels, cartes, etc.

La visualisation est traditionnellement considérée comme aide lors de l'analyse des données, cependant, de plus en plus d'études parlent de son rôle indépendant.

Les techniques d'imagerie traditionnelles peuvent trouver les applications suivantes :

présenter des informations à l'utilisateur sous une forme visuelle ;

décrire de manière compacte les modèles inhérents à l'ensemble de données d'origine ;

réduire la dimension ou compresser les informations ;

réparer les lacunes dans l'ensemble de données ;

trouver du bruit et des valeurs aberrantes dans un ensemble de données.

Visualisation de l'outil d'exploration de données

Chacun des algorithmes de Data Mining utilise une approche de visualisation spécifique. Dans les conférences précédentes, nous avons couvert un certain nombre de méthodes d'exploration de données. Au cours de l'utilisation de chacune des méthodes, ou plutôt de sa mise en œuvre logicielle, nous avons reçu des visualiseurs, à l'aide desquels nous avons pu interpréter les résultats obtenus grâce au travail des méthodes et algorithmes correspondants.

Pour les arbres de décision, il s'agit d'un visualiseur d'arbre de décision, d'une liste de règles, d'un tableau de contingence.

Pour les réseaux de neurones selon l'outil, cela peut être une topologie de réseau, un graphique de l'évolution de l'ampleur de l'erreur, démontrant le processus d'apprentissage.

Pour les cartes Kohonen : cartes d'entrées, sorties, autres cartes spécifiques.

Pour la régression linéaire, la ligne de régression agit comme un visualiseur.

Pour le clustering : dendrogrammes, nuages ​​de points.

Les nuages ​​de points et les graphiques sont souvent utilisés pour évaluer les performances d'une méthode.

Toutes ces manières présentation visuelle ou les mappages de données peuvent exécuter l'une des fonctions :

sont une illustration de la construction d'un modèle (par exemple, représentant la structure (graphique) d'un réseau de neurones) ;

aider à interpréter le résultat obtenu;

sont un moyen d'évaluer la qualité du modèle construit ;

combiner les fonctions listées ci-dessus (arbre de décision, dendrogramme).

Visualisation des modèles d'exploration de données

La première fonction (illustration de la construction d'un modèle), en fait, est une visualisation du modèle de Data Mining. Il existe de nombreuses manières différentes de présenter les modèles, mais la représentation graphique donne à l'utilisateur la "valeur" maximale. L'utilisateur, dans la plupart des cas, n'est pas un spécialiste de la modélisation, le plus souvent il est un expert dans son Domaine... Par conséquent, le modèle de Data Mining doit être présenté dans le langage le plus naturel pour lui, ou, au moins, contenir un nombre minimum d'éléments mathématiques et techniques divers.

Ainsi, la disponibilité est l'une des principales caractéristiques du modèle de Data Mining. Malgré cela, il existe également une manière aussi répandue et la plus simple de représenter un modèle comme une "boîte noire". Dans ce cas, l'utilisateur ne comprend pas le comportement du modèle qu'il utilise. Cependant, malgré le malentendu, il obtient le résultat - les modèles révélés. Un exemple classique d'un tel modèle est le modèle de réseau de neurones.

Une autre façon de représenter le modèle est de le présenter de manière intuitive et compréhensible. Dans ce cas, l'utilisateur peut vraiment comprendre ce qui se passe « à l'intérieur » du modèle. Ainsi, il est possible d'assurer sa participation directe au processus.

De tels modèles offrent à l'utilisateur la possibilité de discuter ou d'expliquer sa logique avec des collègues, des clients et d'autres utilisateurs.

Comprendre le modèle conduit à comprendre son contenu. Grâce à la compréhension, la confiance dans le modèle augmente. Un exemple classique est un arbre de décision. L'arbre de décision construit améliore réellement la compréhension du modèle, c'est-à-dire utilisé l'outil d'exploration de données.

En plus de la compréhension, ces modèles offrent à l'utilisateur la possibilité d'interagir avec le modèle, de lui poser des questions et d'obtenir des réponses. Un exemple de cette interaction est la fonction de simulation. Grâce à la boîte de dialogue "système-utilisateur", l'utilisateur peut acquérir une compréhension du modèle.

Passons maintenant aux fonctions qui aident à interpréter et à évaluer les résultats de la construction de modèles d'exploration de données. Ce sont toutes sortes de graphiques, graphiques, tableaux, listes, etc.

Des exemples d'outils de visualisation qui peuvent être utilisés pour évaluer la qualité d'un modèle sont un nuage de points, un tableau de contingence et un graphique de l'évolution de l'ampleur de l'erreur.

Nuage de points est un graphique de l'écart des valeurs prédites par le modèle par rapport aux valeurs réelles. Ces graphiques sont utilisés pour les valeurs continues. L'évaluation visuelle de la qualité du modèle construit n'est possible qu'à la fin du processus de construction du modèle.

Tableau de contingence utilisé pour évaluer les résultats de la classification. De tels tableaux sont utilisés pour différentes méthodes classification. Nous les avons déjà utilisés dans des conférences précédentes. L'évaluation de la qualité du modèle construit n'est possible qu'à la fin du processus de construction du modèle.

Le graphique de l'évolution de l'amplitude de l'erreur... Le graphique montre le changement de l'ampleur de l'erreur dans le processus de fonctionnement du modèle. Par exemple, lors du fonctionnement des réseaux de neurones, l'utilisateur peut observer l'évolution de l'erreur sur les ensembles d'apprentissage et de test et arrêter l'apprentissage pour éviter le « surapprentissage » du réseau. Ici, l'évaluation de la qualité du modèle et de ses changements peut être évaluée directement dans le processus de construction du modèle.

Des exemples de visualiseurs qui aident à interpréter le résultat sont : la ligne de tendance dans la régression linéaire, les cartes de Kohonen, le nuage de points dans l'analyse de cluster.

Techniques d'imagerie

Les méthodes de visualisation, selon le nombre de mesures utilisées, sont généralement classées en deux groupes :

présentation des données en une, deux et trois dimensions;

présentation des données en quatre dimensions ou plus.

Présentation des données en une, deux et trois dimensions

Ce groupe de méthodes comprend des méthodes bien connues d'affichage d'informations qui sont disponibles pour la perception par l'imagination humaine. Presque tous les outils d'exploration de données modernes incluent des méthodes de présentation visuelle de ce groupe.

Selon le nombre de dimensions de la vue, celles-ci peuvent être les suivantes :

dimension unidimensionnelle (univariée), ou 1-D ;

une dimension bidimensionnelle (bivariée), ou 2-D ;

Mesure 3D ou projection, ou 3-D.

Il convient de noter que l'œil humain perçoit le plus naturellement les représentations bidimensionnelles de l'information.

Lors de l'utilisation d'une présentation d'informations en deux et trois dimensions, l'utilisateur a la possibilité de voir les modèles de l'ensemble de données :

sa structure de cluster et la répartition des objets en classes (par exemple, dans un diagramme de dispersion) ;

caractéristiques topologiques;

présence de tendances;

informations sur l'arrangement mutuel des données;

l'existence d'autres dépendances inhérentes à l'ensemble de données étudié.

Si l'ensemble de données a plus de trois dimensions, les options suivantes sont possibles :

l'utilisation de méthodes multidimensionnelles de présentation de l'information (elles sont discutées ci-dessous) ;

réduction de dimension à présentation à une, deux ou trois dimensions. Exister différentes façons réduction de la dimensionnalité, l'un d'eux - l'analyse factorielle - a été discuté dans l'une des conférences précédentes. Les cartes de Kohonen auto-organisées sont utilisées pour réduire la dimensionnalité et visualiser simultanément les informations sur une carte en deux dimensions.

Présentation des données en 4+ dimensions

Les représentations de l'information en quatre dimensions et plus sont inaccessibles à la perception humaine. Cependant, des méthodes spéciales ont été développées pour la possibilité d'afficher et de percevoir de telles informations par une personne.

Les modes les plus connus de présentation d'informations multidimensionnelles :

coordonnées parallèles;

∙ "Les visages de Tchernov";

cartes radar.

Coordonnées parallèles

En coordonnées parallèles, les variables sont codées horizontalement, avec une ligne verticale définissant la valeur de la variable. Un exemple d'ensemble de données présenté en coordonnées cartésiennes et en coordonnées parallèles est donné dans la Fig. 16.1. Cette méthode de représentation de données multidimensionnelles a été inventée par Alfred Inselberg en 1985.

Le sujet de la visualisation de l'information et de l'infographie revient régulièrement pendant le travail, et en général, il est intéressant en tant que pratique du design et du design. Bien que nous travaillions dans l'entreprise sur des systèmes Web, où la plupart des problèmes sont résolus par des moyens standards conception telle que des formulaires ou des blocs d'informations, il est parfois nécessaire de soumettre une grande quantité d'informations de manière concise et compacte. Il s'agit souvent de tâches assez spécifiques, qui demandent beaucoup de temps pour réfléchir à l'interface. Certes, ce sont quelques-unes des tâches les plus intéressantes.

La pratique consistant à afficher des informations sous forme graphique a de nombreux synonymes, mais dans Ces derniers temps les deux plus couramment utilisés sont la visualisation de données et l'infographie. Ces approches existent depuis longtemps, beaucoup de littérature a été écrite à ce sujet. Les auteurs et designers célèbres incluent Edward Tufte, Stephen Few, Ben Fry. Mais avant tout, je me demande où et comment les infographies sont utilisées.

Application

Il existe aujourd'hui de nombreux exemples intéressants de visualisation, mais nombre d'entre eux sont des objets d'art plutôt que des supports pratiques. Je vois les domaines d'utilisation suivants :

  • Statistiques et rapports... Un genre autosuffisant, lorsque les données d'une certaine période de temps sont affichées ensemble. Par exemple, une image statique jointe à un rapport ou un graphique personnalisé dans un service de statistiques, avec la possibilité de modifier ses paramètres d'affichage.
  • Informations de référence... Ajout au texte principal, l'illustrant clairement avec les données référencées. Par exemple, pour donner une idée générale de la dynamique d'un des indicateurs, ou pour afficher un processus et ses étapes ; peut-être - pour montrer la structure d'un certain phénomène.
  • Services interactifs... Produits et projets dans lesquels l'infographie fait partie de la fonctionnalité. Par exemple, un diagramme de processus peut être utilisé comme outil de navigation pour les services avec des workflows complexes. Presque tout ce qui concerne le travail avec des cartes se passe rarement d'un mélange d'infographie et d'interactivité, sans parler systèmes spécialisés comme les salles de contrôle et la plupart des jeux informatiques.
  • Illustrations... Pas tout à fait un genre pur - plutôt, l'utilisation de pratiques et d'approches d'un bel affichage de données pour créer des illustrations indépendantes. Ils ont une certaine signification, mais ce n'est pas leur tâche principale - la valeur principale est la qualité de la performance.
  • Dessins et schémas... Documents spécialisés montrant la structure et le fonctionnement de l'ingénierie complexe et des systèmes naturels. En plus des diverses cartes, ce sont souvent des choses qui sont rarement utilisées dans la vie de tous les jours, comme les circuits imprimés.
  • Expériences et art... Visualisation de données sans grand sens pratique, plutôt que des expériences ou des installations. Le plus souvent, il s'agit d'images complexes et encombrantes difficiles à «lire» couramment - la quantité de données et les relations entre elles sont telles que vous devez traiter l'image en plusieurs parties ; ou simplement des images abstraites, générées automatiquement. Récemment, la direction est devenue de plus en plus populaire et va périodiquement au-delà infographie- par exemple, sous forme de sculptures graphiques.

Classification

L'ensemble d'outils de visualisation est assez vaste - des graphiques en courbes les plus simples aux affichages complexes de nombreuses relations. Ils peuvent être décomposés en plusieurs types :

Graphiques

Montrez la dépendance des données les unes par rapport aux autres. Ils sont construits le long des axes X et Y, bien qu'ils puissent être tridimensionnels.


(graphique en courbes, graphique en aires). Le cas le plus courant. Combine avec une ligne un ensemble de points correspondant aux valeurs le long des axes. Par exemple, le trafic quotidien du site Web pendant un mois. Il peut afficher plusieurs ensembles de données à la fois - par exemple, afficher les statistiques des 3 pages les plus populaires.
Exemples : © BFM.ru, SmartMoney, TeleGeography Research
(nuage de points). Affiche la distribution d'un ensemble limité de points correspondant aux valeurs le long des axes. Une ligne de tendance est souvent tracée entre les points - elle montre clairement des modèles parmi les valeurs. Par exemple, la relation entre l'expérience de travail et la productivité du travail chez 50 employés de l'entreprise (il est impossible de simplement connecter les points obtenus sous la forme d'un graphique linéaire - et le sens sera déformé et la ligne sera agitée).
Exemples : © Statcon
Plus d'exemples dans la galerie de modèles

Tableaux comparatifs

Affiche les ratios de l'ensemble de données. Dans de nombreux cas, ils sont construits autour des axes, mais pas nécessairement.

(diagramme à bandes). Affiche un ou plusieurs ensembles de données en les comparant les uns aux autres. Il existe deux possibilités d'affichage dans le cas de plusieurs ensembles - soit sous la forme de plusieurs colonnes adjacentes, soit sous la forme d'une seule, mais divisée en interne selon les proportions des valeurs. Par exemple, le bénéfice annuel de trois entreprises au cours des 5 dernières années ou la part de marché de trois entreprises au cours de la même période.
Exemples : © SmartMoney
Plus d'exemples dans la galerie de modèles
(histogramme). Affiche la distribution d'un jeu de données dans une sélection sous forme de barres. Par exemple, le nombre d'employés de l'entreprise dans plusieurs tranches d'âge.
Exemples : © Art. Lebedev Studio, Grande Encyclopédie Soviétique
Plus d'exemples dans la galerie de modèles
(diagramme circulaire). Affiche le pourcentage occupé par chaque valeur dans l'ensemble de données sous la forme d'un cercle brisé. Par exemple, les parts de marché opérateurs de téléphonie mobile... Peut afficher plusieurs ensembles de données à la fois - dans ce cas, les graphiques sont superposés les uns aux autres et chacun d'eux est plus petit que le précédent. Par exemple, la part de marché des opérateurs cellulaires au cours des 3 dernières années.
Exemples : © Candy Chang, Density Design, GraphJam
Plus d'exemples dans la galerie de modèles
(graphique à bulles). Mélange de graphiques et de tableaux - un ensemble de points correspondant aux valeurs est placé le long de deux axes. Dans ce cas, les points eux-mêmes ne sont pas connectés et ont une valeur différente, qui est définie par le troisième paramètre. Par exemple, comparer le nombre d'articles achetés, le prix d'achat total et le budget total de l'acheteur.
Exemples : © (auteur inconnu), Secret of the Firm, Kommersant.Money
Plus d'exemples dans la galerie de modèles
(tableau des anneaux). Affiche le pourcentage de nombre maximal, qui occupe l'une des valeurs de l'ensemble de données, sous la forme d'un anneau partiellement rempli. Par exemple, le nombre de médailles remportées au championnat est relatif au maximum. Souvent, plusieurs de ces graphiques sont utilisés à la fois, comparant différentes valeurs.
Exemples : © Wired, New York Times
Plus d'exemples dans la galerie de modèles
(tableau de portée). Affiche l'amplitude minimale et maximale des valeurs au sein d'un ensemble de données dans un graphique à barres découpé. Le début de la barre ne se trouve pas sur l'axe horizontal, mais au point de la valeur minimale le long de la verticale. Par exemple, l'étalement du coût mètre carré logements dans différents quartiers de la ville.
Exemples : © Université des sciences appliquées de Potsdam
Plus d'exemples dans la galerie de modèles
(carte radar). Compare les magnitudes de plusieurs valeurs, chacune correspondant à un point sur un axe. Le nombre d'axes correspond au nombre de valeurs, et les points sont reliés par des lignes. Par exemple, comparer la rentabilité de chacun des 8 secteurs d'activité de l'entreprise.
Exemples : © Secret of the Firm, Pedro Monteiro, Main Library at Queen Mary (Université de Londres)
Plus d'exemples dans la galerie de modèles
(nuage de tags). Compare mots clés ou des phrases (valeurs) contenues dans un morceau de texte (ensemble de données), donnant à chacune sa propre taille de police. La taille de la police dépend de la valeur du paramètre. Par exemple, les 25 mots les plus fréquemment mentionnés dans les journaux en décembre 2008.
Exemples : © Flickr, Martin Ignacio Bereciartua
Plus d'exemples dans la galerie de modèles
(carte de chaleur). Compare les valeurs au sein d'un ensemble de données en les peignant avec l'une des couleurs d'un spectre présélectionné. La base est une image ou autre schéma sur lequel les valeurs sont disposées. La couleur dépend de la valeur du paramètre et se superpose le plus souvent sous forme de taches. Par exemple, les pays du monde avec la pression atmosphérique ou les éléments les plus élevés page d'accueil le site sur lequel les utilisateurs cliquent le plus.
Exemples : © Dylan Vester, CrazyEgg
Plus d'exemples dans la galerie de modèles

Arbres et diagrammes de structure

Affiche la structure d'un jeu de données et les relations entre ses éléments.

Graphique et arbre(graphique, arbre). Affiche une hiérarchie de jeux de données dans laquelle les membres sont parents ou enfants les uns des autres. Il est construit sous forme de nœuds reliés par des lignes soit de haut en bas, soit à partir du centre de la composition. Un nœud est généralement affiché sous la forme d'un cercle ou d'un rectangle. Par exemple, un plan du site.
Exemples : © Concept Draw, Karen Leech, (auteur inconnu)
Plus d'exemples dans la galerie de modèles
(carte mentale). Affiche la composition et la structure d'un phénomène ou d'un concept sous la forme d'un graphique, dans lequel chaque nœud a un ou plusieurs enfants. Il s'agit d'un cas particulier de graphe, à la différence près que les branches divergent généralement symétriquement à partir d'un nœud situé au centre de l'image. Par exemple, un synopsis d'un livre de gestion de projet qui reflète son contenu et ses concepts de base.
Exemples : © Adaptive Path, Ethan Hein, Comic vs Audience
Plus d'exemples dans la galerie de modèles
Schémas structurels formalisés... Ils montrent la composition et la structure du système ou de ses parties sous la forme de cartes, qui sont décrites avec divers degrés de détail et sont liées les unes aux autres en tant que parent et enfant. Affiché de manière standardisée - par exemple, en utilisant UML (Unified Modeling Language) ou IDEF1X (Integration Definition for Information Modeling). Par exemple, toutes les entités nécessaires au fonctionnement d'un des modules du système logiciel.
Exemples : © Concept Draw, Wikipédia
Plus d'exemples dans la galerie de modèles
(Diagramme de Venn/Euler). Affiche la relation entre les valeurs d'un ensemble de données sous forme de cercles qui se chevauchent (généralement trois). La zone où tous les cercles se croisent montre ce qui est commun entre eux. Par exemple, l'intersection du respect des délais, du budget et des objectifs est la réussite du projet.
Exemples : © Phil Glockner, Dan Saffer
Plus d'exemples dans la galerie de modèles
(carte arborescente). Affiche une hiérarchie de jeux de données dans laquelle les membres sont parents ou enfants les uns des autres. Il s'affiche sous la forme d'un ensemble de rectangles imbriqués, chacun étant une branche d'un arbre, et ceux qu'il contient sont des enfants et des branches. Les rectangles varient en taille selon le paramètre et ont une couleur qui est spécifiée par l'autre paramètre. Par exemple, une structure détaillée du budget de l'entreprise, qui montre en couleur le pourcentage de variation de chaque élément par rapport à l'année précédente.
Exemples : © Tableau Software, Panopticon, Panopticon
Plus d'exemples dans la galerie de modèles

Diagrammes de visualisation de processus

Montrez un processus consistant en une séquence d'actions. Il peut comprendre un ou plusieurs scénarios d'évolution d'événements.

(diagramme). Affiche les étapes clés par lesquelles passe le processus sous forme de blocs reliés les uns aux autres par des flèches unidirectionnelles. Il est affiché dans un format standardisé, où le type du bloc dépend de son rôle dans le processus. Par exemple, un schéma du processus d'approbation et de publication d'un article au sein de la rédaction.
Exemples : © Density Design, Allen Holub, Concept Draw
Plus d'exemples dans la galerie de modèles
(diagramme). Affiche les étapes clés du processus sous forme de blocs reliés entre eux par des flèches. Affiché sous forme libre lorsque les étapes sont affichées avec des formes libres et que les flèches peuvent être bidirectionnelles ou n'avoir aucune direction. De plus, les blocs peuvent être combinés en groupes. Par exemple, un schéma simplifié pour le mouvement de fonds pour les paiements par SMS.
Exemples : © Tapulous, Le Secret de la Firme, David Armano
Plus d'exemples dans la galerie de modèles
... Affiche les étapes clés d'un processus qui contient un ensemble d'actions répétitives. La partie cyclique est affichée sous forme d'anneau, qui est formé d'étapes reliées par des flèches. Et le début et la fin du processus - entrer et sortir du cercle avec des flèches. Par exemple, la séquence d'un processus d'assurance qualité qui se déroule tout en travaillant sur un produit logiciel.
Exemples : © Fruitful, eStrara, Idiagramme
Plus d'exemples dans la galerie de modèles
(Schéma de Sankey). Montre les étapes clés du processus et l'intensité de son cours dans chacune des sections. Il est affiché sans nœuds, sous forme de lignes de connexion et de branchement d'épaisseur différente (selon la valeur du paramètre). A un certain nombre de points de départ et d'arrivée, et donc de nombreux scénarios de développement. Par exemple, le processus de transfert de chaleur d'une centrale de cogénération à une chaudière, y compris ses pertes dues à diverses raisons.
Exemples : ©, Sankey-diagrams.com, IBM
Plus d'exemples dans la galerie de modèles

Matrices

Ils comparent des valeurs au sein d'un ensemble de données sous la forme d'un tableau.

tableau(matrice). Affiche un ensemble de données sous forme de cellules remplies de ses valeurs, qui forment des lignes et des colonnes. Chaque colonne et ligne a un paramètre correspondant qui définit une cellule spécifique pour la valeur. Par exemple, le budget des services de l'entreprise pour chaque année de son existence.
Exemples : © Izvestia, PresseBox, Elliance
Plus d'exemples dans la galerie de modèles
... Un cas particulier d'une table. Affiche le mois calendaire par nombres et jours de la semaine.
Exemples : © thenonhacker, Yahoo! Bibliothèque de modèles d'interface utilisateur
Plus d'exemples dans la galerie de modèles

Chronogrammes

Affiche la répartition des données dans le temps.

(chronologie). Affiche les valeurs d'un ensemble de données sur un axe horizontal qui correspond au temps. Les segments entre les valeurs peuvent être de n'importe quelle taille. Par exemple, la ligne des années du XXe siècle, sur laquelle sont marqués les grands conflits militaires.
Exemples : © Firm Secret, Rodrigo Ronda Leon, GOOD Magazine
Plus d'exemples dans la galerie de modèles
(diagramme de Gantt). Affiche la séquence, la durée et les heures de début et de fin des jalons et des tâches spécifiques requises pour terminer le projet. Il se présente sous la forme d'une « cascade » d'une ou plusieurs cascades - des blocs reliés par des flèches, disposés en diagonale de haut en bas, de gauche à droite (c'est-à-dire des « escaliers »). De plus, la longueur du bloc dépend du temps nécessaire à l'exécution. Par exemple, les tâches qui doivent être effectuées pour écrire, préparer l'impression et publier un livre. Le diagramme peut également être attribué au groupe de visualisation du processus, mais les deux parties (durée et séquence d'actions) sont également importantes, c'est donc une question de goût.
Exemples : © MS Project, Todd R. Warfel
Plus d'exemples dans la galerie de modèles

Cartes

Affiche des données qui dépendent de la géographie ou de l'architecture d'un certain objet.

... Affiche sous forme schématique la composition et l'emplacement des parties d'un objet géographique. Par exemple, le monde dans son ensemble ou une île.
Exemples : © Google Maps, TeleGeography Research, Flux de données
Plus d'exemples dans la galerie de modèles
... Affiche un objet géographique sous la forme d'une photo satellite ou d'un avion. Par exemple, le monde en général ou la ville.
Exemples : © Google Maps, Yandex.Maps
Plus d'exemples dans la galerie de modèles
... Affiche dans une vue schématique les routes, autoroutes, voies ferrées et autres routes superposées aux contours des objets géographiques. Par exemple, carte de voiture routes de la région.
Exemples : © MapQuest, Yandex.Maps
Plus d'exemples dans la galerie de modèles
... Affiche divers objets sous forme de marqueurs sur la carte du monde, le pays ou la ville. Les objets sont le plus souvent ceux qui ont été construits par l'homme : maisons, commerces, monuments, infrastructures, etc. sur le plan de la ville ; ou des villes sur la carte du pays ; ou pays sur la carte du monde. Presque n'importe quelle carte peut être utilisée comme base, mais généralement des cartes géographiques, photographiques, routières ou topographiques sont utilisées. Par exemple, l'emplacement des bureaux de l'entreprise sur un plan de la ville.
Exemples : © Yandex.Maps, Autokadabra
Plus d'exemples dans la galerie de modèles
(cartogramme). Affiche un jeu de données sous la forme d'une carte schématique, dont chacune des valeurs est associée à un objet géographique. Dans ce cas, la taille et la forme de l'objet dépendent de la valeur de la valeur. Par exemple, une carte du monde où la taille d'un pays dépend de la taille de sa population.
Exemples : © Density Design, (auteur inconnu), Manuel Marino
Plus d'exemples dans la galerie de modèles
(plan d'étage). Affiche sous forme schématique la forme et la structure interne de l'un des étages d'un bâtiment ou d'une autre structure architecturale. Il peut également montrer la disposition des meubles et autres éléments de remplissage de la pièce. Par exemple, un plan d'étage d'un appartement de deux pièces.
Exemples : © Christian’s of Bucks Point, (auteur inconnu), (auteur inconnu)
Plus d'exemples dans la galerie de modèles
... Affiche les arrêts de transports en commun sous la forme d'une ou plusieurs lignes d'intersection couleur différente... La ligne correspond à l'avance une certaine séquence gares. Dans certains cas, il se superpose à une carte géographique simplifiée. Par exemple, un plan de métro.
Diagramme circulaire des connexions(schéma de réseau, schéma d'arc). Affiche les liens au sein d'un ensemble de données sous la forme d'un anneau, sur lesquels des valeurs sont placées. Les valeurs sont reliées par des arcs ou des lignes dans la zone intérieure du cercle. Avec un grand nombre de valeurs, elles peuvent aussi être à l'intérieur de l'anneau, bien que ce soit moins clair. Les liens peuvent également avoir une direction. Par exemple, sont membres d'un groupe sur un réseau social d'amis communs.
Exemples : © Ethan Hein, Ethan Hein, Josef Muller-Brockmann
Plus d'exemples dans la galerie de modèles
... Affiche les liens au sein de l'ensemble de données sous forme de ligne sur laquelle les valeurs sont placées. Les valeurs sont reliées par des arcs en haut et en bas de la ligne. Les liens peuvent également avoir une direction. Ceci est une option de rendu alternative diagramme circulaire connexions - le sens et les tâches sont les mêmes.
Exemples : © Martin Dittus, Andreas Koller & Philipp Steinweber, TeleGeography Research
Plus d'exemples dans la galerie de modèles
... Affiche les relations au sein d'un jeu de données sous la forme d'un globe ou d'une carte géographique, sur laquelle les valeurs sont placées. Les valeurs sont reliées par des arcs si l'image est en 3D, ou par des lignes si la carte est plate. Les liens peuvent également avoir une direction. Par exemple, les routes de tous les aéronefs actuellement en vol.
Exemples : © National Science Foundation, Ensci, MIT Senseable City Lab
Plus d'exemples dans la galerie de modèles
(dendrogramme). Affiche la proximité des valeurs de l'ensemble de données pour l'un des paramètres, en utilisant l'axe Y pour placer les valeurs elles-mêmes, et l'axe X - les valeurs des paramètres. Il s'affiche sous la forme d'un ensemble de lignes horizontales connectées les unes aux autres, qui sont connectées si les valeurs sont les mêmes dans le paramètre. De plus, plus la coïncidence des valeurs est précoce sur l'axe X, plus elles sont proches les unes des autres. Par exemple, comparer les revenus annuels de 30 entreprises.
Exemples : © GUI.ru, New York Times, Kate Jones
Plus d'exemples dans la galerie de modèles

Illustrations

Montrer un processus ou un phénomène sous une forme non formalisée.

... Affiche les étapes clés par lesquelles le processus passe sous la forme de l'intrigue représentée dans l'image. Ou la structure du phénomène sous la forme d'une métaphore visuelle. Essentiellement analogue à un graphique, un diagramme ou un organigramme informel. Par exemple, l'image du cycle de l'eau dans la nature dans un livre d'histoire naturelle.
Exemples : © Athletics NYC, Christian Montenegro, magazine Popular Finance
Plus d'exemples dans la galerie de modèles
... Montre les étapes clés d'un processus ou d'un phénomène séquentiel sous la forme d'un ensemble d'images, dont chacune montre une de ses étapes sous la forme d'un petit tracé. Par exemple, il y a trois étapes dans le processus de stationnement parallèle dans le manuel du conducteur.
Exemples : © École de conduite Scenic Valley, Elliance
Plus d'exemples dans la galerie de modèles

Avec une augmentation de la quantité de données accumulées, même en utilisant des algorithmes de Data Mining arbitrairement puissants et polyvalents, il devient de plus en plus difficile de « digérer » et d'interpréter les résultats obtenus. Et, comme vous le savez, l'une des dispositions du DM est la recherche de modèles pratiquement utiles. Un modèle ne peut devenir pratiquement utile que s'il peut être compris et compris.

Les méthodes de présentation visuelle ou graphique des données comprennent des graphiques, des diagrammes, des tableaux, des rapports, des listes, des diagrammes structurels, des cartes, etc.

Traditionnellement, la visualisation a été considérée comme une aide à l'analyse des données, mais maintenant de plus en plus de recherches parlent de son rôle indépendant.

Les techniques d'imagerie traditionnelles peuvent trouver les applications suivantes :

• présenter des informations à l'utilisateur sous une forme visuelle ;

Décrire de manière compacte les modèles inhérents à l'ensemble de données d'origine ;

• réduire la dimension ou compresser les informations ;

récupérer les lacunes dans l'ensemble de données ;

• trouver du bruit et des valeurs aberrantes dans un ensemble de données.

Techniques d'imagerie

Les méthodes d'imagerie, selon le nombre de mesures utilisées, sont acceptées

classés en deux groupes :

• présentation des données en une, deux et trois dimensions ;

• présentation des données en quatre dimensions ou plus.

Présentation des données en 4+ dimensions

Les représentations de l'information en quatre dimensions et plus sont inaccessibles à la perception humaine. Cependant, des méthodes spéciales ont été développées pour la possibilité d'afficher et de percevoir de telles informations par une personne.

Les modes les plus connus de présentation d'informations multidimensionnelles :

• coordonnées parallèles ;

 « les visages de Tchernov » ;

Tableaux de pétales.

Représentation des caractéristiques spatiales

Une zone de visualisation distincte est la présentation visuelle

caractéristiques spatiales des objets. Dans la plupart des cas, ces fonds mettent en évidence des régions individuelles sur la carte et les désignent de différentes couleurs, en fonction de la valeur de l'indicateur analysé.



La carte est présentée dans une vue d'interface graphique, affichant des données sous la forme d'un paysage en trois dimensions, des formes arbitrairement définies et positionnées (graphiques à barres, chacun avec une hauteur et une couleur individuelles). Cette méthode permet de montrer visuellement les caractéristiques quantitatives et relationnelles de l'espace

données et d'identifier rapidement les tendances de celles-ci.

Processus d'exploration de données. Analyse de domaine. Formulation du problème. Préparation des données.

Processus d'exploration de données. Étapes initiales

Le processus DM est une sorte d'exploration. Comme toute recherche, ce processus comprend certaines étapes, comprenant des éléments de comparaison, de typage, de classement, de généralisation, d'abstraction, de répétition.

Le processus de DM est inextricablement lié au processus de prise de décision.

Le processus DM construit un modèle, et dans le processus de prise de décision, ce modèle est exploité.

Considérez le processus traditionnel de DM. Il comprend les étapes suivantes :

• analyse de la matière ;

 énoncé du problème;

• préparation des données ;

• modèles de construction ;

• validation et évaluation de modèles ;

sélection d'un modèle ;

• application du modèle ;

• Correction et mise à jour du modèle.

Dans cette conférence, nous examinerons de plus près les trois premières étapes du processus de Data Mining,

le reste des étapes sera discuté dans la prochaine leçon.

Étape 1. Analyse du domaine

Étudier est un processus de connaissance d'un domaine, d'un objet ou d'un phénomène dans un but précis.

Le processus de recherche consiste à observer les propriétés des objets afin d'identifier et d'évaluer des relations importantes, du point de vue du sujet-chercheur, régulières entre les indicateurs de ces propriétés.

La solution à tout problème dans le domaine du développement Logiciel devrait commencer par l'étude du domaine.

Domaine- Il s'agit d'un domaine de la réalité mentalement limité, sujet à description ou modélisation et recherche.

Le domaine se compose d'objets qui se distinguent par leurs propriétés et sont dans certaines relations les uns avec les autres ou interagissent d'une manière ou d'une autre.

Domaine fait partie du monde réel, il est infini et contient à la fois

données significatives et non significatives, du point de vue de la recherche menée.

Le chercheur doit pouvoir en isoler une partie significative. Par exemple, lors de la résolution du problème « Dois-je émettre un prêt ? » toutes les données sur la vie privée du client sont importantes, notamment si le conjoint a un emploi, si le client a des enfants mineurs, quel est son niveau d'éducation, etc. Pour résoudre un autre problème bancaire, ces données seront absolument sans importance. La matérialité des données dépend donc du choix du domaine.

Selon la tradition déjà établie, commençons par la définition.

Visualisation des informations- présentation des informations sous forme de graphiques, schémas, schémas structurels, tableaux, cartes, etc.

ecsocman.edu.ru

Pourquoi visualiser les informations ? "Question stupide!" - s'exclamera le lecteur. Bien sûr, le texte avec des images est mieux perçu que le texte "gris", et les images avec du texte sont encore mieux perçues. Ce n'est pas pour rien que nous aimons tous autant les bandes dessinées - après tout, elles nous permettent de saisir littéralement des informations à la volée, apparemment sans le moindre effort mental ! Et rappelez-vous à quel point vous vous souveniez pendant vos études du matériel de ces conférences, qui étaient accompagnés de diapositives !

La première chose qui nous vient à l'esprit lorsque nous parlons de visualisation, ce sont les graphiques et les diagrammes (voici, le pouvoir des associations !). En revanche, seules des données numériques peuvent être visualisées de cette manière ; personne n'est encore parvenu à construire un graphe basé sur du texte connecté. Pour le texte, nous pouvons construire un plan, mettre en évidence les principales pensées (thèses) - faire un bref résumé. Nous parlerons un peu plus tard des inconvénients et des dangers de la prise de notes, mais maintenant nous dirons que si vous combinez le plan et un bref résumé - "accrochez" les thèses sur les branches d'un arbre dont la structure correspond à la structure (plan) du texte, alors nous obtiendrons une excellente diagramme texte dont on se souviendra beaucoup mieux que n'importe quel synopsis. Dans ce cas, les branches joueront le rôle de ces "pistes" - pistes reliant les concepts et les thèses dont nous avons parlé plus tôt.

Rappelez-vous comment nous avons construit des diagrammes UML basés sur la description du système logiciel conçu reçue de ses futurs utilisateurs ? Les images résultantes ont été perçues par les clients et les développeurs beaucoup plus facilement et plus rapidement qu'une description textuelle. De la même manière, vous pouvez "représenter" absolument n'importe quel texte, pas seulement la tâche technique pour le développement du système. L'approche décrite ci-dessus vous permet de présenter visuellement n'importe quel texte - que ce soit un conte de fées, une tâche technique, une conférence, un roman de science-fiction ou les résultats d'une réunion - sous la forme d'un arbre pratique et facile à comprendre . Vous pouvez le construire comme vous le souhaitez - si seulement vous obtenez un schéma clair et compréhensible, qu'il serait bien d'illustrer avec des dessins appropriés.

De tels schémas sont également pratiques à utiliser dans la communication lors de la discussion de questions et de problèmes. Comme le montre la pratique, l'absence de normes de notation claires ne crée absolument aucune difficulté de communication pour les participants aux discussions. Au contraire, l'utilisation de formes non verbales de présentation de l'information permet de se concentrer précisément sur les points clés du problème. Ainsi, la visualisation est l'un des domaines les plus prometteurs pour augmenter l'efficacité de l'analyse, de la présentation, de la perception et de la compréhension de l'information.

Wow, enfin nous en avons fini avec la description fastidieuse des théories scientifiques, des méthodes et des techniques utilisées pour traiter, organiser et visualiser l'information ! La partie précédente du chapitre a beaucoup fatigué à la fois l'auteur et les lecteurs, et néanmoins, c'était nécessaire: ​​en conséquence, nous avons vu que les caractéristiques de notre cerveau sont déjà activement utilisées par les scientifiques dans divers domaines de la science, beaucoup de choses qui nous semblent familiers - Ordinateur personnel, Les interfaces des utilisateurs, base de connaissances, etc. - ont été construits à l'origine en tenant compte de la nature associative de la pensée humaine et de sa tendance à la représentation hiérarchique et à la visualisation de l'information. Mais le summum et l'expression graphique naturelle des processus de pensée humaine est la cartographie mentale, dont nous discutons enfin. Et en même temps, nous essaierons d'élargir notre compréhension des principes de la pensée visuelle.

Avec une augmentation de la quantité de données accumulées, même en utilisant des algorithmes de Data Mining arbitrairement puissants et polyvalents, il devient de plus en plus difficile de « digérer » et d'interpréter les résultats obtenus. Et, comme vous le savez, l'une des dispositions du Data Mining est la recherche de modèles pratiquement utiles. Un modèle ne peut devenir pratiquement utile que s'il peut être compris et compris.

En 1987, à l'initiative du comité technique de l'informatique graphique de l'ACM SIGGRAPH IEEE Computer Society, en lien avec la nécessité d'utiliser de nouvelles méthodes, outils et technologies de données, les tâches correspondantes de la direction de la visualisation ont été formulées. Les méthodes de présentation visuelle ou graphique des données comprennent des graphiques, des diagrammes, des tableaux, des rapports, des listes, des diagrammes structurels, des cartes, etc. Traditionnellement, la visualisation a été considérée comme une aide à l'analyse des données, mais maintenant de plus en plus de recherches parlent de son rôle indépendant.

Les techniques d'imagerie traditionnelles peuvent trouver les applications suivantes :

Ø présenter l'information à l'utilisateur sous une forme visuelle ;

Ø décrire de manière compacte les modèles inhérents à l'ensemble de données d'origine ;

Ø réduire la dimension ou compresser les informations ;

Ø réparer les lacunes dans l'ensemble de données ;

Ø trouver du bruit et des valeurs aberrantes dans un ensemble de données.

Visualisation de l'outil d'exploration de données

Chacun des algorithmes de Data Mining utilise une approche de visualisation spécifique. Au cours de l'utilisation de chacune des méthodes considérées ci-dessus, ou plutôt de leurs implémentations logicielles, nous avons reçu des visualiseurs à l'aide desquels il a été possible d'interpréter les résultats obtenus grâce au travail des méthodes et algorithmes correspondants.

Ø Pour les arbres de décision, c'est un visualiseur d'arbre de décision, une liste de règles, un tableau de contingence.

Ø Pour les cartes Kohonen : cartes d'entrées, sorties, autres cartes spécifiques.

Ø Pour la régression linéaire, la droite de régression agit comme un visualiseur.

Ø Pour le clustering : dendrogrammes, nuages ​​de points.

Les nuages ​​de points et les graphiques sont souvent utilisés pour évaluer les performances d'une méthode.

Toutes ces manières de visualiser ou d'afficher des données peuvent remplir l'une des fonctions suivantes :

Ø sont une illustration de la construction d'un modèle (par exemple, représentant la structure (graphique) d'un réseau de neurones);

Ø aider à interpréter le résultat obtenu ;

Ø sont un moyen d'évaluer la qualité du modèle construit ;

Ø combiner les fonctions listées ci-dessus (arbre de décision, dendrogramme).

Visualisation des modèles d'exploration de données



La première fonction (illustration de la construction d'un modèle), en fait, est une visualisation du modèle de Data Mining. Il existe de nombreuses manières différentes de présenter les modèles, mais la représentation graphique donne à l'utilisateur la "valeur" maximale. L'utilisateur, dans la plupart des cas, n'est pas un spécialiste de la modélisation, le plus souvent il est un expert dans son domaine. Par conséquent, le modèle de Data Mining doit être présenté dans le langage le plus naturel pour lui, ou, au moins, contenir un nombre minimum d'éléments mathématiques et techniques divers.

Ainsi, la disponibilité est l'une des principales caractéristiques du modèle de Data Mining. Malgré cela, il existe également une manière aussi répandue et la plus simple de représenter un modèle comme une "boîte noire". Dans ce cas, l'utilisateur ne comprend pas le comportement du modèle qu'il utilise. Cependant, malgré le malentendu, il obtient le résultat - les modèles révélés. Un exemple classique d'un tel modèle est le modèle de réseau de neurones.

Une autre façon de représenter le modèle est de le présenter de manière intuitive et compréhensible. Dans ce cas, l'utilisateur peut vraiment comprendre ce qui se passe « à l'intérieur » du modèle. Ainsi, il est possible d'assurer sa participation directe au processus. De tels modèles offrent à l'utilisateur la possibilité de discuter ou d'expliquer sa logique avec des collègues, des clients et d'autres utilisateurs.

Comprendre le modèle conduit à comprendre son contenu. Grâce à la compréhension, la confiance dans le modèle augmente. Un exemple classique est un arbre de décision. L'arbre de décision construit améliore réellement la compréhension du modèle, c'est-à-dire utilisé l'outil d'exploration de données.

En plus de la compréhension, ces modèles offrent à l'utilisateur la possibilité d'interagir avec le modèle, de lui poser des questions et d'obtenir des réponses. Un exemple de cette interaction est la fonction de simulation. Grâce au dialogue système-utilisateur, l'utilisateur peut acquérir une compréhension du modèle.

Des exemples d'outils de visualisation avec lesquels vous pouvez évaluer la qualité du modèle sont un nuage de points, un tableau de contingence, un graphique de l'évolution de l'ampleur de l'erreur :

Ø Le nuage de points est un graphique de l'écart des valeurs prédites par le modèle par rapport aux valeurs réelles. Ces graphiques sont utilisés pour les valeurs continues. L'évaluation visuelle de la qualité du modèle construit n'est possible qu'à la fin du processus de construction du modèle.

Ø Le tableau de contingence est utilisé pour évaluer les résultats de la classification. Ces tableaux sont utilisés pour diverses méthodes de classification. L'évaluation de la qualité du modèle construit n'est possible qu'à la fin du processus de construction du modèle.

Ø Graphique de l'évolution de l'ampleur de l'erreur. Le graphique montre le changement de l'ampleur de l'erreur dans le processus de fonctionnement du modèle. Par exemple, lors du fonctionnement des réseaux de neurones, l'utilisateur peut observer l'évolution de l'erreur sur les ensembles d'apprentissage et de test et arrêter l'apprentissage pour éviter le « surapprentissage » du réseau. Ici, l'évaluation de la qualité du modèle et de ses changements peut être évaluée directement dans le processus de construction du modèle.

Des exemples de visualiseurs qui aident à interpréter le résultat sont : la ligne de tendance dans la régression linéaire, les cartes de Kohonen, le nuage de points dans l'analyse de cluster.

Techniques d'imagerie

Les méthodes de visualisation, selon le nombre de mesures utilisées, sont généralement classées en deux groupes :

1. Présentation des données en une, deux et trois dimensions

Ce groupe de méthodes comprend des méthodes bien connues d'affichage d'informations qui sont disponibles pour la perception par l'imagination humaine. Presque tous les outils d'exploration de données modernes incluent des méthodes de présentation visuelle de ce groupe.

Selon le nombre de dimensions de la vue, celles-ci peuvent être les suivantes :

Ø mesure unidimensionnelle, ou 1-D;

Ø mesure bidimensionnelle, ou 2-D;

Ø Mesure 3D ou projection, ou 3-D.

Il convient de noter que l'œil humain perçoit le plus naturellement les représentations bidimensionnelles de l'information.

Lors de l'utilisation d'une présentation d'informations en deux et trois dimensions, l'utilisateur a la possibilité de voir les modèles de l'ensemble de données :

Ø sa structure en cluster et la répartition des objets en classes (par exemple, sur un nuage de points) ;

Ø caractéristiques topologiques ;

Ø présence de tendances;

Ø des informations sur l'arrangement mutuel des données ;

Ø l'existence d'autres dépendances inhérentes au jeu de données étudié.

Si l'ensemble de données a plus de trois dimensions, les options suivantes sont possibles :

ü l'utilisation de méthodes multidimensionnelles de présentation de l'information (elles sont discutées ci-dessous) ;

ü réduction de dimension à une représentation à une, deux ou trois dimensions. Il existe différentes manières de réduire la dimension. Les cartes de Kohonen auto-organisées sont utilisées pour réduire la dimensionnalité et visualiser simultanément les informations sur une carte en deux dimensions.

2. Présentation des données en 4+ dimensions

Les représentations de l'information en quatre dimensions et plus sont inaccessibles à la perception humaine. Cependant, des méthodes spéciales ont été développées pour la possibilité d'afficher et de percevoir de telles informations par une personne.

Vous avez aimé l'article ? A partager entre amis :