Méthode sémantique pour mesurer des informations: essence, concepts de base et propriétés. Ce que nous ferons avec le matériau résultant. Groupes à usage général

L'information est quoi? À quoi repose-t-il? Quels objectifs poursuivent et les tâches effectuent? Tout cela nous parlerons dans le cadre de cet article.

informations générales

Dans quels cas est appliqué mode sémantique Mesures d'information? L'essence des informations est utilisée, intéresse le côté significatif du message reçu - voici les indications de son application. Mais pour commencer, donnons la clarification de ce qu'il représente. Il convient de noter que la méthode sémantique de mesure d'informations est une approche formalisée difficile, qui n'a pas encore été entièrement formée. Il est utilisé afin de mesurer la quantité de sens dans les données obtenues. En d'autres termes, quelle quantité d'informations de l'obtention est nécessaire dans ce cas. Cette approche est utilisée pour déterminer le côté significatif des informations reçues. Et si nous parlons de la méthode sémantique de mesure des informations, le concept de thésaurus est utilisé, qui est inextricablement lié au sujet considéré. Qu'est-ce que cela représente?

Thésaurus

Je veux faire une petite introduction et répondre à une question sur la méthode sémantique de mesure des informations. Qui est-il introduit? Il a proposé d'utiliser ce fondateur de méthode Cybernetics Norbert Wiener, mais il a reçu un développement important sous l'influence de notre compatriote A. Yu. Schreidera. Quel est le nom utilisé pour désigner l'ensemble des informations fournies par le destinataire. Si vous rapportez le Thesaurus avec le contenu du message qui est venu, vous pouvez savoir combien il a réduit l'incertitude. Je voudrais corriger une erreur, qui tombe souvent dans un grand nombre de personnes. Ils croient donc que la méthode sémantique de mesure d'informations est introduite par Claude Shannon. On ignore exactement comment cette illusion est apparue, mais cette opinion est incorrecte. Claude Shannon a introduit une manière statistique de mesurer les informations, dont le «héritier» est considéré comme sémantique.

Approche graphique pour déterminer la quantité d'informations sémantiques dans le message reçu

Pourquoi avez-vous besoin de dessiner quelque chose? La méthode de mesure sémantique utilise une telle opportunité pour une fourniture visuelle de données sur l'utilité des données sous forme de dessins facilement compris. Qu'est-ce que cela signifie dans la pratique? Pour expliquer l'état des choses, dépendance sous la forme d'un graphique. Si l'utilisateur n'a aucune connaissance de l'essence du message, qui a été obtenu (égale zéro), le volume d'informations sémantiques sera égal à la même valeur. Est-il possible de trouver la valeur optimale? Oui! Tellement appelé Thesaurus, où le volume d'informations sémantiques est maximum. Considérons un petit exemple. Supposons que l'utilisateur ait reçu un message écrit dans une langue étrangère inconnue ou une personne peut lire ce qui est écrit là-bas, mais ce n'est plus une nouvelle pour lui, car tout cela est connu. Dans de tels cas, il est suggéré que le message contienne zéro information sémantique.

Développement historique

Probablement, il était nécessaire de parler un peu plus, mais il n'était pas trop tard pour se rattraper. Initialement, la méthode sémantique de mesure d'informations a été introduite par Ralph Hartley en 1928. Il a déjà été mentionné que Claude Shannon mentionne souvent comme le fondateur. Pourquoi une telle confusion a-t-elle eu lieu? Le fait est que, bien que la méthode sémantique de mesure des informations et a été introduite par Ralph Hartley en 1928, Claude Shannon et Warren Weaver ont été résumés en 1948. Après cela, le fondateur de Cybernetics Norbert Wiener a façonné l'idée d'une méthode Thesaousius, qui a reçu la plus grande reconnaissance sous la forme d'une mesure développée par Yu. I. Schneder. Il convient de noter que pour le comprendre, il est suffisamment nécessaire haut niveau Connaissances.

Performance

Qu'est-ce qui nous donne une méthode théusausuri dans la pratique? C'est une réelle confirmation de la thèse selon laquelle les informations ont une telle propriété comme la relativité. Il convient de noter qu'il a une valeur relative (ou subjective). Pour obtenir de manière objective d'évaluer les informations scientifiques, introduisait le concept de Texaurus universel. Son degré de changement et montre l'importance de la connaissance que l'humanité reçoit. Dans le même temps, il est impossible de dire exactement quel résultat final (ou intermédiaire) peut être obtenu à partir d'informations. Prendre, par exemple, des ordinateurs. L'équipement informatique a été créé sur la base de la technologie de la lampe et de l'état de morsure de chaque élément structurel Et était à l'origine utilisé pour effectuer des calculs. Maintenant, presque toutes les personnes ont quelque chose qui fonctionne sur la base de cette technologie: radio, téléphone, ordinateur, télévision, ordinateur portable. Même les réfrigérateurs modernes, les assiettes et les lavabos contiennent quelques appareils électroniques, qui reposent sur le travail qui réside des informations sur la facilitation de l'utilisation des données de périphériques domestiques.

Approche scientifique

Où est la méthode sémantique pour mesurer des informations? Informatique - C'est la science qui est engagée dans divers aspects de cette question. Quelle est la fonctionnalité? La base de la méthode est basée sur l'utilisation du système "Vérité / Fall", ou le système de bits "Unité / zéro". Lorsqu'une certaine information est reçue, elle est divisée en blocs distincts, appelés parts de la parole: mots, syllabes et similaires. Chaque unité reçoit une certaine valeur. Considérons un petit exemple. Près de deux amis. On appelle la seconde avec les mots: "Demain nous avons un jour de congé." Quand des jours pour le repos - tout le monde sait. Par conséquent, la valeur de ces informations est nulle. Mais si la seconde indique que cela fonctionne demain, alors pour le premier ce sera une surprise. En effet, dans ce cas, il se peut que ce plan soit cassé, qui construit une personne, par exemple, d'aller au bowling ou à creuser dans l'atelier. Chaque partie de l'exemple décrit peut être décrite à l'aide d'unités et de zéros.

Concepts d'exploitation

Mais ce qui est utilisé encore, à l'exception du thésaurus? Quoi d'autre avez-vous besoin de savoir pour comprendre la méthode sémantique de mesurer des informations? Les concepts de base peuvent encore être explorés - ce sont des systèmes emblématiques. Sous eux comprennent les moyens d'exprimer une signification, tels que les règles d'interprétation des signes ou de leurs combinaisons. Regardons un autre exemple d'informatique. Les ordinateurs fonctionnent avec des zéros et des unités conditionnelles. En substance, il s'agit d'une tension faible et élevée qui est fournie aux composants de l'équipement. Et ils transmettent ces unités et zéros sans fin et bord. Comment faire une différence entre eux? La réponse à elle a été trouvée - interrompt. Lorsque les mêmes informations sont transmises, il éteint différents blocs tels que des mots, des phrases et des valeurs individuelles. Dans la parole humaine orale, des pauses sont également utilisées pour casser les données en blocs séparés. Ils sont si invisibles que la plupart d'entre eux nous remarquons sur le "Automatique". Dans la lettre à cette fin, les points et les virgules sont servis.

Caractéristiques

Soulevons le sujet des propriétés qui ont une méthode sémantique pour mesurer des informations. Nous savons déjà que c'est le nom d'une approche spéciale qui évalue l'importance de l'information. Est-il possible de dire que les données qui seront évaluées de cette manière seront objectives? Non, ce n'est pas vrai. L'information est subjective. Regardons cela sur l'exemple de l'école. Il y a un excellent étudiant qui va de l'avant sur le programme approuvé et le médiateur moyen, qui étudie ce qui est présenté en classe. La première majorité des informations qu'il recevra à l'école sera un intérêt assez faible, car elle le sait déjà et ne l'entend pas pour la première fois / lit. Par conséquent, sur le niveau subjectif, il ne sera pas très utile pour lui (en raison des commentaires individuels de l'enseignant, qu'il a noté lors de la présentation de son sujet). Tandis que middling nouvelle information Quelque chose entendit seulement à distance, donc pour cela, la valeur des données qui seront faites dans les leçons, un ordre de grandeur plus.

Conclusion

Il convient de noter qu'en informatique, la méthode sémantique de mesure des informations n'est pas la seule option dans laquelle vous pouvez résoudre les tâches existantes. Le choix doit dépendre des objectifs fixés et des opportunités présentes. Par conséquent, si le sujet est intéressé ou si vous en avez besoin, vous ne pouvez plus que l'étudier plus en détail et savoir quelles autres moyens de mesurer les informations, à l'exception de Sémantican, existent.

Pour mesurer des informations, deux paramètres sont entrés: la quantité d'informations i et la quantité de données v.

Ces paramètres ont des expressions et une interprétation différentes en fonction du formulaire d'adéquation à l'étude.

Adéquation syntaxique. Il affiche les caractéristiques structurelles formelles des informations et n'affecte pas son contenu sémantique. Le niveau de syntaxe prend en compte le type de support et la méthode de présentation d'informations, de la vitesse de transmission et de traitement, la taille des codes de présentation des informations, la fiabilité et la précision de la transformation de ces codes, etc.

Les informations considérées uniquement avec les positions syntaxiques sont généralement appelées données, car cela n'a pas d'importance au sens propre.

Sémantique (signification) adéquation. Ce formulaire détermine le degré de conformité de l'image d'objet et de l'objet lui-même. L'aspect sémantique implique l'examen du sens de l'information. À ce niveau, les informations qui reflètent les informations sont analysées, des communications sémantiques sont prises en compte. En informatique, des communications sémantiques sont établies entre les codes de soumission de code. Ce formulaire sert à former des concepts et des idées, identifiant le sens, le contenu de l'information et sa généralisation.

Adéquation pragmatique (consommateur). Il reflète le ratio d'informations et de son consommateur, la conformité des informations de l'objectif de gestion, qui est basée sur elle. Les propriétés pragmatiques des informations ne se manifestent que s'il y a une unité d'information (objet), des objectifs des utilisateurs et de la gestion.

Aspect pragmatique La considération est associée à la valeur, à l'utilité de l'utilisation d'informations lors de l'élaboration d'une décision de consommateur d'atteindre son objectif. De ce point de vue, les propriétés de consommation d'informations sont analysées. Cette forme d'adéquation est directement liée à utilisation pratique informations, avec la conformité de sa fonction cible du système.

Chaque forme d'adéquation correspond à sa mesure du nombre de volumes d'informations et de données (Fig. 2.1).

Figure. 2.1. Mesures d'information

2.2.1. Mesure syntaxique de l'information

Mesure syntaxique Les quantités d'informations fonctionnent avec une information impersonnelle qui n'exprime pas l'attitude sémantique envers l'objet.

La quantité de données V D dans le message est mesurée par le nombre de caractères (décharges) dans ce message. DANS divers systèmes La décharge numéro un a un poids différent et, en conséquence, une unité de mesure des données change:

  • dans système binaire Nombre d'unité de mesure - BITS ( Bit. - chiffre binaire - décharge binaire);
  • dans le système de nombres décimaux, l'unité est un régime alimentaire (décharge décimale).

Exemple. Le message dans le système binaire sous la forme d'un code binaire huit bits 10111011 a un volume de données V D \u003d 8 bits.

Le message dans le système décimal sous la forme d'un numéro à six chiffres 275903 a la quantité de données V D \u003d 6 DIT.

La quantité d'informations est déterminée par la formule:

où h (α) est entropie, c'est-à-dire La quantité d'informations est mesurée en changeant (diminution) l'incertitude de l'état du système.

L'entropie du système H (α), qui a N états éventuels, selon la formule Shannon, est égale à:

où p i est la probabilité que le système soit dans l'état I -M.

Pour le cas où tous les états du système sont également égaux, son entropie est déterminée par le ratio

où n est le nombre de toutes sortes d'états affichés;

m est la base du système de numéros (une variété de caractères utilisés dans l'alphabet);

n - Le nombre de décharges (caractères) dans le message.

2.2.2. Mesure sémantique de l'information

Pour mesurer le contenu sémantique de l'information, c'est-à-dire Ses quantités au niveau sémantique, la plus reconnue a reçu la mesure thesaousurus, qui lie les propriétés sémantiques des informations avec la capacité de l'utilisateur à recevoir un message reçu. Pour cela utilise le concept utilisateur de Tezaurus.

Thésaurus est un ensemble d'informations que l'utilisateur ou le système a.

Selon les ratios de la teneur sémantique des informations S et le thésaurus de l'utilisateur S P, le nombre d'informations sémantiques I avec perçu par l'utilisateur et est inclus dans l'avenir de son thésaurus. La nature d'une telle dépendance est illustrée à la Fig.2.2:

  • À S P \u003d 0, l'utilisateur ne percevrait pas, ne comprend pas les informations entrantes;
  • lorsque s p → ∞, l'utilisateur sait tout, les informations entrantes ne sont pas nécessaires.

Figure. 2.2. La dépendance du nombre d'informations sémantiques perçues par le consommateur, de son thésaurus i c \u003d f (s p)

Lors de l'évaluation d'un aspect sémantique (significatif) de l'information, il est nécessaire de s'efforcer de la coordination des valeurs de s et s p.

La mesure relative du nombre d'informations sémantiques peut être un coefficient de contenu C, qui est défini comme le ratio du nombre d'informations sémantiques à son volume:

2.2.3. Mesure pragmatique de l'information

Cette mesure détermine l'utilité des informations (valeur) pour atteindre l'objectif de l'utilisateur. Cette mesure est également la valeur relative causée par les caractéristiques de l'utilisation d'informations dans un système particulier. La valeur des informations est souhaitable de mesurer dans les mêmes unités (ou près d'eux), dans laquelle la fonction cible est mesurée.

Pour comparer les mesures d'information introduites seront présentées dans le tableau. 2.1.

Tableau 2.1. Unités de mesure d'informations et d'exemples

Mesurer les informations Unités Exemples (pour la région de l'ordinateur)
Syntaxe:

approche de Shannon

approche informatique

Le degré de réduction de l'incertitude Probabilité d'un événement
Unités de présentation d'informations Bit, octet, krib, etc.
Sémantique Thésaurus Paquet logiciel appliqué, ordinateur personnel, réseaux informatiques etc.
Indicateurs économiques Rentabilité, performance, taux d'amortissement, etc.
Pragmatique User de la valeur Expression monétaire
Capacité de la mémoire, performance informatique, taux de transfert de données, etc. Temps de traitement de l'information et prise de décision

en moyenne par état, appelé entropie des informations de source discrète

méthodes.

H p je me papille i

i 1 N.

Si vous vous concentrez à nouveau sur la mesure de l'incertitude dans des unités binaires, la base du logarithme doit être prise égale à deux.

H P ILOG 2 P i

i 1 N.

Avec des élections équivalentes tout

p journal.

et la formule (5) est convertie en formule R. Hartley (2):

1 log2.

N log2.

La mesure proposée a été nommée entropie non par hasard. Le fait est que la structure formelle de l'expression (4) coïncide avec l'entropie du système physique défini par le bombardon précédemment. Selon la deuxième loi de la thermodynamique, l'entropie de l'espace fermé est déterminée

P i 1.

roster, T.

vous pouvez écrire comme

p iLn.

i 1 N.

Cette formule coïncide complètement avec (4)

Dans les deux cas, la valeur caractérise le degré de diversité du système.

Utilisation des formules (3) et (5), vous pouvez déterminer la redondance de l'alphabet source

Qui montre à quel point les caractères sont appliqués de manière rationnelle. cet alphabet:

) - l'entropie maximale possible déterminée par la formule (3);

() - entropie

la source déterminée par formule (5).

L'essence de cette mesure est qu'avec un choix équivalent, la même charge d'informations sur le signe peut être assurée à l'aide de l'alphabet d'un volume plus petit que dans le cas d'un choix non équilibré.

Informations de niveau sémantique

Pour mesurer le contenu sémantique de l'information, c'est-à-dire Ses quantités au niveau sémantique, le plus courant était la mesure théusausuri, qui lie les propriétés sémantiques des informations avec la capacité de l'utilisateur à recevoir un message reçu. En effet, pour comprendre et utiliser les informations reçues, le destinataire doit avoir une certaine marge de connaissances. L'ignorance complète du sujet ne vous permet pas d'extraire des informations utiles du message reçu sur ce sujet. Comme la connaissance des connaissances sur le sujet grandit et le nombre informations utilesextraire du message.

Si vous appelez les connaissances disponibles au destinataire à propos de ce sujet "Thésaureur" (c'est-à-dire un certain arc de mots, concepts, noms d'objets liés aux obligations sémantiques), la quantité d'informations contenues dans un certain message peut être estimée par le degré de changement de thésaurus individuel sous l'influence de ce message.

Thésaurus - Un ensemble d'informations que l'utilisateur a ou le système a.

En d'autres termes, le nombre d'informations sémantiques récupérées par le destinataire des messages entrants dépend du degré de préparation de son thésaurus à percevoir de telles informations.

Selon les relations entre la teneur sémantique d'informations et le thésaurus de l'utilisateur, le nombre d'informations sémantiques perçues par l'utilisateur et est incluse à l'avenir de son thésaurus. La nature d'une telle dépendance est illustrée à la figure 3. Pensez à deux cas limites lorsque le nombre d'informations sémantiques est égal

Figure 3 - Dépendance du nombre d'informations sémantiques perçues par le consommateur, de son thésaurus ()

Le nombre maximum de consommateurs d'informations sémantiques acquiert

herrer son contenu sémantique avec son thésaurus (), lorsque les informations entrantes sont compréhensibles pour l'utilisateur et portent des informations auparavant (absentes dans ses thésaurus).

Par conséquent, le nombre d'informations sémantiques dans le message, le nombre de nouvelles connaissances gagnées par l'utilisateur est relatif. Le même message peut avoir une teneur sémantique pour un utilisateur compétent et sans signification pour l'utilisateur incompétent.

Lors de l'évaluation d'un aspect sémantique (significatif) de l'information, il est nécessaire de rechercher la coordination des valeurs et.

La mesure relative du nombre d'informations sémantiques est le coefficient de significatif, qui est défini comme le ratio du nombre d'informations sémantiques à son volume:

Une autre approche des estimations sémantiques des informations développées dans les études scientifiques est que, comme l'indicateur principal de la valeur sémantique des informations contenues dans le document analysé (rapport, publication), le nombre de références à celui-ci dans d'autres documents est effectué. Des indicateurs spécifiques sont formés sur la base d'un traitement statistique du nombre de références dans divers échantillons.

Informations sur le niveau pragmatique

Cette mesure détermine l'utilité des informations (valeur) pour atteindre l'objectif de l'utilisateur. C'est également la valeur relative causée par les caractéristiques de l'utilisation de ces informations dans un système particulier.

A. Kharkevich, a suggéré que l'un des premiers scientifiques nationaux à ce problème a suggéré que la quantité d'informations nécessaires pour atteindre l'objectif, c'est-à-dire Calculer l'incrément de la probabilité d'atteindre l'objectif. Donc si

Ainsi, la valeur des informations est mesurée en unités d'informations, dans ce cas dans les bits.

L'expression (7) peut être considérée comme le résultat de la normalisation du nombre de résultats. L'explication de la figure 4 montre trois régimes sur lesquels les mêmes valeurs du nombre de résultats 2 et 6 sont données pour les points 0 et 1, respectivement. Position droite - point 0. Sur la base des informations reçues, la transition vers le point est faite 1. L'objectif est indiqué par la croix. Les résultats favorables sont représentés par des lignes menant à l'objectif. Nous définissons la valeur des informations reçues dans les trois cas:

a) Le nombre de résultats favorables est trois:

et donc,

b) Il y a un résultat favorable:

c) Le nombre de résultats favorables est quatre:

Dans l'exemple, b) une valeur négative d'informations (informations négatives) a été obtenue. Ces informations qui augmentent l'incertitude initiale et réduisant la probabilité d'atteindre la cible est appelée désinformation. Ainsi, dans l'exemple), nous avons une désinformation dans une unité binaire de 1,58.

Problèmes de problème d'information

Dans la mise en œuvre processus d'information Il y a toujours un transfert d'informations dans l'espace et le temps de la source d'informations au récepteur (destinataire). Dans le même temps, divers signes ou symboles, tels qu'une langue naturelle ou artificielle (formelle), qui peut être exprimée sous une forme, sont utilisés pour transmettre des informations.

Un message- la forme de présentation d'informations sous la forme d'un ensemble de signes (symboles) utilisés pour transmettre.

Message comme une totalité des signes du point de vue de la sémiotique (de grec. seméion -signe, signe) - La science engagée dans l'étude des propriétés des signes et des systèmes emblématiques, peut être étudiée à trois niveaux:

1) syntaxiquelorsque les propriétés internes des messages sont considérées, c'est-à-dire la relation entre les signes reflétant la structure de ce système de caractères. Les propriétés externes sont étudiées sur des niveaux sémantiques et pragmatiques;

2) sémantiqueoù la relation entre les signes et les objets indiqués par eux, actions, qualités, c'est-à-dire la teneur sémantique du message, son attitude envers la source d'information;

3) pragmatiquelorsque les relations entre le message et le destinataire sont considérées, c'est-à-dire le contenu du consommateur du message, son attitude envers le destinataire.

Ainsi, étant donné la configuration des problèmes de transmission d'informations avec les niveaux d'étude des systèmes iconiques, ils sont divisés en trois niveaux: syntaxique, sémantique et pragmatique.

Problèmes niveau syntaxiquese rapporter à la création de fondements théoriques de la construction systèmes d'information, les principaux indicateurs du fonctionnement dont seraient proches du maximum possible, ainsi que d'amélioration systèmes existants Afin d'accroître l'efficacité de leur utilisation. C'est propre problèmes techniques Améliorer les méthodes de messagerie et leur transporteur de matériaux - des signaux. À ce niveau, nous examinons les problèmes de livraison au destinataire des messages en tant que jeu de signes, tout en tenant compte du type de support et de la méthode de présentation des informations, du taux de transfert et du traitement, la taille des codes de présentation des informations, La fiabilité et la précision de la transformation de ces codes, etc., entièrement résumées de la teneur sémantique des messages et de leur destination cible. À ce niveau, les informations considérées uniquement à partir des positions syntaxiques sont généralement appelées données, car le sens du sens n'a pas d'importance.

La théorie de l'information moderne explore essentiellement le problème de ce niveau particulier. Il repose sur le concept de "quantité d'informations", qui est la mesure de la fréquence de l'utilisation des signes, qui ne reflète aucun sens ni l'importance des messages transmis. À cet égard, il est parfois dit que la théorie de l'information moderne est sur le niveau syntaxique.

Problèmes niveau sémantiqueassocié à la formalisation et en tenant compte de la signification des informations transmises, déterminant le degré de conformité de l'objet de l'objet et de l'objet lui-même. Sur le ce niveau Les informations qui reflètent les informations sont analysées, les communications sémantiques sont considérées, les concepts et la soumission sont formés, le sens, le contenu des informations est détecté, sa généralisation est effectuée.

Les problèmes de ce niveau sont extrêmement complexes, car le contenu sémantique de l'information dépend davantage du destinataire que de la sémantique du message soumis dans n'importe quelle langue.

Le niveau pragmatique s'intéresse aux conséquences de l'obtention et de l'utilisation de ces informations par le consommateur. Les problèmes de ce niveau sont associés à la détermination de la valeur et de l'utilité d'utiliser des informations lors du développement d'une solution de consommation pour atteindre son objectif. La grande complexité est cette valeur, l'utilité des informations peut être complètement différente pour différents destinataires et, en outre, cela dépend d'un certain nombre de facteurs, tels que la rapidité de sa livraison et de sa utilisation. Les exigences élevées pour l'information La vitesse de livraison sont souvent dictées par le fait que l'exposition au contrôle doit être effectuée en temps réel, c'est-à-dire avec la vitesse de modification de l'état des objets ou des processus gérés. Les retards dans la livraison ou l'utilisation d'informations peuvent avoir des conséquences catastrophiques.

Comme indiqué précédemment, le concept d'informations peut être considéré sous diverses restrictions imposées à ses propriétés, c'est-à-dire À différents niveaux de considération. Fondamentalement, trois niveaux sont mis en évidence - syntaxique, sémantique et pragmatique. En conséquence, diverses estimations s'appliquent à chacune d'elles pour déterminer le nombre d'informations.

Au niveau syntaxiste, des méthodes probabilistes sont utilisées pour évaluer le nombre d'informations, qui ne tiennent compte que les propriétés probabilistes des informations et ne prennent pas en compte l'autre (contenu sémantique, utilité, pertinence, etc.). Développé au milieu de xxv. Mathématiques et, en particulier, des méthodes probabilistes ont permis de former une approche visant à évaluer le nombre d'informations que l'incertitude des connaissances réduisent.

Une telle approche, également appelée probabiliste, postule le principe: si un message entraîne une diminution de l'incertitude de nos connaissances, on peut affirmer que ce message contient des informations. Dans ce cas, les messages contiennent des informations sur tous les événements pouvant être réalisés avec différentes probabilités.

La formule permettant de déterminer le nombre d'informations pour les événements avec diverses probabilités et reçue de la source discrète d'informations a été offerte par le Scientifique américain K. Shannon en 1948. Selon cette formule, la quantité d'informations peut être déterminée comme suit:

JE. - quantité d'informations; N. - le nombre d'événements possibles (messages); p i. - la probabilité d'événements individuels (messages).

La quantité d'informations est déterminée à l'aide de la formule (2.1) ne prend qu'une valeur positive. Étant donné que la probabilité d'événements individuels est inférieure à une unité, le journal d'expression 2 est une valeur négative et d'obtenir une valeur positive de la quantité d'informations dans la formule (2.1) avant que la quantité du montant ne vaut la valeur " signe moins.

Si la probabilité de l'apparition d'événements individuels est la même et forment un groupe complet d'événements, c'est-à-dire

cette formule (2.1) est convertie en formule R. Hartley:

Dans les formules (2.1) et (2.2) la relation entre la quantité d'informations JE. Et en conséquence, la probabilité (ou la quantité) d'événements individuels est exprimée à l'aide du logarithme.

L'utilisation de logarithmes dans les formules (2.1) et (2.2) peut être expliquée comme suit. Pour la simplicité du raisonnement, nous utilisons la relation (2.2). Nous assignerons systématiquement un argument N. Valeurs sélectionnées, par exemple, à partir d'un certain nombre de chiffres: 1, 2, 4, 8, 16, 32, 64, etc. Pour déterminer quel événement de N. Des événements égaux ont eu lieu, pour chaque numéro d'un numéro, il est nécessaire de produire de manière séquentielle des opérations de sélection à partir de deux événements possibles.

Donc, comme N. \u003d 1 Le nombre d'opérations sera égal à 0 (la probabilité de l'événement est de 1), avec N. \u003d 2, le nombre d'opérations sera égal à 1, avec N. \u003d 4 Le nombre d'opérations sera 2, quand N. \u003d 8, le nombre d'opérations sera égal à 3, etc. Ainsi, nous obtenons le nombre de nombres suivants: 0, 1, 2, 3, 4, 5, 6, etc., qui peuvent être considérés comme des valeurs appropriées de la fonction JE. En relation (2.2).

La séquence des valeurs des nombres que l'argument prend N.est une série connue en mathématiques sous forme de nombre de numéros formant une progression géométrique et la séquence des valeurs des nombres qui reçoivent la fonction JE.sera proche, formant une progression arithmétique. Ainsi, le logarithme des formules (2.1) et (2.2) établit la relation entre les lignes représentant la progression géométrique et arithmétique, qui est assez bien connue en mathématiques.

Pour une détermination quantitative (estimation) de toute taille physique, il est nécessaire de déterminer l'unité de mesure, qui, dans la théorie des mesures, est appelée. les mesures .


Comme indiqué précédemment, des informations avant le traitement, la transmission et le stockage doivent être codés.

Le codage est effectué à l'aide d'alphabets spéciaux (systèmes emblématiques). En informatique qui étudie les processus d'obtention, de traitement, de transmission et de stockage des informations à l'aide de systèmes informatiques (ordinateur), un codage binaire est principalement utilisé, qui utilise un système de signalisation, composé de deux caractères 0 et 1. Pour cette raison, dans les formules (2.1) et (2.2) Le numéro 2 est utilisé comme base du logarithme.

Sur la base de l'approche de probabilité de la détermination du nombre d'informations, ces deux symboles du système de signes binaires peuvent être considérés comme deux événements possibles différents. Par conséquent, la quantité d'informations est prise par un tel nombre d'informations contenant un message qui contient un message Réduit l'incertitude des connaissances deux fois (avant de recevoir les événements, leur probabilité est de 0, 5, après réception - 1, une incertitude diminue, respectivement: 1 / 0,5 \u003d 2, I.e. 2 fois). Une telle unité de mesure des informations est appelée un peu (de mots anglais chiffre binaire. - chiffre binaire). Ainsi, comme mesure pour évaluer le nombre d'informations sur le niveau syntaxique, sous l'état du codage binaire, un bit est pris.

La prochaine unité de mesure de la mesure de la quantité d'informations est l'octet, qui est une séquence composée de huit bits, c'est-à-dire

1 octet \u003d 2 3 bits \u003d 8 bits.

Dans l'informatique, plusieurs octets de l'unité de mesure de la quantité d'informations sont également largement utilisés, cependant, contrairement au système métrique, un coefficient 10n est utilisé comme plusieurs unités, où n \u003d 3, 6, 9, etc. ., Dans plusieurs unités de mesure des informations, le coefficient 2N est utilisé. Cette sélection s'explique par le fait que l'ordinateur fonctionne principalement en nombre non en décimal, mais dans un système de numéros binaires.

L'octet multiple de l'unité de mesure de la quantité d'informations est entré comme suit:

1 kilobyte (KB) \u003d 210 octets \u003d 1024 octets;

1 mégaoctet (MB) \u003d 210 kb \u003d 1024 kb;

1 gigaoctet (GB) \u003d 210 mb \u003d 1024 Mo;

1 téraoctet (TB) \u003d 210 gb \u003d 1024 Go;

1 pédiable (PBB) \u003d 210 TB \u003d 1024 To;

1 examen (Evail) \u003d 210 BBB \u003d 1024 PBB.

Unités de mesure de la quantité d'informations, dans le titre dont le préfixe de CILO, "Mega", etc., en termes de théorie de la mesure n'est pas correcte, car ces consoles sont utilisées dans un système métrique de mesures dans lesquelles le coefficient est utilisé comme multiples de plusieurs unités 10 N, où n \u003d 3, 6, 9, etc. Éliminer cette organisation internationale incorrecte Commission internationale en électrotechniqueLa création de normes pour l'industrie des technologies électroniques a approuvé un certain nombre de nouvelles consoles pour des parts de mesure du nombre d'informations: Kibi (Kibi), MUBI (MEBI), HIBI (GIBI), TEBY (TEBI), Peti (Peti), EXBI (EXBI). Cependant, tandis que les anciennes désignations de mesures de mesure de la quantité d'informations sont utilisées et qu'il faut du temps pour s'assurer que les nouveaux noms sont utilisés largement appliqués.

Une approche probabiliste est utilisée pour déterminer le nombre d'informations fournies par les systèmes emblématiques. Si nous considérons les symboles de l'alphabet autant de messages possibles n, la quantité d'informations qui porte un signe alphabet peut être déterminée par formule (2.1). Si chaque signe de l'alphabet est égal au message, la formule (2.2) peut être utilisée dans le texte du message pour déterminer le nombre d'informations.

La quantité d'informations qu'un signe de l'alphabet porte, plus les signes plus importants entrent dans cet alphabet. Le nombre de signes inclus dans l'alphabet est appelé pouvoir de l'alphabet. La quantité d'informations (volume d'informations) contenue dans un message codé avec un système de signe et contient un certain nombre de caractères (symboles) est déterminé à l'aide de la formule:

V. - informations d'information; JE.= journal 2 N., volume d'informations d'un symbole (signe); À - le nombre de caractères (caractères) dans le message; N. - Puissance de l'alphabet (nombre de signes dans l'alphabet).

Avez-vous aimé l'article? Partager avec des amis: