Même les termes informatiques les plus à la mode doivent être utilisés de manière appropriée et aussi correcte que possible. Au moins pour ne pas tromper les consommateurs. Il est définitivement devenu à la mode de se classer comme un fabricant de solutions DLP. Par exemple, lors du récent salon CeBIT-2008, l'inscription «solution DLP» figurait souvent sur les stands des fabricants non seulement d'antivirus et de serveurs proxy peu connus dans le monde, mais même de pare-feu. Parfois, on avait l'impression qu'au coin de la rue, on pouvait voir une sorte d'éjecteur de CD (un programme qui contrôle l'ouverture d'un lecteur de CD) avec le fier slogan d'une solution DLP d'entreprise. Et, curieusement, chacun de ces fabricants, en règle générale, avait une explication plus ou moins logique pour un tel positionnement de leur produit (naturellement, en plus du désir d'obtenir un «gesheft» d'un terme à la mode).

Avant de considérer le marché des fabricants de systèmes DLP et ses principaux acteurs, il est nécessaire de décider ce que nous entendons par un système DLP. De nombreuses tentatives ont été faites pour définir cette classe de systèmes d'information : ILD&P - Information Leakage Detection & Prevention ("identifier et prévenir les fuites d'informations", terme proposé par IDC en 2007), ILP - Information Leakage Protection ("protection contre les fuites d'informations », Forrester, 2006), ALS - Anti-Leakage Software (« logiciel anti-fuite », E&Y), Content Monitoring and Filtering (CMF, Gartner), Extrusion Prevention System (similaire au système de prévention des intrusions).

Mais le nom DLP - Data Loss Prevention (ou Data Leak Prevention, protection contre les fuites de données), proposé en 2005, s'est néanmoins imposé comme un terme d'usage courant : l'expression « systèmes de protection des données confidentielles contre les menaces internes ». Dans le même temps, les menaces internes sont comprises comme des abus (intentionnels ou accidentels) par les employés de l'organisation qui ont le droit légal d'accéder aux données pertinentes, leurs pouvoirs.

Les critères les plus cohérents et constants d'appartenance aux systèmes DLP ont été mis en avant par le cabinet d'études Forrester Research lors de leur étude annuelle de ce marché. Ils ont proposé quatre critères selon lesquels un système peut être classé comme un DLP. une.

À canaux multiples. Le système doit être capable de surveiller plusieurs canaux possibles de fuite de données. Dans un environnement réseau, il s'agit au moins de la messagerie électronique, du Web et de la messagerie instantanée (messagerie instantanée), et pas seulement de l'analyse du trafic de messagerie ou de l'activité de la base de données. Sur le poste de travail - surveillance des opérations sur les fichiers, travail avec le presse-papiers, ainsi que contrôle du courrier électronique, du Web et de la messagerie instantanée. 2.

gestion unifiée. Le système doit disposer de moyens unifiés de gestion de la politique de sécurité de l'information, d'analyse et de reporting des événements sur tous les canaux de surveillance. 3.

Protection active. Le système doit non seulement détecter les violations de la politique de sécurité, mais aussi, si nécessaire, l'appliquer. Par exemple, bloquez les messages suspects. 4.

Sur la base de ces critères, Forrester a sélectionné 12 éditeurs de logiciels pour examen et évaluation en 2008 (ils sont répertoriés ci-dessous par ordre alphabétique, avec le nom de la société acquise par cet éditeur pour entrer sur le marché du DLP entre parenthèses) :

coder vert ;
InfoWatch ;
McAfee (Onigma);
Orchestre;
se reconnecter ;
RSA/EMC (Tablus);
Symantec (Vontu);
Trend Micro (Provilla);
Verdasys ;
Vericept ;
Websense(PortAuthority);
partage de travail.

À ce jour, sur les 12 fournisseurs ci-dessus, seuls InfoWatch et Websense sont représentés sur le marché russe à un degré ou à un autre. Les autres ne travaillent pas du tout en Russie ou viennent d'annoncer leur intention de commencer à vendre des solutions DLP (Trend Micro).

Compte tenu de la fonctionnalité des systèmes DLP, les analystes (Forrester, Gartner, IDC) introduisent une catégorisation des objets de protection - types d'objets d'information à surveiller. Une telle catégorisation permet, en première approximation, d'évaluer la portée d'un système particulier. Il existe trois catégories d'objets de surveillance.

1. Data-in-motion (données en mouvement) - messages électroniques, téléavertisseurs Internet, réseaux peer-to-peer, transfert de fichiers, trafic Web et autres types de messages pouvant être transmis via des canaux de communication. 2. Données au repos (données stockées) - informations sur les postes de travail, les ordinateurs portables, les serveurs de fichiers, les stockages spécialisés, les périphériques USB et d'autres types de périphériques de stockage de données.

3. Données en cours d'utilisation (données en cours d'utilisation) - informations en cours de traitement.

À l'heure actuelle, environ deux douzaines de produits nationaux et étrangers présentant certaines propriétés des systèmes DLP sont représentés sur notre marché. De brèves informations à leur sujet dans l'esprit de la classification ci-dessus sont répertoriées dans le tableau. 1 et 2. Également dans le tableau. 1 a introduit un paramètre tel que "stockage et audit centralisés des données", ce qui implique la capacité du système à stocker les données dans un seul dépôt (pour tous les canaux de surveillance) pour leur analyse et audit ultérieurs. Cette fonctionnalité a récemment acquis une importance particulière, non seulement en raison des exigences de divers actes législatifs, mais également en raison de la popularité auprès des clients (selon l'expérience des projets mis en œuvre). Toutes les informations contenues dans ces tableaux proviennent de sources publiques et de supports marketing des sociétés respectives.

Sur la base des données des tableaux 1 et 2, nous pouvons conclure qu'il n'existe aujourd'hui que trois systèmes DLP en Russie (d'InfoWatch, Perimetrix et WebSence). Ils incluent également le produit intégré récemment annoncé de Jet Infosystems (SKVT + SMAP), car il couvrira plusieurs canaux et disposera d'une gestion unifiée des politiques de sécurité.

Il est assez difficile de parler des parts de marché de ces produits en Russie, car la plupart des fabricants mentionnés ne divulguent pas les volumes de ventes, le nombre de clients et les postes de travail protégés, se limitant uniquement aux informations marketing. Nous pouvons seulement dire avec certitude que les principaux fournisseurs sont actuellement :

Les systèmes Dozor, présents sur le marché depuis 2001 ;
Produits InfoWatch vendus depuis 2004 ;
WebSense CPS (a commencé à être vendu en Russie et dans le monde en 2007);
Perimetrix (une jeune société dont la première version de ses produits a été annoncée sur son site internet fin 2008).

En conclusion, je voudrais ajouter qu'appartenir ou non à la classe des systèmes DLP ne rend pas les produits pires ou meilleurs - c'est juste une question de classification et rien de plus.

Tableau 1. Produits sur le marché russe avec certaines propriétés des systèmes DLP

Compagnie	Produit	caractéristiques du produit
Compagnie	Produit	Protection des "données en mouvement" (data-in-motion)	Protection des données en cours d'utilisation	Protection des données au repos	Stockage et audit centralisés
InfoWatch	Moniteur de trafic I.W.	Oui	Oui	Pas	Oui
InfoWatch	I.W. CryptoStorage	Pas	Pas	Oui	Pas
périmètre	SafeSpace	Oui	Oui	Oui	Oui
Infosystèmes Jet	Bulldozer Jet (SKVT)	Oui	Pas	Pas	Oui
Infosystèmes Jet	Bulldozer Jet (SMAP)	Oui	Pas	Pas	Oui
Ligne intelligente inc.	Verrouillage de l'appareil	Pas	Oui	Pas	Oui
SécurIT	Zlock	Pas	Oui	Pas	Pas
	Gardien du secret	Pas	Oui	Pas	Pas
SpectorSoft	Spectre 360	Oui	Pas	Pas	Pas
Sécurité Lumension	Contrôle des appareils du sanctuaire	Pas	Oui	Pas	Pas
sens du web	Protection du contenu Websense	Oui	Oui	Oui	Pas
Informzaschita	studio de sécurité	Pas	Oui	Oui	Pas
Primetek	initié	Pas	Oui	Pas	Pas
Logiciel Atom Park	flic	Pas	Oui	Pas	Pas
SoftInform	RechercherInformServer	Oui	Oui	Pas	Pas

Tableau 2. Conformité des produits présentés sur le marché russe aux critères d'appartenance à la classe des systèmes DLP

Compagnie	Produit	Critère d'appartenance aux systèmes DLP
Compagnie	Produit	À canaux multiples	Gestion unifiée	Protection active	Tenir compte à la fois du contenu et du contexte
InfoWatch	Moniteur de trafic I.W.	Oui	Oui	Oui	Oui
périmètre	SafeSpace	Oui	Oui	Oui	Oui
"Infosystèmes Jet"	"Dozor Jet" (SKVT)	Pas	Pas	Oui	Oui
"Infosystèmes Jet"	"Dozor Jet" (SMAP)	Pas	Pas	Oui	Oui
Ligne intelligente inc.	Verrouillage de l'appareil	Pas	Pas	Pas	Pas
SécurIT	Zlock	Pas	Pas	Pas	Pas
Logiciel Smart Protection Labs	Gardien du secret	Oui	Oui	Oui	Pas
SpectorSoft	Spectre 360	Oui	Oui	Oui	Pas
Sécurité Lumension	Contrôle des appareils du sanctuaire	Pas	Pas	Pas	Pas
sens du web	Protection du contenu Websense	Oui	Oui	Oui	Oui
"Informzaschita"	studio de sécurité	Oui	Oui	Oui	Pas
Primetek	initié	Oui	Oui	Oui	Pas
"Logiciel Atom Park"	flic	Oui	Oui	Oui	Pas
"SoftInform"	RechercherInformServer	Oui	Oui	Pas	Pas
"Infodéfense"	"Infopérimètre"	Oui	Oui	Pas	Pas

Technologie DLP

Le traitement numérique de la lumière (DLP) est une technologie avancée inventée par Texas Instruments. Grâce à lui, il a été possible de créer des projecteurs multimédias très petits, très légers (3 kg - est-ce vraiment un poids ?) et, néanmoins, assez puissants (plus de 1000 ANSI Lm).

Bref historique de la création

Il y a bien longtemps, dans une galaxie très lointaine...

En 1987 Dr. Larry J. Hornbeck a inventé appareil multimiroir numérique(Digital Micromirror Device ou DMD). Cette invention a complété des décennies de recherche de Texas Instruments sur la micromécanique dispositifs à miroir déformable(Deformable Mirror Devices ou encore DMD). L'essence de la découverte était le rejet des miroirs flexibles au profit d'une matrice de miroirs rigides avec seulement deux positions stables.

En 1989, Texas Instruments devient l'une des quatre sociétés sélectionnées pour mettre en œuvre la partie "projecteur" de l'U.S. Affichage haute définition financé par l'Advanced Research and Development Administration (ARPA).

En mai 1992, TI présente le premier système basé sur DMD à prendre en charge la norme de résolution moderne pour ARPA.

Une version TV haute définition (HDTV) de DMD basée sur trois DMD haute définition a été présentée en février 1994.

Les ventes massives de puces DMD ont commencé en 1995.

Technologie DLP

Un élément clé des projecteurs multimédias créés à l'aide de la technologie DLP est une matrice de miroirs microscopiques (éléments DMD) en alliage d'aluminium à très haute réflectivité. Chaque miroir est fixé à un substrat rigide, qui est relié à la base de la matrice par des plaques mobiles. Les électrodes connectées aux cellules de mémoire CMOS SRAM sont placées à des angles opposés des miroirs. Sous l'action d'un champ électrique, le substrat à miroir prend l'une des deux positions qui diffèrent d'exactement 20° du fait des limiteurs situés à la base de la matrice.

Ces deux positions correspondent respectivement à la réflexion du flux lumineux entrant dans la lentille et à un absorbeur de lumière efficace qui assure une évacuation fiable de la chaleur et une réflexion lumineuse minimale.

Le bus de données et la matrice elle-même sont conçus pour fournir jusqu'à 60 images ou plus par seconde avec une résolution de 16 millions de couleurs.

La matrice de miroirs, associée à la SRAM CMOS, constitue la puce DMD, la base de la technologie DLP.

La petite taille du cristal est impressionnante. La surface de chaque miroir matriciel est de 16 microns ou moins et la distance entre les miroirs est d'environ 1 micron. Le cristal, et non un seul, tient facilement dans la paume de votre main.

Au total, si Texas Instruments ne nous trompe pas, trois types de cristaux (ou puces) sont produits avec des résolutions différentes. Ce:

SVGA : 848×600 ; 508 800 miroirs
XGA : 1024×768 avec ouverture noire (espace inter-fentes) ; 786 432 miroirs
SXGA : 1280×1024 ; 1 310 720 miroirs

Donc, nous avons une matrice, que pouvons-nous en faire ? Eh bien, bien sûr, illuminez-le avec un flux lumineux plus puissant et placez un système optique sur le chemin de l'une des directions de réflexion des miroirs, qui focalise l'image sur l'écran. Sur le chemin de l'autre sens, il serait judicieux de placer un absorbeur de lumière afin que la lumière inutile ne cause pas de gêne. Ici, nous pouvons déjà projeter des images monochromes. Mais où est la couleur ? Où est la luminosité ?

Mais cela, semble-t-il, était l'invention du camarade Larry, qui a été discutée dans le premier paragraphe de la section sur l'histoire de la création de DLP. Si vous ne comprenez toujours pas de quoi il s'agit, préparez-vous, car maintenant un choc peut vous arriver :), car cette solution élégante et assez évidente est la plus avancée et la plus avancée technologiquement dans le domaine de la projection d'images aujourd'hui.

Rappelez-vous l'astuce des enfants avec une lampe de poche rotative, dont la lumière à un moment donné se confond et se transforme en un cercle lumineux. Cette blague de notre vision nous permet d'abandonner complètement les systèmes d'imagerie analogiques au profit de systèmes entièrement numériques. Après tout, même les moniteurs numériques à la dernière étape ont une nature analogique.

Mais que se passe-t-il si nous faisons passer le miroir d'une position à une autre avec une fréquence élevée ? Si nous négligeons le temps de commutation du miroir (et en raison de ses dimensions microscopiques, ce temps peut être complètement négligé), alors la luminosité apparente ne chutera que d'un facteur deux. En changeant le rapport du temps pendant lequel le miroir est dans une position et une autre, on peut facilement changer la luminosité apparente de l'image. Et comme le taux de cycle est très, très élevé, il n'y aura aucun scintillement visible. Eurêka. Bien que rien de spécial, tout est connu depuis longtemps :)

Eh bien, maintenant pour la touche finale. Si la vitesse de commutation est suffisamment rapide, nous pouvons placer séquentiellement des filtres sur le chemin du flux lumineux et créer ainsi une image en couleur.

Ici, en fait, est toute la technologie. Nous suivrons son développement évolutif ultérieur sur l'exemple des projecteurs multimédias.

Dispositif de projecteur DLP

Texas Instruments ne fabrique pas de projecteurs DLP, contrairement à de nombreuses autres sociétés, telles que 3M, ACER, PROXIMA, PLUS, ASK PROXIMA, OPTOMA CORP., DAVIS, LIESEGANG, INFOCUS, VIEWSONIC, SHARP, COMPAQ, NEC, KODAK, TOSHIBA, LIESEGANG, etc. La plupart des projecteurs produits sont portables, avec une masse de 1,3 à 8 kg et une puissance allant jusqu'à 2000 lumens ANSI. Les projecteurs sont divisés en trois types.

Projecteur à matrice unique

Le type le plus simple que nous avons déjà décrit est − projecteur à matrice unique, où un disque rotatif avec des filtres de couleur - bleu, vert et rouge - est placé entre la source lumineuse et la matrice. La fréquence de rotation du disque détermine la fréquence d'images à laquelle nous sommes habitués.

L'image est formée à son tour par chacune des couleurs primaires, ce qui donne une image normale en couleur.

Tous ou presque tous les projecteurs portables sont construits sur un type à matrice unique.

Un autre développement de ce type de projecteurs a été l'introduction d'un quatrième filtre de lumière transparent, qui vous permet d'augmenter considérablement la luminosité de l'image.

Projecteur à trois matrices

Le type de projecteur le plus complexe est projecteur à trois matrices, où la lumière est divisée en trois flux de couleurs et réfléchie par trois matrices à la fois. Un tel projecteur a la couleur et la fréquence d'images les plus pures, non limitées par la vitesse du disque, comme dans les projecteurs à matrice unique.

La correspondance exacte du flux réfléchi de chaque matrice (convergence) est fournie par un prisme, comme vous pouvez le voir sur la figure.

Projecteur double matrice

Un type intermédiaire de projecteurs est projecteur à double matrice. Dans ce cas, la lumière est divisée en deux flux : le rouge est réfléchi par une matrice DMD, et le bleu et le vert par l'autre. Le filtre de lumière, respectivement, supprime les composants bleus ou verts du spectre à leur tour.

Un projecteur à double matrice offre une qualité d'image intermédiaire par rapport aux types à matrice unique et à trois matrices.

Comparaison des projecteurs LCD et DLP

Par rapport aux projecteurs LCD, les projecteurs DLP présentent un certain nombre d'avantages importants :

Y a-t-il des inconvénients à la technologie DLP ?

Mais la théorie est la théorie, mais dans la pratique, il reste encore du travail à faire. Le principal inconvénient est l'imperfection de la technologie et, par conséquent, le problème du collage des miroirs.

Le fait est qu'avec de telles dimensions microscopiques, de petites pièces s'efforcent de «coller ensemble», et un miroir avec une base ne fait pas exception.

Malgré les efforts déployés par Texas Instruments pour inventer de nouveaux matériaux réduisant l'adhérence des micromiroirs, un tel problème existe, comme nous l'avons vu en testant un projecteur multimédia. Mise au point LP340. Mais je dois dire qu'elle n'interfère pas vraiment avec la vie.

Un autre problème n'est pas si évident et réside dans la sélection optimale des modes de commutation miroir. Chaque entreprise de projecteurs DLP a sa propre opinion à ce sujet.

Eh bien, le dernier. Malgré le temps minimum pour basculer les rétroviseurs d'une position à l'autre, ce processus laisse une trace à peine perceptible sur l'écran. Une sorte d'anticrénelage gratuit.

Développement de la technologie

Outre l'introduction d'un filtre de lumière transparent, des travaux sont constamment en cours pour réduire l'espace inter-miroirs et la surface de la colonne qui fixe le miroir au substrat (point noir au milieu de l'élément d'image).
En divisant la matrice en blocs séparés et en élargissant le bus de données, la fréquence de commutation du miroir est augmentée.
Des travaux sont en cours pour augmenter le nombre de miroirs et réduire la taille de la matrice.
La puissance et le contraste du flux lumineux augmentent constamment. Des projecteurs à trois matrices avec une puissance de plus de 10 000 ANSI Lm et un rapport de contraste de plus de 1000:1 existent déjà aujourd'hui et ont trouvé leur place dans les cinémas de pointe utilisant les médias numériques.
La technologie DLP est sur le point de remplacer la technologie d'affichage CRT dans les cinémas maison.

Conclusion

Ce n'est pas tout ce que l'on pourrait dire sur la technologie DLP, par exemple, nous n'avons pas abordé le sujet de l'utilisation des matrices DMD dans l'impression. Mais nous attendrons que Texas Instruments confirme les informations disponibles auprès d'autres sources, afin de ne pas vous donner un faux. J'espère que cette courte histoire est suffisante pour avoir une idée, sinon la plus complète, mais suffisante de la technologie et ne pas torturer les vendeurs avec des questions sur les avantages des projecteurs DLP par rapport aux autres.

Merci à Alexey Slepynin pour son aide dans la préparation du matériel

Pour être assez cohérent dans les définitions, on peut dire que la sécurité de l'information a commencé précisément avec l'avènement des systèmes DLP. Avant cela, tous les produits qui étaient engagés dans la "sécurité de l'information" protégeaient en fait non pas l'information, mais l'infrastructure - les lieux de stockage, de transmission et de traitement des données. L'ordinateur, l'application ou le canal qui héberge, traite ou transmet des informations confidentielles est protégé par ces produits de la même manière que l'infrastructure qui fait circuler des informations totalement inoffensives est protégée par ces produits. Autrement dit, c'est avec l'avènement des produits DLP que les systèmes d'information ont finalement appris à distinguer les informations confidentielles des informations non confidentielles. Peut-être qu'avec l'intégration des technologies DLP dans l'infrastructure de l'information, les entreprises pourront économiser beaucoup sur la protection des informations - par exemple, n'utiliser le cryptage que lorsque des informations confidentielles sont stockées ou transmises, et ne pas crypter les informations dans les autres cas.

Cependant, c'est une question d'avenir, et à l'heure actuelle, ces technologies sont principalement utilisées pour protéger les informations contre les fuites. Les technologies de catégorisation des informations constituent le cœur des systèmes DLP. Chaque fabricant considère ses méthodes de détection des informations confidentielles uniques, les protège par des brevets et leur propose des marques spéciales. Après tout, le reste des éléments d'architecture qui diffèrent de ces technologies (intercepteurs de protocole, analyseurs de format, gestion des incidents et stockage des données) sont identiques pour la plupart des fabricants, et pour les grandes entreprises, ils sont même intégrés à d'autres produits de sécurité des infrastructures d'information. Fondamentalement, deux principaux groupes de technologies sont utilisés pour catégoriser les données dans les produits de protection des informations d'entreprise contre les fuites - l'analyse linguistique (morphologique, sémantique) et les méthodes statistiques (Digital Fingerprints, Document DNA, anti-plagiat). Chaque technologie a ses propres forces et faiblesses qui déterminent la portée de leur application.

Analyse linguistique

L'utilisation de mots vides ("secret", "confidentiel", etc.) pour bloquer les messages électroniques sortants dans les serveurs de messagerie peut être considérée comme l'ancêtre des systèmes DLP modernes. Bien sûr, cela ne protège pas contre les intrus - il n'est pas difficile de supprimer un mot vide, le plus souvent placé dans un cachet séparé d'un document, alors que le sens du texte ne changera pas du tout.

L'impulsion pour le développement des technologies linguistiques a été donnée au début de ce siècle par les créateurs de filtres de messagerie. Tout d'abord, pour protéger les e-mails contre les spams. Ce sont désormais les méthodes de réputation qui prédominent dans les technologies anti-spam, et il y a eu au début du siècle une véritable guerre linguistique entre le projectile et l'armure - spammeurs et anti-spammeurs. Vous souvenez-vous des méthodes les plus simples pour tromper les filtres basés sur des mots vides ? Remplacement des lettres par des lettres similaires provenant d'autres encodages ou chiffres, translittération, espaces aléatoires, traits de soulignement ou sauts de ligne dans le texte. Les anti-spam ont rapidement appris à gérer de telles astuces, mais le spam graphique et d'autres variétés astucieuses de correspondance indésirable sont apparus.

Cependant, il est impossible d'utiliser des technologies anti-spam dans les produits DLP sans amélioration sérieuse. En effet, pour lutter contre le spam, il suffit de diviser le flux d'informations en deux catégories : spam et non-spam. La méthode Bayes utilisée dans la détection des spams ne donne qu'un résultat binaire : "oui" ou "non". Cela ne suffit pas pour protéger les données d'entreprise contre les fuites - vous ne pouvez pas simplement diviser les informations en informations confidentielles et non confidentielles. Vous devez être capable de classer les informations par affiliation fonctionnelle (financière, industrielle, technologique, commerciale, marketing) et au sein des classes - catégorisez-les par niveau d'accès (pour distribution gratuite, pour accès limité, à usage officiel, secret, top secrets, etc.).

La plupart des systèmes modernes d'analyse linguistique utilisent non seulement l'analyse contextuelle (c'est-à-dire dans quel contexte, en combinaison avec quels autres mots un terme particulier est utilisé), mais aussi l'analyse sémantique du texte. Ces technologies fonctionnent plus efficacement, plus le fragment analysé est grand. Sur un grand fragment de texte, l'analyse est effectuée avec plus de précision, la catégorie et la classe du document sont plus susceptibles d'être déterminées. Lors de l'analyse de messages courts (SMS, téléavertisseurs Internet), rien de mieux que les mots vides n'a encore été inventé. L'auteur a fait face à une telle tâche à l'automne 2008, lorsque depuis les lieux de travail de nombreuses banques, via des messageries instantanées, des milliers de messages sont allés sur le Net comme "nous sommes coupés", "la licence sera retirée", "le sortie des déposants », qui auraient dû être immédiatement bloqués pour leurs clients.

Avantages de la technologie

Les avantages des technologies linguistiques sont qu'elles travaillent directement avec le contenu des documents, c'est-à-dire qu'elles ne se soucient pas de savoir où et comment le document a été créé, quelle signature y figure et comment le fichier s'appelle - les documents sont protégés immédiatement. Ceci est important, par exemple, lors du traitement de brouillons de documents confidentiels ou pour la protection de documents entrants. Si les documents créés et utilisés au sein de l'entreprise peuvent toujours être nommés, estampillés ou étiquetés d'une manière spécifique, les documents entrants peuvent avoir des tampons et des marques non acceptés dans l'organisation. Les brouillons (sauf, bien sûr, s'ils sont créés dans un système de flux de travail sécurisé) peuvent également déjà contenir des informations confidentielles, mais ne contiennent pas encore les tampons et marques nécessaires.

Un autre avantage des technologies linguistiques est leur aptitude à l'apprentissage. Si au moins une fois dans votre vie vous avez cliqué sur le bouton "Pas de spam" dans votre client de messagerie, vous imaginez déjà la partie client du système d'apprentissage du moteur de langage. Je note que vous n'avez absolument pas besoin d'être un linguiste certifié et de savoir exactement ce qui va changer dans la base de données des catégories - il suffit d'indiquer un faux positif au système, et il fera le reste tout seul.

Le troisième avantage des technologies linguistiques est leur évolutivité. La vitesse de traitement de l'information est proportionnelle à sa quantité et ne dépend absolument pas du nombre de catégories. Jusqu'à récemment, la construction d'une base de données de catégories hiérarchiques (historiquement appelée BKF - base de filtrage de contenu, mais ce nom ne reflète plus le sens réel) ressemblait à une sorte de chamanisme des linguistes professionnels, donc la définition du BKF pouvait être attribuée en toute sécurité à lacunes. Mais avec la sortie en 2010 de plusieurs produits «autolinguistes» à la fois, la construction de la base de données primaire des catégories est devenue extrêmement simple - le système indique les endroits où les documents d'une certaine catégorie sont stockés, et il détermine lui-même les caractéristiques linguistiques de cette catégorie, et en cas de faux positifs, il apprend tout seul. Ainsi, la facilité de personnalisation s'est ajoutée aux avantages des technologies linguistiques.

Et un autre avantage des technologies linguistiques, que je voudrais souligner dans l'article, est la capacité de détecter des catégories dans les flux d'informations qui ne sont pas liées à des documents situés au sein de l'entreprise. Un outil de contrôle du contenu des flux d'informations peut définir des catégories telles que les activités illégales (piratage, distribution de biens prohibés), l'utilisation de l'infrastructure d'une entreprise à ses propres fins, l'atteinte à l'image de l'entreprise (par exemple, propagation de rumeurs diffamatoires), et bientôt.

Lacunes technologiques

Le principal inconvénient des technologies linguistiques est leur dépendance à la langue. Il n'est pas possible d'utiliser un moteur de langage conçu pour une langue pour en analyser une autre. Cela a été particulièrement visible lorsque les fabricants américains sont entrés sur le marché russe - ils n'étaient pas prêts à faire face à la formation de mots russes et à la présence de six encodages. Il ne suffisait pas de traduire les catégories et les mots-clés en russe - la formation des mots en anglais est assez simple et les cas sont retirés comme prépositions, c'est-à-dire que lorsque la casse change, la préposition change, et non le mot lui-même. La plupart des noms en anglais deviennent des verbes sans changement de mot. Etc. En russe, tout est différent - une racine peut donner lieu à des dizaines de mots dans différentes parties du discours.

En Allemagne, les fabricants américains de technologies linguistiques ont rencontré un autre problème - les soi-disant «composés», mots composés. En allemand, il est d'usage d'attacher des définitions au mot principal, ce qui donne des mots, parfois constitués d'une douzaine de racines. Il n'y a rien de tel en anglais, un mot est une séquence de lettres entre deux espaces, de sorte que le moteur linguistique anglais n'a pas pu traiter les mots longs inconnus.

Pour être juste, il faut dire que maintenant ces problèmes sont en grande partie résolus par les fabricants américains. Le moteur de langage a dû être fortement retravaillé (et parfois réécrit), mais les grands marchés de la Russie et de l'Allemagne en valent vraiment la peine. Il est également difficile de traiter des textes multilingues avec des technologies linguistiques. Cependant, la plupart des moteurs fonctionnent toujours avec deux langues, généralement c'est la langue nationale + l'anglais - c'est tout à fait suffisant pour la plupart des tâches professionnelles. Bien que l'auteur soit tombé sur des textes confidentiels contenant, par exemple, le kazakh, le russe et l'anglais en même temps, mais c'est plus une exception qu'une règle.

Un autre inconvénient des technologies linguistiques pour contrôler l'ensemble des informations confidentielles de l'entreprise est que toutes les informations confidentielles ne se présentent pas sous la forme de textes cohérents. Bien que les informations soient stockées dans des bases de données sous forme de texte et qu'il n'y ait aucun problème pour extraire le texte du SGBD, les informations reçues contiennent le plus souvent des noms propres - noms complets, adresses, noms de société, ainsi que des informations numériques - numéros de compte, cartes de crédit, leur solde, etc. Le traitement de ces données à l'aide de la linguistique n'apportera pas beaucoup d'avantages. La même chose peut être dite des formats CAD / CAM, c'est-à-dire des dessins qui contiennent souvent de la propriété intellectuelle, des codes de programme et des formats de médias (vidéo / audio) - certains textes peuvent en être extraits, mais leur traitement est également inefficace. Il y a trois ans, cela s'appliquait également aux textes numérisés, mais les principaux fabricants de systèmes DLP ont rapidement ajouté la reconnaissance optique et ont fait face à ce problème.

Mais le défaut le plus important et le plus souvent critiqué des technologies linguistiques reste l'approche probabiliste de la catégorisation. Si vous avez déjà lu un e-mail avec la catégorie "Probablement SPAM", vous comprendrez ce que je veux dire. Si cela se produit avec le spam, où il n'y a que deux catégories (spam / non spam), vous pouvez imaginer ce qui se passera lorsque plusieurs dizaines de catégories et de classes de confidentialité seront chargées dans le système. Bien qu'une précision de 92 à 95 % puisse être obtenue en formant le système, pour la plupart des utilisateurs, cela signifie que chaque dixième ou vingtième mouvement d'informations sera attribué par erreur à la mauvaise classe avec toutes les conséquences commerciales qui en découlent (fuite ou interruption d'un processus légitime) .

Il n'est généralement pas habituel d'attribuer la complexité du développement technologique aux inconvénients, mais il est impossible de ne pas le mentionner. Le développement d'un moteur linguistique sérieux avec catégorisation des textes dans plus de deux catégories est un processus technologique à forte intensité scientifique et plutôt complexe. La linguistique appliquée est une science en développement rapide qui a reçu une forte impulsion de développement avec la diffusion de la recherche sur Internet, mais il existe aujourd'hui des unités de moteurs de catégorisation exploitables sur le marché : il n'y en a que deux pour la langue russe et pour certaines langues ils n'ont tout simplement pas encore été développés. Par conséquent, seules quelques entreprises sur le marché du DLP sont capables de catégoriser entièrement les informations à la volée. On peut supposer que lorsque le marché du DLP atteindra des tailles de plusieurs milliards de dollars, Google y entrera facilement. Avec son propre moteur linguistique, testé sur des milliards de requêtes de recherche dans des milliers de catégories, il ne lui sera pas difficile de saisir immédiatement une part sérieuse de ce marché.

Méthodes statistiques

La tâche de recherche informatique de citations significatives (pourquoi exactement "significatives" - un peu plus tard) a intéressé les linguistes dans les années 70 du siècle dernier, sinon plus tôt. Le texte a été divisé en morceaux d'une certaine taille, dont chacun a été haché. Si une certaine séquence de hachages se produisait dans deux textes en même temps, alors avec une forte probabilité, les textes de ces zones coïncidaient.

Un sous-produit de la recherche dans ce domaine est, par exemple, la "chronologie alternative" d'Anatoly Fomenko, un universitaire respecté qui a travaillé sur les "corrélations textuelles" et qui a comparé des chroniques russes de différentes périodes historiques. Surpris de voir à quel point les annales des différents siècles coïncident (à plus de 60 %), à la fin des années 70, il a avancé la théorie selon laquelle notre chronologie est plus courte de plusieurs siècles. Ainsi, lorsqu'une entreprise DLP entre sur le marché avec une "technologie révolutionnaire de recherche de citations", on peut dire sans risque de se tromper que l'entreprise n'a créé rien de plus qu'un nouveau nom de marque.

Les technologies statistiques traitent les textes non pas comme une séquence cohérente de mots, mais comme une séquence arbitraire de caractères, de sorte qu'elles fonctionnent aussi bien avec des textes dans n'importe quelle langue. Étant donné que tout objet numérique - même une image, même un programme - est également une séquence de caractères, les mêmes méthodes peuvent être utilisées pour analyser non seulement des informations textuelles, mais également tout objet numérique. Et si les hachages de deux fichiers audio correspondent, l'un d'eux contient probablement une citation de l'autre, les méthodes statistiques sont donc un moyen efficace de se protéger contre les fuites audio et vidéo, qui sont activement utilisées dans les studios de musique et les sociétés cinématographiques.

Il est temps de revenir au concept de "citation significative". La principale caractéristique d'un hachage complexe extrait d'un objet protégé (qui, dans différents produits, est appelé empreinte numérique ou ADN de document) est l'étape avec laquelle le hachage est effectué. Comme on peut le comprendre à partir de la description, une telle "empreinte digitale" est une caractéristique unique de l'objet et, en même temps, a sa propre taille. Ceci est important car si vous imprimez des millions de documents (ce qui correspond à la capacité de stockage d'une banque moyenne), vous avez besoin de suffisamment d'espace disque pour stocker toutes les impressions. La taille d'une telle impression dépend du pas de hachage - plus le pas est petit, plus l'impression est grande. Si vous prenez un hachage par incréments d'un caractère, la taille de l'impression dépassera la taille de l'échantillon lui-même. Si, pour réduire le "poids" de l'impression, on augmente le pas (par exemple, 10 000 caractères), alors en même temps la probabilité qu'un document contenant une citation d'un échantillon de 9 900 caractères soit confidentielle, mais glisse inaperçu, augmente.

D'autre part, si un très petit pas, quelques symboles, est fait pour augmenter la précision de la détection, alors le nombre de faux positifs peut être augmenté jusqu'à une valeur inacceptable. En termes de texte, cela signifie que vous ne devez pas supprimer le hachage de chaque lettre - tous les mots sont constitués de lettres et le système prendra la présence de lettres dans le texte comme contenu d'une citation de l'exemple de texte. Habituellement, les fabricants eux-mêmes recommandent une étape optimale de suppression du hachage afin que la taille du devis soit suffisante et en même temps le poids de l'impression elle-même soit faible - de 3 % (texte) à 15 % (vidéo compressée). Dans certains produits, les fabricants vous permettent de modifier la taille de la signification de la citation, c'est-à-dire d'augmenter ou de diminuer le pas de hachage.

Avantages de la technologie

Comme on peut le comprendre à partir de la description, un exemple d'objet est nécessaire pour détecter une citation. Et les méthodes statistiques peuvent dire avec une bonne précision (jusqu'à 100%) s'il y a une citation significative de l'échantillon dans le fichier en cours de vérification ou non. Autrement dit, le système n'assume pas la responsabilité de la catégorisation des documents - un tel travail repose entièrement sur la conscience de celui qui a catégorisé les fichiers avant la prise d'empreintes digitales. Cela facilite grandement la protection des informations dans le cas où des fichiers rarement modifiés et déjà catégorisés sont stockés dans une entreprise à un ou plusieurs endroits. Ensuite, il suffit de supprimer l'empreinte de chacun de ces fichiers, et le système bloquera, conformément aux paramètres, le transfert ou la copie des fichiers contenant des citations significatives des échantillons.

L'indépendance des méthodes statistiques vis-à-vis de la langue du texte et des informations non textuelles est également un avantage incontestable. Ils sont bons pour protéger les objets numériques statiques de tout type - images, audio/vidéo, bases de données. Je parlerai de la protection des objets dynamiques dans la section "inconvénients".

Inconvénients technologiques

Comme dans le cas de la linguistique, les inconvénients de la technologie sont l'envers des avantages. La facilité de formation du système (indiqué le fichier au système, et il est déjà protégé) transfère la responsabilité de la formation du système à l'utilisateur. Si soudainement un fichier confidentiel se trouvait au mauvais endroit ou n'était pas indexé en raison d'une négligence ou d'une intention malveillante, le système ne le protégera pas. Par conséquent, les entreprises soucieuses de protéger les informations confidentielles contre les fuites doivent prévoir une procédure pour contrôler la manière dont les fichiers confidentiels sont indexés par le système DLP.

Un autre inconvénient est la taille physique de l'impression. L'auteur a vu à plusieurs reprises des projets pilotes impressionnants sur des impressions, lorsque le système DLP bloque avec une probabilité de 100% le transfert de documents contenant des citations significatives de trois cents exemples de documents. Cependant, après un an de fonctionnement du système en mode combat, l'empreinte digitale de chaque lettre sortante n'est plus comparée à trois cents, mais à des millions d'échantillons d'empreintes digitales, ce qui ralentit considérablement le système de messagerie, entraînant des retards de plusieurs dizaines de minutes.

Comme je l'ai promis ci-dessus, je vais décrire mon expérience dans la protection d'objets dynamiques à l'aide de méthodes statistiques. Le temps nécessaire pour imprimer une impression dépend de la taille et du format du fichier. Pour un document texte comme cet article, cela prend une fraction de seconde, pour un film MP4 d'une heure et demie, cela prend des dizaines de secondes. Pour les fichiers qui changent rarement, ce n'est pas critique, mais si l'objet change toutes les minutes voire toutes les secondes, alors un problème se pose : après chaque modification de l'objet, une nouvelle empreinte doit en être retirée... Le code que le programmeur travaille sur n'est pas la plus grande complexité, bien pire avec les bases de données utilisées dans la facturation, l'ABS ou les centres d'appels. Si le temps d'empreinte est supérieur au temps de persistance de l'objet, le problème n'a pas de solution. Ce n'est pas un cas si exotique - par exemple, l'empreinte d'une base de données qui stocke les numéros de téléphone des clients d'un opérateur mobile fédéral est supprimée pendant plusieurs jours, mais change toutes les secondes. Ainsi, lorsqu'un fournisseur DLP prétend que son produit peut protéger votre base de données, ajoutez mentalement le mot "quasi-statique".

Unité et lutte des contraires

Comme vous pouvez le voir dans la section précédente de l'article, la force d'une technologie se manifeste là où l'autre est faible. La linguistique n'a pas besoin de modèles, catégorise les données à la volée et peut protéger les informations qui n'ont pas été imprimées par accident ou par conception. L'impression donne la meilleure précision et est donc préférée pour une utilisation en mode automatique. La linguistique fonctionne très bien avec les textes, les imprimés - avec d'autres formats de stockage d'informations.

Par conséquent, la plupart des entreprises leaders utilisent les deux technologies dans leurs développements, l'une étant la principale et l'autre étant complémentaire. Cela est dû au fait qu'au départ, les produits de l'entreprise n'utilisaient qu'une seule technologie, dans laquelle l'entreprise a encore avancé, puis, à la demande du marché, une seconde a été connectée. Par exemple, InfoWatch n'utilisait auparavant que la technologie linguistique Morph-OLogic sous licence, et Websense utilisait la technologie PreciseID, qui appartient à la catégorie des empreintes digitales numériques, mais les entreprises utilisent désormais les deux méthodes. Idéalement, ces deux technologies ne devraient pas être utilisées en parallèle, mais en série. Par exemple, les impressions permettront de mieux identifier le type de document - s'agit-il d'un contrat ou d'un bilan, par exemple. Ensuite, vous pouvez connecter une base de données linguistique créée spécifiquement pour cette catégorie. Cela économise considérablement les ressources informatiques.

Il existe quelques autres types de technologies utilisées dans les produits DLP en dehors de l'article. Ceux-ci incluent, par exemple, un analyseur de structure qui vous permet de trouver des structures formelles dans des objets (numéros de cartes de crédit, passeports, NIF, etc.) qui ne peuvent être détectées ni par la linguistique ni par les empreintes digitales. De plus, le sujet des différents types d'étiquettes n'est pas divulgué - des entrées dans les champs d'attribut d'un fichier ou simplement un nom de fichier spécial à des crypto-conteneurs spéciaux. Cette dernière technologie devient obsolète car la plupart des fournisseurs choisissent de ne pas réinventer la roue eux-mêmes, mais plutôt de s'intégrer à des fournisseurs de DRM tels qu'Oracle IRM ou Microsoft RMS.

Les produits DLP constituent un secteur de la sécurité de l'information en croissance rapide, certains fournisseurs publiant de nouvelles versions très fréquemment, plus d'une fois par an. Nous attendons avec impatience l'émergence de nouvelles technologies d'analyse du domaine de l'information d'entreprise afin d'accroître l'efficacité de la protection des informations confidentielles.

Le choix d'un système DLP spécifique dépend du niveau de sécurité des données requis et est toujours choisi individuellement. Pour obtenir de l'aide dans le choix d'un système DLP et le calcul du coût de sa mise en œuvre dans l'infrastructure informatique de l'entreprise, laissez une demande, et nous vous contacterons dans les plus brefs délais.

Qu'est-ce qu'un système DLP

Système DLP(Data Leak Prevention en traduction de l'anglais - moyens de prévenir les fuites de données) sont des technologies et des dispositifs techniques qui empêchent la fuite d'informations confidentielles des systèmes d'information.

Les systèmes DLP analysent les flux de données et contrôlent leur circulation dans un certain périmètre du système d'information, qui est protégé. Il peut s'agir de connexions ftp, de messagerie d'entreprise et Web, de connexions locales, ainsi que d'envoi de messages instantanés et de données à l'imprimante. En cas de transformation d'informations confidentielles dans le flux, le composant système est activé, ce qui bloque la transmission du flux de données.

Autrement dit, Systèmes DLP surveiller les documents confidentiels et stratégiquement importants, dont la fuite des systèmes d'information vers l'extérieur peut causer des dommages irréparables à l'entreprise, ainsi que violer les lois fédérales n ° 98-FZ «sur les secrets commerciaux» et n ° 152-FZ " Sur les données personnelles ». La protection des informations contre les fuites est également mentionnée dans GOST. "Informatique. Règles pratiques pour la gestion de la sécurité de l'information » - GOST R ISO/IEC 17799-2005.

En règle générale, la fuite d'informations confidentielles peut être due à la fois au piratage et à la pénétration, ainsi qu'à l'inattention, à la négligence des employés de l'entreprise, ainsi qu'aux efforts des initiés - le transfert intentionnel d'informations confidentielles par les salariés de l'entreprise. Par conséquent, les systèmes DLP sont les technologies les plus fiables pour se protéger contre la fuite d'informations confidentielles - ils détectent les informations protégées par contenu, quels que soient la langue, l'écriture, les canaux de transmission et le format du document.

Aussi, Système DLP contrôle absolument tous les canaux qui sont utilisés quotidiennement pour transmettre des informations sous forme électronique. Les flux d'informations sont automatiquement traités en fonction de la politique de sécurité établie. Si, toutefois, les actions d'informations confidentielles entrent en conflit avec la politique de sécurité établie par l'entreprise, alors le transfert de données est bloqué. Dans le même temps, la personne autorisée de l'entreprise responsable de la sécurité de l'information reçoit un message instantané avec un avertissement concernant une tentative de transfert d'informations confidentielles.

Mise en place d'un système DLP, tout d'abord, garantit le respect d'un certain nombre d'exigences de la norme PCI DSS concernant le niveau de sécurité des informations de l'entreprise. En outre, les systèmes DLP effectuent un audit automatique des informations protégées, en fonction de leur emplacement et fournissent un contrôle automatisé, conformément aux règles de déplacement des informations confidentielles dans l'entreprise, de traitement et de prévention des incidents de divulgation illégale d'informations secrètes. Le système de prévention des fuites de données, basé sur les rapports d'incidents, surveille le niveau global des risques, et également, dans les modes d'analyse rétrospective et de réponse immédiate, contrôle les fuites d'informations.

Les systèmes DLP sont installés dans les petites et les grandes entreprises, empêchant les fuites d'informations, protégeant ainsi l'entreprise des risques financiers et juridiques qui surviennent lorsque des informations importantes ou confidentielles sont perdues ou transférées.

Aujourd'hui, le marché des systèmes DLP est l'un des plus dynamiques parmi tous les outils de sécurité de l'information. Cependant, la sphère nationale de la sécurité de l'information n'a pas tout à fait suivi le rythme des tendances mondiales et, par conséquent, le marché des systèmes DLP dans notre pays a ses propres caractéristiques.

Qu'est-ce que le DLP et comment fonctionnent-ils ?

Avant de parler du marché des systèmes DLP, il est nécessaire de décider de ce que l'on entend en fait par de telles solutions. Les systèmes DLP sont généralement compris comme des produits logiciels qui protègent les organisations contre les fuites d'informations confidentielles. L'abréviation DLP elle-même signifie Data Leak Prevention, c'est-à-dire la prévention des fuites de données.

De tels systèmes créent un « périmètre » numérique sécurisé autour de l'organisation, analysant toutes les informations sortantes et, dans certains cas, entrantes. Les informations contrôlées doivent être non seulement le trafic Internet, mais également un certain nombre d'autres flux d'informations : documents sortis de la boucle de sécurité protégée sur un support externe, imprimés sur une imprimante, envoyés sur un support mobile via Bluetooth, etc.

Étant donné que le système DLP doit empêcher la fuite d'informations confidentielles, il a nécessairement des mécanismes intégrés pour déterminer le degré de confidentialité d'un document détecté dans le trafic intercepté. En règle générale, deux méthodes sont les plus courantes : en analysant des marqueurs de document spéciaux et en analysant le contenu du document. Actuellement, la deuxième option est plus courante car elle résiste aux modifications apportées au document avant son envoi et vous permet également d'augmenter facilement le nombre de documents confidentiels avec lesquels le système peut fonctionner.

Tâches DLP « annexes »

En plus de leur tâche principale liée à la prévention des fuites d'informations, les systèmes DLP sont également bien adaptés pour résoudre un certain nombre d'autres tâches liées au contrôle des actions du personnel.

Le plus souvent, les systèmes DLP sont utilisés pour résoudre eux-mêmes les tâches mineures suivantes :

surveiller l'utilisation du temps de travail et des ressources de travail par les employés;
surveiller la communication des employés afin d'identifier les luttes « secrètes » qui peuvent nuire à l'organisation ;
contrôle de la légitimité des actions des salariés (prévention de l'impression de faux documents, etc.) ;
identification des employés qui envoient des CV pour la recherche rapide de spécialistes pour un poste vacant.

Étant donné que de nombreuses organisations considèrent qu'un certain nombre de ces tâches (en particulier le contrôle de l'utilisation du temps de travail) sont plus prioritaires que la protection contre les fuites d'informations, un certain nombre de programmes ont été conçus spécifiquement à cet effet, mais dans certains les cas peuvent également fonctionner comme un moyen de protéger l'organisation contre les fuites. Ce qui distingue ces programmes des systèmes DLP à part entière, c'est l'absence d'outils avancés d'analyse des données interceptées, qui doivent être effectuées manuellement par un spécialiste de la sécurité de l'information, ce qui n'est pratique que pour les très petites organisations (jusqu'à dix employés contrôlés).