Le taux de compression du codec est h 264. Compression vidéo. H.265 : comprendre quoi et pourquoi

  • Traduction

H.264 est une norme de compression vidéo. Et il est omniprésent, utilisé pour compresser des vidéos sur Internet, Blu-ray, téléphones, caméras de sécurité, drones, partout. Tout le monde utilise H.264 maintenant.

Il convient de noter la fabricabilité de H.264. Il est né de plus de 30 ans de travail avec un seul objectif : réduire la bande passante requise pour la transmission de vidéo de haute qualité.

D'un point de vue technique, c'est très intéressant. L'article décrira superficiellement les détails du fonctionnement de certains mécanismes de compression, j'essaierai de ne pas m'ennuyer avec les détails. De plus, il convient de noter que la plupart des technologies décrites ci-dessous sont valables pour la compression vidéo en général, et pas seulement pour le H.264.

Pourquoi compresser quoi que ce soit ?

La vidéo non compressée est une séquence de tableaux bidimensionnels contenant des informations sur les pixels de chaque image. Il s'agit donc d'un tableau d'octets en trois dimensions (2 spatiales et 1 temporelle). Chaque pixel est codé sur trois octets - un pour chacune des trois couleurs primaires (rouge, vert et bleu).

1080p @ 60 Hz = 1920x1080x60x3 => ~ 370 Mo/s Les données.

Ce serait presque impossible à utiliser. Un disque Blu-ray de 50 Go ne peut contenir que 2 minutes environ. vidéo. La copie ne sera pas facile non plus. Même les SSD auront du mal à écrire de la mémoire sur le disque.

Alors oui, la compression est nécessaire.


Je vais certainement répondre à cette question. Mais d'abord, je vais vous montrer quelque chose. Jetez un œil à la page d'accueil d'Apple :

J'ai enregistré l'image et je vais donner un exemple de 2 fichiers :

C'est impressionnant, quelles autres astuces y a-t-il ?

Traitement des couleurs

L'œil humain n'est pas très doué pour distinguer des nuances de couleurs similaires. Les plus petites différences de luminosité peuvent être facilement reconnues, mais pas les couleurs. Par conséquent, il doit y avoir un moyen de se débarrasser des informations de couleur inutiles et d'économiser encore plus d'espace.

Dans les téléviseurs, les couleurs RVB sont converties en YCbCr, où Y est la composante de luminance (essentiellement la luminosité d'une image en noir et blanc) et Cb et Cr sont les composantes de couleur. RGB et YCbCr sont équivalents en termes d'entropie de l'information.

Pourquoi compliquer les choses alors ? Le RVB n'est-il pas suffisant ?

À l'époque des téléviseurs en noir et blanc, il n'y avait que la composante Y. Et avec l'avènement des téléviseurs couleur, les ingénieurs ont été confrontés à la tâche de transmettre une image couleur RVB avec le noir et blanc. Par conséquent, au lieu de deux canaux de transmission, il a été décidé d'encoder la couleur dans les composants Cb et Cr et de les transmettre avec Y, et les téléviseurs couleur eux-mêmes convertiront les composants de couleur et de luminosité dans leur RVB habituel.

Mais voici l'astuce : la composante luma est codée à pleine résolution et les composantes couleur sont codées à seulement un quart. Et cela peut être négligé, car œil/cerveau ne distingue pas bien les nuances. De cette façon, vous pouvez réduire la taille de l'image de moitié et avec des différences minimes. 2 fois! La machine pèsera 10 kg !

Cette technologie de codage d'image par sous-échantillonnage est appelée sous-échantillonnage de couleur. Il existe depuis longtemps et ne se limite pas au H.264.

Ce sont les technologies les plus importantes dans la réduction de la taille de compression avec perte. Nous avons réussi à nous débarrasser de la plupart des détails et à réduire de moitié les informations sur les couleurs.

Est-ce possible encore plus ?

Oui. Le recadrage de l'image n'est que la première étape. Jusqu'à présent, nous avons analysé une seule trame. Il est temps de regarder la compression temporelle, où nous devons travailler avec un groupe d'images.

Compensation de mouvement

H.264 est une norme qui permet la compensation de mouvement.
Compensation de mouvement ? Qu'est-ce que c'est?

Imaginez que vous regardez un match de tennis. La caméra est fixe et filme sous un certain angle et la seule chose qui bouge est la balle. Comment coderiez-vous cela ? Tu ferais comme d'habitude, non ? Un tableau tridimensionnel de pixels, deux coordonnées dans l'espace et une image à la fois, n'est-ce pas ?

Mais pourquoi? La plupart de l'image est la même. Le terrain, le filet, le public ne changent pas, la seule chose qui bouge c'est le ballon. Et si vous définissiez une seule image de l'arrière-plan et une image d'une balle se déplaçant dessus. Cela ne ferait-il pas gagner beaucoup d'espace? Vous voyez où je veux en venir, n'est-ce pas ? Compensation de mouvement ?

Et c'est exactement ce que fait H.264. H.264 divise l'image en macroblocs, généralement 16x16, qui sont utilisés pour calculer le mouvement. Une trame reste statique, généralement appelée trame I, et contient tout. Les images suivantes peuvent être des images P ou des images B. Dans les images P, le vecteur de mouvement est codé pour chaque macrobloc en fonction des images précédentes, de sorte que le décodeur doit utiliser les images précédentes en prenant la dernière image I de la vidéo et en ajoutant progressivement des modifications aux images suivantes jusqu'à ce qu'elle atteigne l'actuelle.

La situation est encore plus intéressante avec les images B, dans lesquelles le calcul est effectué dans les deux sens, en fonction des images qui les précèdent et les suivent. Vous comprenez maintenant pourquoi la vidéo au début de l'article pèse si peu, il ne s'agit que de 3 I-frames, dans lesquelles les macroblocs se précipitent.

Avec cette technologie, seules les différences de vecteurs de mouvement sont codées, offrant ainsi un taux de compression élevé pour toute vidéo animée.

Nous avons couvert la compression statique et temporaire. Avec l'aide de la quantification, nous avons réduit la taille des données plusieurs fois, puis avec l'aide du sous-échantillonnage des couleurs, nous avons divisé par deux ce que nous avons reçu, et maintenant, avec la compensation de mouvement, nous avons réussi à stocker seulement 3 images sur 300 qui étaient à l'origine dans la vidéo en question.

Cela a l'air impressionnant. Maintenant quoi?

Nous traçons maintenant la ligne en utilisant le codage entropique sans perte traditionnel. Pourquoi pas?

Codage entropique

Après des étapes de compression avec perte, les images I contiennent des données redondantes. Dans les vecteurs de mouvement de chacun des macroblocs dans les images P et les images B, il y a beaucoup de la même information, car ils se déplacent souvent de manière identique, comme on peut le voir dans la vidéo initiale.

Cette redondance peut être éliminée par codage entropique. Et vous n'avez pas à vous soucier des données elles-mêmes, car il s'agit d'une technologie de compression standard sans perte, ce qui signifie que tout peut être restauré.

Maintenant c'est ça ! H.264 est basé sur les technologies susmentionnées. C'est de cela qu'il s'agit dans la norme.

Amende! Mais je suis curieux de savoir combien pèse notre voiture maintenant.

La vidéo originale a été tournée à une résolution non standard de 1232x1154. Si vous comptez, vous obtenez :

5 secondes @ 60 fps = 1232x1154x60x3x5 => 1,2 Go
Vidéo compressée => 175 Ko

Si nous corrélons le résultat avec la masse convenue de la voiture dans une tonne, nous obtenons un poids égal à 0,14 kg. 140 grammes !

Oui, c'est magique !

Bien entendu, j'ai présenté sous une forme très simplifiée le résultat de dix années de recherche dans ce domaine. Si vous voulez en savoir plus, alors

La technologie de compression vidéo est une pierre d'achoppement dans la conception des systèmes de vidéosurveillance depuis l'avènement du protocole Internet (IP) dans les années 1990. Depuis lors, les normes de codage vidéo sont passées par de nombreuses étapes de recherche. La norme de compression a attiré l'attention de l'industrie aujourd'hui H.265 ou HEVC (codage vidéo haute efficacité). Il s'agit de la prochaine version après H.264, qui est actuellement la technologie de codage vidéo IP dominante. Nous allons essayer de comprendre quelles sont ses perspectives aujourd'hui et dans l'avenir.

L'intégration de la technologie H.265 peut être entravée par la disponibilité de H.264 optimisé, un meilleur codage pour les systèmes de vidéosurveillance

H.265 : comprendre quoi et pourquoi

H.265 est une avancée significative dans le codage vidéo. L'un de ses avantages est qu'il double l'efficacité de compression du H.264. Ainsi, lors de la transmission d'images de qualité similaire, H.265 n'utilise que la moitié du débit binaire du codec précédent. Cela réduit considérablement les besoins en bande passante et en stockage, permettant une meilleure utilisation du matériel et des logiciels. Les utilisateurs, en fait, obtiennent plus de fonctionnalités à moindre coût. Pour cette raison, la plupart des fabricants de matériel prennent en charge la mise en œuvre de la norme de compression H.265 pour la vidéosurveillance. Bientôt, nous pourrons voir H.265 comme la prochaine norme.

Mais malgré tous les avantages, le H.265 est encore loin d'être adopté en masse. La question se pose : les utilisateurs peuvent-ils d'une manière ou d'une autre optimiser la transmission des images avant la révolution dans le domaine de la vidéosurveillance ? Après tout, la popularité de la vidéo haute définition augmente et la demande crée l'offre.

Les avancées récentes du codec H.264 actuel optimisent le débit binaire de trois manières : l'encodage prédictif, la suppression du bruit et le contrôle du débit binaire « à long terme ». Cela a entraîné une réduction de 75 % des besoins en mémoire pour H.264. En raison de ces innovations et de certains autres facteurs, il est fort probable qu'au cours des 5 à 10 prochaines années, les deux normes coexisteront pacifiquement sur le marché.

Obstacles à l'adoption du H.265

L'intégration de la technologie H.265 est susceptible d'être entravée par la disponibilité d'un codage H.264 optimisé, ainsi que par le coût de la mise à niveau des systèmes existants vers H.265. Des complications supplémentaires surgiront également avec le changement de processus de production pour la sortie d'équipements prenant en charge H.265 et avec des brevets, dont nous parlerons plus tard. En principe, H.264 reste une norme viable et utilisable pour la grande majorité des systèmes de vidéosurveillance. Aujourd'hui, il remplit pleinement ses fonctions - et, il faut l'avouer, assez bien.

Au coût plus élevé, les utilisateurs doivent être convaincus que la mise à niveau vers H.265 en vaut vraiment la peine.

Limites des tests de laboratoire

Lors des tests menés par la Joint Collaborative Team on Video Coding (JCT-VC), le taux de compression du H.265 a doublé par rapport au précédent H.264. Mais, comme vous pouvez vous y attendre, ces tests ont été effectués dans un environnement de laboratoire et sont loin de la plupart des difficultés qui surviennent dans le processus d'utilisation réelle de la norme.

L'encodage en temps réel avec un équilibre entre la complexité de l'algorithme et la capacité de compression est ce que l'on veut voir dans le développement de H.265. En pratique, la capacité de compression du codec H.265 peut ne pas offrir une amélioration de 100 % par rapport à H.264, même si cela a été revendiqué.

La norme H.264 est déployée depuis plus de 10 ans dans l'industrie dans laquelle elle a évolué, avec le support de tous les fabricants de chipsets et avec un accès à une grande variété d'encodeurs et de décodeurs. Cela a été testé et prouvé dans la pratique. En ce sens, la technologie H.265 a beaucoup à rattraper.

Prix ​​du brevet

Un autre problème qui peut entraver la diffusion massive de la norme H.265 est la nécessité d'acheter un brevet. De nombreux propriétaires d'entreprise ont déjà un brevet pour H.264, alors que H.265 n'était pas très courant dans l'industrie à ses débuts, et les entreprises qui en sont propriétaires ne sont pas liées. La faible demande pour la nouvelle norme entraîne un coût de brevet beaucoup plus élevé - un problème clé que les entreprises de sécurité devraient sérieusement considérer - comment cela affectera la production et, par conséquent, le prix pour l'utilisateur final. Lors de l'introduction d'une nouvelle norme, le prix compte vraiment, surtout si les utilisateurs doivent remplacer à la fois l'avant et l'arrière du système afin de bénéficier d'une compression vidéo améliorée. En payant plusieurs fois plus, le consommateur doit être sûr que la mise à niveau en vaut vraiment la peine.

Technologies d'encodage H.264 optimisées

Malgré les arguments ci-dessus, la principale raison pour laquelle nous pensons que H.265 ne deviendra pas la solution d'encodage dominante de sitôt est le simple manque de demande - un certain nombre de fabricants innovants ont mis en œuvre des technologies d'encodage H.264 optimisées, et le besoin de H.264 .265 est toujours simplement non. Ce fait peut être appelé "une solution à un problème qui ne s'est pas encore posé".

Les technologies H.264 optimisées utilisent un codage prédictif pour réduire le débit binaire dépensé sur une image d'arrière-plan immuable

Depuis le lancement de la technologie H.264 en 2003, l'industrie de la sécurité a développé des encodeurs vidéo hautes performances dans le but d'améliorer la qualité de l'image pour les systèmes de vidéosurveillance. Ajoutez à cela la popularité croissante de la vidéo de haute qualité, les demandes croissantes de débit binaire et de résolution, et il devient évident que le coût des composants du système dans son ensemble a augmenté. La grande quantité de données vidéo capturées par les caméras de vidéosurveillance signifie que les utilisateurs doivent investir dans des besoins de stockage sans cesse croissants.

Codage prédictif

Comment le codec H.264 est-il amélioré ? Premièrement, des recherches fondamentales sur la compression vidéo sont en cours dans diverses industries. Par exemple, dans toute vidéo provenant de caméras, les utilisateurs prêtent d'abord attention aux objets en mouvement, puis à la partie statique de l'image. Si l'arrière-plan ne change pas, il peut être encodé en tant qu'image clé. Les technologies H.264 optimisées utilisent un codage prédictif pour réduire le débit binaire dépensé sur une image d'arrière-plan statique. En appliquant ce codage prédictif à l'ensemble du système, les utilisateurs économisent des coûts de bande passante et de stockage importants.

Réduction de bruit

Un autre élément important de l'optimisation H.264 est la réduction du bruit.

Le bruit ou le signal électrique indésirable affiché dans le flux vidéo est une interférence grave avec le signal vidéo numérique. Cela conduit au fait que dans l'arrière-plan de l'image, il y a de nombreux pixels étrangers causés par les fluctuations de la lumière, de la température ou d'autres signaux dans l'air. Mais les technologies H.264 optimisées utilisant des algorithmes d'exploration de données suppriment la plupart du bruit en encodant l'objet de premier plan de l'image à un débit binaire plus élevé par rapport à l'image d'arrière-plan. Le résultat : des images nettes et aux couleurs précises.

Contrôle du débit binaire à long terme

Enfin, les exigences de débit binaire pour une scène particulière peuvent fluctuer tout au long de la journée. Par exemple, dans une scène de rue typique la nuit, il y a peu de mouvement au premier plan, donc les exigences de débit binaire sont faibles. Pendant la journée, les demandes sont considérablement accrues par les véhicules et les piétons se déplaçant au premier plan et à l'arrière-plan. Les technologies d'encodage H.264 modernes gèrent cette synchronisation en calculant le débit moyen global, puis en allouant automatiquement le débit requis à l'heure de la journée lorsque cela est nécessaire. Cela se produit au niveau des valeurs de consigne du décodeur. Ici, le principal avantage du contrôle du débit binaire à long terme est que les utilisateurs ont la possibilité de prédire avec précision leurs besoins en stockage vidéo afin que la taille de stockage nécessaire puisse être mesurée.

***

Aujourd'hui, ces avantages du H.264 dépassent ce qu'offre la norme H.265. Entre autres choses, H.264 présente un certain nombre d'autres avantages : compatibilité avec les systèmes existants, coût de production inférieur, une gamme plus large de produits sur lesquels le codec peut être appliqué et un risque de brevet réduit.

Les conceptions de compression vidéo ont tendance à adhérer à un cycle d'environ 10 ans. En 1994, le format MPEG2 a été introduit. H.264 lancé en 2003 et H.265 lancé en 2013. Dans ce cas, le contexte historique est important car les normes de codage vidéo répondent non seulement aux changements technologiques, mais aussi aux tendances de l'industrie vidéo. Lorsque le format MPEG2 était la norme, l'industrie se concentrait principalement sur les lecteurs DVD et les résolutions TV où ce format était utilisé. L'émergence du H.264 a coïncidé avec l'introduction de la technologie HD, des technologies informatiques avancées et de l'Internet mobile.

Les utilisations du H.264 ont inclus la télévision numérique HD, la vidéo Internet, la vidéo mobile, la vidéosurveillance, le Blu-ray, etc. Étant donné que le H.265 vient juste d'entrer en scène, nous pensons qu'il sera le plus largement utilisé dans le développement de la technologie ultra-HD. et les applications de stockage en nuage.

Perspectives de développement technologies de compression vidéo

Après le lancement de H.265, les membres du Joint Joint Video Coding Group (JCT-VC) ont commencé à prévoir l'avenir de ce segment. En 2015, ils ont formé la Joint Video Exploring Team (JVET) en mettant l'accent sur l'amélioration des capacités de compression. Leurs dernières données de test montrent que les améliorations des performances de compression H.265 sont atteintes de 20 %. Dans le même temps, une autre organisation, l'Alliance for Open Media (AOM), a réuni un certain nombre d'entreprises orientées Internet, notamment Microsoft, Google, Intel et Amazon, dans le but d'arriver à une norme gratuite pour la vidéo sur Internet. . Le plan est que cette norme (gratuite) accélérera les mises à jour technologiques dans le monde en ligne à un rythme fou.

La concurrence pour ces normes sera probablement rude - et cela pourrait également signifier que le cycle de compression de 10 ans tombera dans l'oubli et que de nouvelles normes apparaîtront beaucoup plus rapidement.


Dans un avenir proche, je souhaite publier une note sur le lecteur WD TV Live HD, donc j'aborderai un sujet douloureux pour les joueurs de fer - pourquoi il y a des problèmes avec la lecture vidéo. Souvent, la raison est dans le flux H.264 déraisonnablement entassé. La norme H.264 prévoit de nombreux mécanismes de compression de signal, voici un tableau dans lequel chaque profil se voit attribuer un ensemble de capacités utilisables dans un flux. Les profils sont, par exemple, tels que - le profil de base contraint (CBP), le profil de base (BP), le profil principal (MP), le profil élevé (HiP), etc. Il existe également le concept d'un niveau qui définit les limites numériques dans un profil particulier. Les niveaux sont indiqués par une paire de nombres de 1,0 à 5,1. Le profil est généralement écrit sous la forme @L , par exemple, vous pouvez trouver de telles désignations - [email protégé] ou [email protégé]

Le standard de qualité est considéré comme un flux d'un disque Blu-Ray, son flux vidéo correspond au profil [email protégé] D'après le tableau [email protégé] impose la limitation maximale sur le flux - 62500 Kbps et fournit les modes suivants (je donne le plus élevé) : 1.280 × [email protégé](9), 1 920 × 1, [email protégé](4), 2.048 × 1, [email protégé](4). Le nombre après le @ est la fréquence d'images, et le nombre entre parenthèses est le nombre d'images de référence (ou recadrages). Reframes est le nombre de trames auxquelles la trame actuelle peut se référer pendant le processus de décodage. Ce paramètre impose des exigences sur la taille de la mémoire du décodeur et, éventuellement, son augmentation entraînera encore une charge supplémentaire sur le décodeur. Ainsi, pour les Blu-Ray en résolution Full HD, ce paramètre n'est que de 4. Sur les Blu-ray qui étaient à portée de main, j'ai vérifié - c'est vraiment vrai, ainsi que la conformité à ce profil. Cependant, les vidéos téléchargées depuis le réseau ont souvent des profils plus élevés, et le nombre de recadrages atteint parfois 19 ! Vous pouvez afficher les propriétés du flux avec un utilitaire gratuit. J'ai fait cela et j'ai découvert qu'environ 20% des films disponibles ont des recadrages surestimés et des profils surestimés. Ce sous-ensemble a un profil assez typique [email protégé] Pour information, je vais donner ses caractéristiques : stream jusqu'à 300000 Kbps (!), Modes maximum : 1 920 × 1, [email protégé](16), 4 096 × 2, [email protégé](5), 4 096 × 2, [email protégé](5). Un débit binaire aussi insensé n'est pas physiquement pris en charge par un disque Blu-ray (le débit binaire maximal est de 48 Mbit) et il ne traverse pas la grille de 100 Mbps, à en juger par les résolutions maximales, le profil est destiné à l'encodage vidéo pour les cinémas numériques. La raison pour laquelle cela se produit est compréhensible - les gens mettent tout au maximum et serrent, complètement sans y compris la tête, et en conséquence nous avons des problèmes avec lesquels, heureusement, les créateurs de lecteurs HD se battent héroïquement, mais avec un succès variable. Bientôt, j'écrirai sur la façon dont ils parviennent à se battre.

27.03.2009

À notre époque de marketing et de dévaluation de bout en bout des catégories d'évaluation, il est difficile de les croire sur parole. Cela ne sent que l'argent sérieux - des opinions achetées de personnes faisant autorité apparaissent, des résultats de recherche sont falsifiés, des plaques signalétiques portant les noms de marques séculaires flottent de pièce en pièce. L'horreur, c'est que, à proprement parler, vous ne pouvez pas non plus faire confiance à la presse. Eh bien, si vous ne pouvez pas, mais que vous le voulez vraiment, alors - vous pouvez...

Observant les dernières tendances en matière de compression vidéo numérique, les éditeurs de Security News essaient de prêter attention non seulement aux évaluations positives des experts mondiaux de l'industrie, mais aussi aux notes sceptiques. Si vous avez de la chance, des critiques sévères vous parviennent. Les deux avis d'experts que nous publions ont plus de chances d'être positifs, même si, selon certaines indications, ils ne sont que camouflés en « objectifs ». Nous invitons des experts nationaux à la discussion : dans la presse industrielle russe il y a quelques années, toutes les prévisions convergaient sur le codage en ondelettes. Pourquoi l'autre solution a-t-elle « gagné », pour des raisons techniques ou dans un souci de profit ? Et avez-vous gagné du tout? Nous attendons vos avis.

Il n'y a pas si longtemps, j'ai eu l'occasion d'assister à deux expositions - ISC West à Las Vegas et IFSEC au Royaume-Uni. La force de ces événements est qu'ils peuvent déterminer avec précision où souffle le vent du marché et ce que font les esprits des collègues de l'industrie. En tant que directeur technique d'une entreprise qui fabrique des logiciels de gestion de vidéo IP, j'étais très intéressé à séparer le bon grain de l'ivraie.

Comme j'avais déjà participé aux deux expositions auparavant, j'ai parfaitement compris que la presse d'ici ne s'intéresserait qu'aux « dernières et meilleures ». Attrapant un certain sujet, les médias semblent commencer une course - qui donnera la présentation la plus efficace du dernier des derniers et du plus grand des plus grands. Cependant, n'oublions pas qu'il y a quelques années, un sujet aussi « brûlant » était la surveillance vidéo IP - et aujourd'hui, elle est déjà en train de devenir une norme de facto, dépassant largement les technologies analogiques dans le développement.

Le nouveau format de compression vidéo, H.264, a fait l'objet de vifs débats cette année. Permettez-moi de vous rappeler qu'il s'agissait d'un développement conjoint de deux organisations internationales de normalisation - et ISO / IEC; ce format est également connu sous le nom de MPEG-4 Part 10 AVC (Advanced Video Coding).

Serrez encore plus fort

Les appétits de surveillance pour le stockage et la bande passante du réseau augmentent : personne ne veut passer à côté des fréquences d'images élevées et de la haute résolution. D'où les attentes d'une plus grande efficacité des méthodes de compression vidéo. L'encodeur H.264 est capable de réduire la taille du fichier vidéo numérique de plus de 80 % par rapport à un signal compressé Motion JPEG, tout en conservant la même qualité visuelle. Comparé à la version la plus populaire du format MPEG-4 - MPEG-4 Part 2 Simple Profile (SP) - le codec H.264 gagne généralement 40 à 50 pour cent du volume des fichiers vidéo.

Le secteur des caméras mégapixels est en pleine croissance et, jusqu'à récemment, les besoins accrus en stockage pour les caméras haute définition étaient considérés comme la principale contrainte à sa croissance. L'utilisation du codec H.264 peut accélérer considérablement le processus d'introduction des caméras mégapixels.

À mon avis, le format H.264 supplantera presque complètement le MPEG-4 (Partie 2) dans quelques années seulement. Et les fournisseurs de solutions de gestion vidéo commenceront à intégrer la prise en charge du nouveau format dans un proche avenir, de même que tous les principaux fabricants de caméras vidéo.

Une cuillère de goudron

Cependant, il existe des facteurs qui freinent l'enthousiasme suscité par le nouveau produit - en fait, le développement n'en est encore qu'au tout début du chemin. Oui, le codec permet de réduire la charge sur les réseaux de transmission de données et d'économiser sur l'achat de stockage vidéo. Mais son utilisation n'est possible que dans des conditions de caméras performantes. Le nouvel algorithme de compression utilise des mathématiques beaucoup plus complexes que les normes précédentes - par exemple, la procédure de décodage est environ deux fois plus importante que la procédure analogue pour MPEG-4 Part 2 SP en termes de calculs - en conséquence, la demande de puissance de calcul des systèmes croît. Dans le même temps, la norme H.264 elle-même est devenue il y a relativement longtemps - il y a environ cinq ans, et dans certaines industries - à l'exception de la nôtre avec vous - elle a déjà été adoptée. Disons qu'il est utilisé dans une nouvelle génération de DVD grand public haute définition (format Blu-ray).

Comment ça fonctionne

H.264 est une norme de codage de bloc vidéo hybride utilisant la compensation de mouvement. La compensation réelle est basée sur l'utilisation de vecteurs de mouvement de zones de la trame pour prédire les changements dans l'image. Les images vidéo étant caractérisées par un degré élevé de corrélation entre deux trames successives, il est possible de l'utiliser pour coder non pas l'ensemble de l'image, mais uniquement les vecteurs de mouvement des différentes parties de l'image ; dans ce cas, la différence prédite entre la trame courante et ses régions présentes dans d'autres trames (dites trames de référence) est codée sous une forme décalée par rapport à la position d'origine. Cette technique est appelée prédiction intermédiaire.

Il existe deux méthodes principales d'interprédiction, l'une basée sur une trame de référence (macroblocs P) et la bidirectionnelle (macroblocs de type B), qui utilise une combinaison de deux trames de référence. Afin de permettre l'accès à des parties arbitraires de l'image vidéo et d'augmenter le degré de protection contre les erreurs, la norme prévoit également ce qu'on appelle l'infracodage, dans lequel les données codées ne dépendent pas de la nature et du contenu d'un quelconque des images tierces, comme c'est le cas avec l'utilisation de la prédiction intermédiaire.

La norme H.264 permet de diviser l'image en macroblocs jusqu'à 16x16 pixels chacun. Les macroblocs sont combinés en groupes - un ou plusieurs - généralement dans l'ordre dans lequel ils ont été analysés. Ainsi, une seule image peut être codée en un ou plusieurs groupes. L'utilisation du groupement de macroblocs permet différentes méthodes de correction d'erreurs, différents types de codage de macroblocs, ainsi que des outils tels que le codage séparé de demi-trames (sous forme de groupes) lorsqu'elles sont entrelacées.

Dans les images vidéo en couleur, la composante de luminance est codée séparément de celle en couleur ; compte tenu des particularités de la vision humaine, dans ce cas, en règle générale, un sous-échantillonnage du signal de couleur par rapport au signal de luminance est utilisé. Dans l'ensemble, il n'y a pas de différences fondamentales entre le nouveau format et les normes de codage vidéo précédentes (y compris MPEG-4 Part 2) : ils sont tous basés sur le blocage d'une manière ou d'une autre et sont hybrides.

Nouveaux fonds

En plus des améliorations apportées aux outils d'encodage existants, le format H.264 inclut également un certain nombre de nouveaux outils. Le plus important d'entre eux est le filtre de déblocage adaptatif intégré, qui permet de réduire considérablement les distorsions de blocage de l'image, en enregistrant plus de deux images de référence pour une prédiction plus précise, en divisant les macroblocs en blocs plus petits (jusqu'à 4x4 pixels), la prédiction en l'infracodage et l'utilisation d'une transformation entière pour remplacer la transformation discrète en cosinus (DCT) utilisée dans les normes antérieures.

Le format H.264 comprend une solution fondamentale à la couche d'abstraction réseau (NAL), qui, lorsqu'elle est installée au-dessus du moteur logiciel de la couche de codage vidéo (VCL), prend en charge la fonction de représentation efficace de la vidéo numérique dans un format qui L'intégration avec une variété de protocoles et de mécanismes de transfert de données différents est très attrayante pour les réseaux basés sur le protocole Internet (IP).

Quel est le résultat ?

Le résultat principal de toutes les améliorations de la technologie de codage incorporées dans la norme H.264 est que le nouveau format surpasse vraiment tous les algorithmes de compression de signal vidéo numérique précédents dans ses caractéristiques - et peut donc être considéré aujourd'hui comme la plus haute réalisation dans le domaine de la vidéo numérique. codage.

Alors, le H.264 vaut-il tout le battage médiatique qui l'entoure ? Avec l'avènement du nouveau format, les normes de compression vidéo ont commencé à changer rapidement - et aujourd'hui, elles sont déjà capables de maintenir ou même de réduire la charge sur la bande passante des réseaux de transmission de données lors du passage à la vidéo haute définition. Et cela est très précieux.

Cependant, rappelons-nous que tous les délices de la nouvelle technologie de codage et des caméras mégapixels de plus en plus puissantes qui ont afflué sur le marché ne peuvent être réalisés qu'avec l'utilisation d'une plate-forme de contrôle solide, sur la base de laquelle des solutions de vidéosurveillance sont formées. L'utilisation de plates-formes 100% ouvertes pour la gestion de la vidéo IP vous permettra d'intégrer de nouvelles solutions technologiques dans votre infrastructure de serveur existante - sans avoir à remplacer complètement le matériel du système.

Vérité ou marketing. Le H.264 sera-t-il à la hauteur des attentes des utilisateurs ?

Tom Galvin, directeur de NetVideo Consulting, est auparavant vice-président de l'ingénierie chez GE Security.
Basé sur des documents du magazine Security Dealer and Integrator
.

La course à la mise en œuvre de la norme de compression vidéo H.264 est donc lancée. Les fabricants adoptent ce format comme norme pour leurs DVR, caméras réseau et encodeurs, rivalisant avec la promesse de réductions de données vidéo allant jusqu'à 50 % par rapport à la compression MPEG-4. Une réduction de cinquante pour cent est une grande revendication car elle peut avoir un impact énorme sur le coût total de possession des systèmes de vidéosurveillance. Une diminution des débits binaires entraîne une augmentation de la quantité de stockage de données numériques, une diminution de la charge sur l'infrastructure réseau ou une augmentation de la qualité des images vidéo aux mêmes débits de transmission des informations numériques.

Guidé par un intérêt purement professionnel, j'ai décidé de répondre à la question : le codec est-il à la hauteur de ses nombreuses promesses ? Et pour que la réponse ne soit pas infondée, confirmez la conclusion par comparaison directe de l'efficacité de compression des algorithmes MPEG-4 et H.264. La chose la plus intéressante - le H.264 est-il vraiment capable de réduire les débits sans perdre la qualité vidéo ?

La norme H.264 doit son origine à deux groupes d'experts différents qui se sont réunis spécifiquement pour la créer. Le produit, qui est apparu à la suite d'efforts conjoints, était connu sous différents noms. Il a été surnommé "H.264" par l'organisation ITU-T, qui coordonne les normes de télécommunication de l'Union internationale des télécommunications. L'Organisation internationale de normalisation (ISO) appelle la même norme MPEG-4 Part 10 / Advanced Video Coding (AVC) car il s'agit d'une extension de la suite de normes MPEG-4 déjà implémentée avec succès dans un grand nombre de produits liés à la vidéo. surveillance. L'industrie de la sécurité américaine a adopté un terme un peu moins aristocratique mais plus court en tant que "juste" H.264.

La nouvelle norme définit un certain nombre de principes mathématiques, dont l'application en compression vidéo permet d'obtenir des résultats plus satisfaisants que ceux observés dans les normes précédemment adoptées. Bon nombre des algorithmes qui y sont décrits sont très exigeants sur la puissance de calcul de l'équipement ou ne sont pas applicables dans un certain nombre d'applications spécifiques. Pour offrir la souplesse d'application requise, la norme définit sept profils différents. Un profil est un ensemble de caractéristiques fournies pour un groupe spécifique d'applications pratiques de la norme. De nombreux produits de vidéosurveillance sont susceptibles d'être basés sur le profil de base. Le profil de base est destiné aux périphériques matériels qui ont une puissance de traitement limitée, mais nécessitent le délai de signal le plus faible possible. Les autres profils sont conçus pour un large éventail d'applications, de la télévision diffusée et du DVD haute définition (Blu-ray) à la téléphonie mobile.

Quelle tarte est la plus savoureuse ?

Pour le "concours culinaire", j'ai utilisé deux encodeurs de formats différents - H.264 et MPEG-4 - d'Axis Communications, en les appliquant à deux scènes de vidéosurveillance typiques. La première scène a été filmée avec une caméra PTZ située dans le parking et la seconde - avec une caméra fixe montée au-dessus de la porte dans le hall du centre d'affaires. Les deux scènes ont été filmées en résolution 4CIF à 30 images par seconde. J'ai utilisé le logiciel NetVideo Device Manager pour mesurer les débits binaires provenant de chacune des sources de flux vidéo numériques. Grâce à un processus d'essais et d'erreurs plutôt fastidieux, j'ai ajusté les taux de compression pour obtenir des niveaux de qualité vidéo visuellement équivalents à partir des deux sources.

Dans les deux scènes, l'appareil utilisant la compression H.264 a enregistré une diminution du débit de données moyen d'environ 50 %.

Le délai de signal mesuré pour les deux appareils était d'environ 100 millisecondes. Le délai comprend le temps passé à numériser le signal vidéo, à compresser le flux de données et à le transmettre sur le réseau, à le décoder et à l'afficher sur un écran d'ordinateur personnel. Un délai de 100 millisecondes est une valeur très faible et ne peut donc pas affecter l'efficacité du contrôle PTZ.

J'ai répété les tests de comparaison dans différentes scènes, et partout il y avait une différence entre les signaux affichés obtenus en utilisant les formats de compression MPEG-4 et H.264. Les artefacts typiques, connus sous le nom d'effets de blocage, sont nettement plus visibles en MPEG-4 qu'en H.264 à des taux de compression relativement élevés.

Au fur et à mesure que le taux de compression du signal des flux vidéo traités par les encodeurs MPEG-4 et H.264 augmente (et la diminution correspondante des débits binaires et de la qualité visuelle de l'image), j'ai remarqué que les "blocs" sur le signal MPEG-4 deviennent de plus en plus perceptible, tandis que l'image, compressée au format H.264, elle continue d'être "lisse", se débarrassant des artefacts en réduisant les détails de l'image.

La façon dont le codec H.264 « gère » les artefacts de blocage est due à des propriétés du format telles que la possibilité de réduire la taille du bloc jusqu'à 4x4 pixels, ainsi que l'utilisation d'un filtre de déblocage qui atténue les zones de contraste entre blocs adjacents.

Le déblocage nécessite beaucoup de ressources de calcul, par conséquent, pour sa mise en œuvre, les encodeurs de périphériques vidéo doivent utiliser des processeurs plus puissants (et donc plus chers !).

Les décodeurs capables de décoder un signal H.264 doivent également avoir plus de puissance de traitement. Le décodeur logiciel du signal H.264, qui a participé à notre "concours", implémenté sur un ordinateur personnel, était deux fois plus gourmand que son homologue MPEG-4 ; cela a été observé lors du tournage des deux scènes de test - dans le parking et dans le hall. Lors de l'utilisation d'applications logicielles permettant l'affichage simultané de plusieurs signaux de caméra, cela peut affecter considérablement les exigences matérielles des PC utilisés.

Malgré le fait que la diminution du débit binaire lors de l'utilisation du codec H.264 soit due aux exigences accrues en ressources informatiques, à mon avis, le format H.264 est une étape sérieuse dans le développement des systèmes de vidéosurveillance. L'efficacité de la mise en œuvre de la norme H.264 peut s'exprimer en augmentant la profondeur de l'archivage, en réduisant le coût de stockage des données vidéo ou en améliorant la qualité de l'image. Je pense que le format H.264 deviendra omniprésent en tant que norme de compression vidéo dans l'industrie de la sécurité, réduisant considérablement les coûts d'exploitation des systèmes de vidéosurveillance avec une résolution et des fréquences d'images plus élevées.

Ajoutée: 2017-08-31 12:11:30

Aujourd'hui, tous les systèmes de vidéosurveillance modernes sont numériques d'une manière ou d'une autre, c'est-à-dire que dans la forme finale, l'information a toujours une représentation numérique. A cet égard, pour un stockage et une transmission plus efficaces sur le réseau, la compression vidéo est nécessairement utilisée selon certains algorithmes.

Concepts de base

Presque tout le monde sait que la vidéo est une séquence d'images statiques qui changent avec le temps. Et ces images sont composées d'un tableau de pixels.

Un pixel est le plus petit élément logique d'une image qui change de couleur en fonction de son contenu.

Une image est un tableau de tous les pixels générés par une caméra vidéo à un moment précis. Actuellement, les tailles d'image les plus courantes dans les systèmes de vidéosurveillance sont : 960x576 (WD1), 1280x720 (HD), 1920x1080 (FullHD), 2688x1520 (4Mpix) et 2560x1920 (5 Mpix).

La fréquence d'images est la fréquence à laquelle les images sur le moniteur sont entrelacées. Dans la plupart des cas, 25 images par seconde est le maximum. Dans le jargon professionnel, les équipements capables d'enregistrer et de générer un flux vidéo avec une fréquence de 25 fps ont un préfixe RealTime. À cette fréquence, l'œil humain perçoit une image dynamique en douceur et sans secousses, comme dans la réalité.

Le débit binaire est le nombre de bits d'information utilisés pour stocker ou transmettre du contenu vidéo ou audio par unité de temps (bps). Le débit binaire affiche également le taux de compression du flux de données. Dans les systèmes de vidéosurveillance, le débit peut être constant (CBR - Constant Bitrate) ou variable (Variable Bitrate). Le débit constant correspond aux paramètres spécifiés et reste inchangé tout au long du fichier. Son principal avantage est que vous pouvez prédire la taille du fichier final. Avec un débit variable, le codec choisit sa valeur en fonction des paramètres de la qualité souhaitée. Pendant tout le fragment vidéo codé, le débit binaire peut changer.

Images clés (i - images) - images contenant des informations complètes sur l'image actuelle.

Les images prédites (p - images) sont des images contenant des informations uniquement sur la différence entre l'image actuelle et l'image précédente.

Tous les algorithmes de compression utilisés dans les systèmes de vidéosurveillance sont basés sur des technologies avec perte. C'est-à-dire que pendant le processus de compression, une partie des informations redondantes est coupée.

Pourquoi une vidéo doit-elle être compressée ?

Pour plus de clarté, calculons un flux vidéo sans compression à partir d'une caméra FullHD à une cadence de 25 images par seconde. Nous avons donc un cadre avec une résolution de 1920x1080 et un nombre total de pixels de 2073600. Imaginons un pixel dans la forme la plus simple de codage couleur - RGB24, où 8 bits sont alloués aux composants Rouge, Vert et Bleu. C'est-à-dire qu'un pixel occupera 24 bits d'espace d'information. Par conséquent, une image 1080p nécessiterait 49766400 bits ou 47,5 Mbps. J'aimerais avoir 25 telles images par seconde. Par conséquent, le débit binaire non compressé est de 47,5 x 25 = 1187,5 Mbit / s = 1,16 Gbit / s, c'est-à-dire que pour stocker un fragment vidéo d'une heure à partir d'une caméra vidéo IP 2 Mpix, vous aurez besoin 500 Go d'espace disque, et la bande passante du réseau gigabit ne suffira pas à transmettre le flux.

Il est à noter qu'habituellement le débit maximum d'un flux vidéo avec des paramètres identiques lorsqu'il est compressé avec le codec H.264 est généralement de 8 Mbps, soit près de 150 fois moins que celui d'une vidéo non compressée. De là, il est évident que sans algorithmes de compression, les systèmes de vidéosurveillance coûteraient des dizaines, voire des centaines de fois plus que ce que nous avons actuellement.

Algorithmes de compression modernes

Le temps ne s'arrête pas, les exigences en matière de qualité d'image ne cessent de croître. Dans le même temps, la bande passante des canaux de communication et la capacité de stockage ne suivraient pas du tout cette croissance, sans l'amélioration constante des algorithmes de compression.

Norme H.264

À l'heure actuelle, l'algorithme de compression H.264 domine les systèmes de vidéosurveillance depuis assez longtemps.

La compression H.264 consiste à éliminer les données redondantes et à réduire leur volume à l'aide de nombreux algorithmes, que nous ne traiterons pas en détail dans cet article.

Lors de la configuration de l'encodage dans les systèmes de vidéosurveillance, il existe trois principaux profils du codec H.264 :

Référence Le profil implique une charge minimale sur le processeur du décodeur avec une faible compression. Conçu pour visualiser un caméscope dans un réseau local sur un ordinateur.

Principale le profil crée une charge moyenne sur le processeur avec une compression élevée. Ce profil est universel et convient aux PC hautes performances et à la plupart des DVR.

Haute le profil offre une compression maximale avec une forte charge sur le décodeur. Le débit binaire lorsque vous travaillez avec un tel profil sera 2 à 3 fois inférieur à celui lorsque vous utilisez le profil de base. Lors de l'utilisation d'un serveur vidéo basé sur des processeurs Intel ou AMD, contrairement à un enregistreur vidéo, la charge sera répartie sur le fonctionnement de l'ensemble du système.

La norme H.265 évolutive

Le format de compression H.265 High Efficiency Video Coding (HEVC) est une avancée significative dans le codage vidéo numérique, dont le principal avantage est presque 2 fois l'efficacité par rapport à la norme H.264 précédente. Autrement dit, grâce au nouvel algorithme, la transmission du signal nécessite la moitié de la bande passante du réseau et la moitié de la capacité de stockage pour le stockage. Cela permet l'utilisation de logiciels et de matériel à un coût beaucoup plus faible.

Soit dit en passant, la nouvelle norme prend en charge des résolutions jusqu'à 35 Mpix (8192 x 4320 (8K)), puisque la taille de bloc maximale a été augmentée à 4096 pixels (H.264 a un bloc de 256 pixels).

Le codage parallèle, fourni par la norme H.265, permet de traiter simultanément différentes parties de la trame, ce qui accélère considérablement la lecture et permet d'utiliser pleinement les processeurs multicœurs modernes.

De plus, la nouvelle norme a reçu une technologie d'accès aléatoire à l'image (Clean Random Access), qui permet de décoder une trame sélectionnée aléatoirement sans avoir besoin de traiter les images précédentes dans le flux. Ceci est particulièrement souhaitable lorsque la surveillance vous oblige à passer rapidement à un canal spécifique.

Malgré tous les avantages, le H.265 est encore loin d'être généralisé. Premièrement, en raison du fait que son utilisation nécessite un matériel mis à jour, deuxièmement, pour utiliser le codec, il est nécessaire d'acheter un brevet, et troisièmement, il existe des écarts entre les efficacités obtenues en laboratoire et les conditions réelles.

À long terme, H.265 est susceptible de remplacer H.264 en tant que première solution de compression vidéo.

Format H.264+ optimisé

L'algorithme de compression H.264 + est un format innovant conçu spécifiquement pour une utilisation dans les systèmes de vidéosurveillance. En fait, H.264 + est un codec H.264 modifié (AVC), optimisé pour les tâches de vidéosurveillance, en tenant compte de toutes les fonctionnalités.

Dans la vidéo obtenue à partir des caméras de sécurité, la scène est toujours constante et ne change pratiquement pas, les objets d'intérêt en mouvement peuvent être absents pendant longtemps et le bruit généré dans de mauvaises conditions d'éclairage affecte considérablement la qualité de l'image. Dans le format mis à jour, toutes ces caractéristiques ont été prises en compte et sont traitées par les technologies suivantes qui augmentent le taux de compression :

  • codage prédictif basé sur le modèle de fond ;
  • Suppression de bruit;
  • gestion des flux vidéo à long terme.

Codage prédictif. Tous les algorithmes de compression modernes combinent la compression intra-trame et inter-trame. Dans la compression intra-trame, les images i de référence sont codées indépendamment des autres images, et les images p prédites utilisent des images i et d'autres images p (compression inter-images). Avec la compression inter-trame, l'efficacité dépend fortement du choix de la trame de référence. Étant donné que l'arrière-plan de la vidéosurveillance est stable, il est préférable de l'utiliser comme i-frame de référence, augmentant ainsi l'efficacité de la compression des objets fixes et réduisant le flux de données par images de référence. Un algorithme de prédiction intelligent sélectionne les images clés parmi celles avec les objets les moins mobiles.

Suppression de bruit. En règle générale, les objets en mouvement sont codés avec un arrière-plan statique pour maintenir la qualité. Le bruit de fond est codé avec le fond. H.264 + utilise des algorithmes spéciaux pour séparer l'arrière-plan de l'objet en mouvement et l'encoder avec un taux de compression plus élevé. Cette technologie vous permet de supprimer partiellement le bruit et de réduire le débit binaire.

Gestion des flux vidéo à long terme. Avec la réduction du bruit de fond, le débit vidéo dépend de la taille de la partie de fond de l'image. Par exemple, lors de la prise de vue en extérieur pendant la journée, l'arrière-plan représente une très petite partie de l'image, car à ce moment-là, il y a un grand nombre de personnes et de voitures en mouvement dans le cadre. Dans ce cas, le débit augmente considérablement. A l'inverse, la nuit, le débit diminue, car il y a beaucoup moins d'objets en mouvement. Le format H.264 + dispose d'algorithmes pour suivre l'intensité des flux vidéo et, en fonction de l'heure de la journée, modifie automatiquement le taux de compression. Cette technologie de contrôle de flux vidéo permet non seulement de réduire le volume de l'archive vidéo, mais aussi de préserver la qualité d'image des objets en mouvement.

Inconvénients de la compression vidéo

Lors de l'utilisation d'algorithmes de compression, des artefacts peuvent parfois être clairement observés dans l'image. Par exemple, diviser une image en blocs de 8x8 pixels ou perdre des détails fins de l'image (flou).

Conclusion

L'algorithme de compression H.264 reste le standard le plus répandu pour la grande majorité des systèmes de vidéosurveillance. Aujourd'hui, il remplit pleinement ses fonctions. Le format innovant H.265 ne s'est pas encore généralisé en raison de certaines particularités, mais il a toutes les chances de remplacer son prédécesseur. L'algorithme optimisé H.264 + n'a pas non plus d'application globale, car il n'est utilisé que par quelques fabricants.

Vous avez aimé l'article ? A partager entre amis :