Tatouage robuste


Tatouage robuste : Audio

La représentation de données audio est très différente de celle de données visuelles, et le fonctionnement de l'oreille est par certains aspects mieux maîtrisé que celui de l'oeil. Les modèles psycho-acoustiques sont par exemple plus précis que les modèles psycho-visuels, et l'inaudibilité bien mieux maîtrisée que l'invisibilité. On travaille habituellement en audio sur des fenêtres d'analyse, qui sont tout simplement des tranches successives de signal, de taille fixée (environ 20 ms) ; cette approche se retrouve aussi en tatouage. A l'échelle d'une fenêtre, le signal est considéré comme modélisable par un processus aléatoire stationnaire. Remarquons enfin que d'une fenêtre à la suivante, la puissance dud signal peut varier très fortement (jusqu'à 50 dB pour de la parole, 90 dB pour de la musique). Notons également que les signaux de parole sont plus structurés et mieux modélisés que les signaux musicaux.

1  Tatouage de signal audio non compressé

Parmi les toutes premières techniques proposées, on peut citer [7,6]. On trouve également dans [14] une présentation de l'analogie entre le tatouage et un système de communication standard. Elle ressemble à [6] car elle utilise aussi une modulation et de l'étalement de spectre, mais elle s'en distingue par le fait qu'elle n'est pas additive. Son principe est le suivant : les composantes spectrales du signal qui se trouvent en-dessous du seuil de masquage sont remplacées par des composantes de tatouage. La puissance du tatouage ainsi obtenu est faible, ce qui est un bon point pour l'inaudibilité, mais un auvais point pour la résistance aux distorsions. Néanmoins, dans le cas où la robustesse ne serait pas un objectif en soi, cette méthode est très performante. On peut également citer [15], qui propose tout d'abord de calculer, pour chaque fenêtre d'analyse, un premier vecteur obtenu par une transformation temps/fréquences à recouvrement (modulated lapped transform) ; on génère ensuite un second vecteur de même taille, composé d'une suite de valeurs±∆, générée à partir d'une séquence PN ; ce deuxième vecteur est ensuite additionné aux modules des somposantes du premier vecteur, exprimés en dB. Cette proposition s'appuie sur des études psychiacoustiques (loi de Weber). On applique enfin la transformée invers pour retomber dans le domaine temporel. La détection consiste en une mesure de corrélation entre la séquence PN prétendument utilisée. Dans sa version simple, le schéma est très sensible aux distorsion asynchrones, mais les auteurs ont introduit un mécanisme permettant de rendre cette technique très robuste. La contrepartie est un débit faible (1 bit par seconde au maximum).
Une technique complètement différente a été proposée dans [5] : son principe est d'insérer de l'information par l'intermédiaire d'un écho. On sait en effet que si le même signal audio est répété dans un court intervalle de temps, l'oreille n'en entendra qu'un seul, et l'inaudibilité du filigrane est donc maîtrisée. C'est le retard introduit (suffisamment long pour être significatif, mais pas trop pour ne pas être entendu) qui va caractériser l'information binaire qui est cachée. L'inconvénient est qu'il faut pouvoir obtenir des informations précises sur des intervalles de temps faibles. Les auteurs montrent que les mesures d'autocovariance ne sont pas assez précises, et proposent l'utilisation de méthodes cepstrales (qui sont classiques en traitement de la parole). Deux études complètent ces travaux [26,16], mais il est difficile d'estimer précisément la performance de cette technique.
On peut encore citer [4], qui propose de modifier les bits les moins significatifs d'une version quantifiée des échantillons du signal audio. Malheureusement, cette méthode n'a pas été testée expérimentalement, et on ne sait donc rien de sa robustesse.
Enfin, [27] propose d'additionner le signal original à sa version retardée, blanchie et spectralement mise en forme. L'information à transmettre module le retard. Lors de l'extraction, le signal tatoué est blanchi puis la mesure du maximum d'autocorrélation permet de déterminer le retard introduit, et donc le message.
Certains travaux se sont focalisés sur les signaux de la parole, qui présentente des caractéristiques particulières, et sont notamment plus faciles à modéliser. On peut citer [8,19,20].


Pour terminer ce paragraphe, mentionnons le schéma asymétrique présenté dans [12], qui fut ensuite adapté aux signaux audio [13]. Le principe est le suivant : une densité spectrale de puissance connue, fortement colorée, est imposée au signal servant de base au filigrane ; les échantillons dans la fenêtre d'analyse sont alors permutés pseudo-aléatoirement par un entrelaceur et le signal est blanchi. Le filigrane, obtenu par mise en forme spectrale du signal blanchi d'après un seuil de masquage, est alors additionné au signal audio. Lors de la détection, on commence par appliquer un filtre de Wiener au signal tatoué, ce qui nous donne, après désentrelacement, une estimation du filigrane. Cette opération rétablie les propriétés spectrales du filigrane. Ainsi, soit le signal n'a pas été tatoué et on observe un signal blanc, soit il a été tatoué et la densité spectrale de puissance du filigrane estimé contient une composante constante et une composante fortement colorée (proportionnelle à la densité spectrale de puissance du filigrane inséré). La connaissance dont le détecteur a besoin, et qui constitue ici une donnée publique, est la densité spectrale de puissance du filigrane que l'on s'attend à trouver. La clé privée est le filigrane lui-même. Et comme la densité spectrale de puissance ne donne pas d'information sur la phase du filigrane, il est impossible à un attaquant de retrouver le filigrane pour essayer de l'enlever. Cette méthode est particulièrement intéressante par cette caractéristique asymétrique, mais reste très sensible à des distorsions asynchrones, à cause de la présence de l'entrelaceur. Ces résultats ont ensuite été améliorés dans [10], qui a proposé comme transformation non inversible, liant la clé privée et la clé publique, le passage d'un signal cyclostationnaire à sa cyclofréquence. Grâce à ce m"canisme, on montre qu'il est possible de cacher simultanément dans le signal audio des données publiques et des données privées, avec des taux d'erreur et des débits tout à fait réalistes.

2  Tatouage de signal audio compressé

Une première solution a été proposée pour insérer un filigrane directement dans un flux compressé au format MPEG-2 AAC [17]. L'insertion consiste en la modification de facteurs d'échelle dans le train binaire. Comme l'attaquant ne sait pas quels facteurs d'échelle ont servi, il ne peut attaquer le filigrane dans le domaine comprimé (il pourrait essayer au hasard, mais cela ne suffirait pas, ou entrainerait une dégradation importante du document). Par contre, le filigrane disparait dès que l'on décompresse le signal. Une autre technique opérant sur le flux MPEG-2 AAC insère le filigrane dans les coefficients de la MDCT (transformée en cosinus discrète modifiée), et dans ce cas le filigrane résiste à la décompression [24].

3  Tatouage informé

Une première proposition d'un schéma de tatouage informé pour l'audio a été présentée dans [9]. Les auteurs de [2] comparent deux autres stratégies : [22] et [21]. On peut également citer les travaux très récents présentés dans [25].

4  Spécificité face aux distorsions asynchrones

On ne peut ici se contenter d'insérer un motif connu pour resynchroniser le signal lors de la détection, notamment parce que les fréquences d'horloge des processeurs utilisés lors de l'insertion et de la détection peuvent être légèrement différentes. Si on prend l'exemple de deux PC, la dérive dues aux caractéristiques différentes des quartz revient à perdre ou rajouter environ un échantillon tous les 2500, ce qui est très fréquent. Il faut donc obligatoirement prévoire une procédure de resynchronisation locale. Notons de plus que les signaux audio sont souvent soumis à un time stretching lors de leur radiodiffusion : il s'agit de faire varier la vitesse de lecture d'un signal, tout en conservant sa tonalité, afin d'adapter le temps de diffusion au temps disponible. Cette opération est redoutable, et le filigrane doit y faire face. Des solutions proposées pour améliorer la robustesse des techniques de tatouage audio face à de telles manipulations sont [23,11,1,3].

5  Autres approches

D'autres approches et considérations ont débouché sur des réusltats intéressants, comme [28,18].

References

[1] C. Baras. Etude de la mise en forme de l'information binaire dans un système de tatouage audio. Technical report, ENST Paris, mémoire de DEA, 2002.
[2] C. Baras, N. Moreau, and P. Dymarski. Comparative study of two informed embedding strategies for audio spread-spectrum data hiding systems. In EUSIPCO 2005, 2005.
[3] C. Baras, N. Moreau, and B. Zayen. Mécanisme de synchronisation en tatouage audio pour des perturbations désynchronisantes à forte dérive. In GRETSI 2005, 2005.
[4] P. Bassia and I. Pitas. Robust audio watermarking in the time domain. In EUSIPCO'98, pages 25-28, 1998.
[5] W. Bender, D. Gruhl, N. Morimoto, and A. Lu. Techniques for data hiding. IBM Systems Journal, 35(3/4):313-336, 1996.
[6] L. Boney, A. Tewfik, and K. Hamdy. Digital watermarks for audio signals. In IEEE ICMCS'96, pages 473-480. IEEE, 1996.
[7] P. Bourcet, D. Masse, and B. Jahan. Système de diffusion de données. brevet d'invention numéro 95 06727, Télédiffusion De France, 1995.
[8] Q. Cheng and J. Sorensen. Spread spectrum signaling for speech watermarking. In IEEE ICASSP'01, volume 3, pages 1337-1340, 2001.
[9] J. Chou, K. Ramchandran, and A. Ortega. Next generation techniques for robust and imperceptible audio data hiding. In IEEE ICASSP'01, volume 3, pages 1349-1352. IEEE, 2001.
[10] L. de Campos Teixeira Gomes. Tatouage audio. PhD thesis, Université Paris 5, 2002.
[11] L. de Campos Teixeira Gomes, E. Gomez, M. Bonnet, and N. Moreau. Resynchronization methods for audio watermarking. In 110th convention of the AES, 2001.
[12] T. Furon and P. Duhamel. An asymmetric public detection watermarking technique. In International Workshop on Information Hiding - WIH'99, number 1768 in Lecture Notes in Computer Science, pages 88-100. Springer-Verlag, 2000.
[13] T. Furon, N. Moreau, and P. Duhamel. Audio public key watermarking technique. In IEEE ICASSP'00, volume 4, pages 1959-1962. IEEE, 2000.
[14] R. Garcia. Digital watermarking of audio signals using psychoacoustic auditory model and spread spectrum theory. In 107th convention of AES, 1999.
[15] D. Kirovski and H. Malvar. Robust spread spectrum audio watermarking. In IEEE ICASSP'01, volume 3, pages 1345-1348. IEEE, 2001.
[16] B. Ko, R. Nishimura, and Y. Suzuki. Time-spread echo method for digital audio watermarking using pn sequences. In IEEE ICASSP'02, volume 2, pages 2001-2004. IEEE, 2002.
[17] J. Lacy, S. Quackenbush, A. Reibman, D. Shur, and J. Snyder. On combining watermarking with perceptual coding. In IEEE ICASSP'98, volume 6, pages 3725-3728. IEEE, 1998.
[18] S. Larbi and M. Jaidane-Saidane. Audio watermarking: a way to stationnarize audio signals. IEEE Transactions on Signal Processing, 53(2):816-823, 2005. numéro spécial "Supplement on Secure Media II".
[19] J. Liénard. Transmission d'un message numérique caché dans un signal audio. In 18e colloque sur le traitement du signal et des images - GRETSI'01, 2001.
[20] A. LoboGuerrero, J. Liénard, and P. Bas. Implémentation d'un système de tatoauge pour la transmission de données. In Journées d'étude sur la parole, 2002.
[21] H. Malvar and D.A.F. Florêncio. Improved spread spectrum: A new modulation technique for robust watermarking. IEEE Transactions on Signal Processing, 51(4):898-905, 2003. numéro spécial ßignal processing for data hiding in digital media and secure content delivery".
[22] M. Miller, G. Doërr, and I. Cox. Applying informed coding and embedding to design a robust, high capacity watermark. IEEE Transactions on Image Processing, 13(6):792-807, 2004.
[23] N. Moreau, P. Dymarski, and L. de Campos Teixeira Gomes. Tatouage audio : une réponse à une attaque désynchronisante. In 6e journées d'études et d'échanges ; compression et représentation des signaux audiovisuels, 2000.
[24] C. Neubauer and J. Herre. Audio watermarking of mpeg-2 aac bit streams. In 108th convention of the AES, 2000.
[25] F. O'Donovan, N. Hurley, and G. Silvestre. An investigation of robustness in nonlinear audio watermarking. In IS&T/SPIE International Symposium on Electronic Imaging 2005, volume 5681 of Proceedings of the SPIE, pages 769-778. SPIE, 2005. Security, Steganography, and Watermarking of Multimedia Contents VII.
[26] H. Oh, J. Seok, J. Hong, and D. Youn. New echo embedding technique for robust and imperceptible audio watermarking. In IEEE ICASSP'01, volume 3, pages 1341-1344. IEEE, 2001.
[27] J. Seok and J. Hong. Prediction-based audio watermark detection algorithm. In 109th convention of AES, 2000.
[28] A. Takahashi, R. Nishimura, and Y. Suzuki. Multiple watermarks for stereo audio aignals using phase-modulation techniques. IEEE Transactions on Signal Processing, 53(2):806-815, 2005. numéro spécial "Supplement on Secure Media II".

Informations sur le parcours

Titre :
Tatouage robuste
Profil(s) :
Enseignant & Lycéen, Ingénieur informatique, Enseignant-Chercheur, Etudiant
Thème :
Marquage d'image et stéganographie
Finalité :
Pédagogique
Difficulté :
niveau 2
Auteur(s) :
Caroline Fontaine
Mise à jour :
16/12/2005

Syndication

Il vous est possible de suivre la publication des parcours PICSI via le fil RSS des parcours.