MP3

Geschichte von MP3

MP3 ist ein im Jahre 1991 von Moving Pictures Experts Group (MPEG) standardisierter Audio-Codec und die typische Dateiendung des zugehörigen Datei-Formates. "MP3" ist eine verkürzte Form des vollständigen Namens "MPEG-1 Audio Layer 3".

Der Codec wurde ursprünglich speziell für die Verwendung als Tonspur im MPEG-Video-Format auf Video-CDs entwickelt. Aufgrund der knappen Vorgabe von nutzbarer Bandbreite musste MP3 auf möglichst geringem Raum eine möglichst originalgetreue Wiedergabe des ursprünglichen Klangs gewährleisten.

Heute ist MP3 das meistgenutzte Format zur Speicherung auf digitalen Datenträgern und zum Streaming über das Internet von Musik und Sprache, ferner wird MP3 auch weiterhin als Tonspur für Videos genutzt. Die früher gängigen portablen Abspielgeräte für Audio-Kassetten und Audio-CDs wurden mittlerweile vollständig von eigenständigen MP3-Hardware-Geräten verdrängt.

Grundlegende Informationen zu MP3

Zum Zeitpunkt seiner Vorstellung stellte der MP3-Codec eine Revolution im Bereich der digitalen Wiedergabe von Musik und Sprache dar: Erstmals war es möglich, Audio auf geringstem Raum zu speichern und in hoher Qualität digital wiederzugeben. Praktisch jeder Audio-Codec, welcher nach MP3 entwickelt wurde, basiert in irgendeiner Art auf den Grundideen von MP3.

Wesentliche Bestandteile des MP3-Verfahrens sind die Überführung des zeitdiskreten Audiosignals in die Frequenzdomäne mittels der MDCT-Transformation und die Entfernung irrelevanter Informationen nach den Erkenntnissen der Psychoakustik durch ein psychoakustisches Modell. Irrelevante Information ist in diesem Zusammenhang jegliche Information, die zwar im ursprünglichen Audiosignal enthalten ist, vom Menschen aber nicht wahrgenommen werden kann. Außer der MDCT-Transformation und dem psychoakustischen Modell wird die bewährte Huffman-Kodierung zur Kompression der Daten eingesetzt.

 

Die MDCT-Transformation kann mit den Schiebereglern eines Equalizers, wie er etwa auf einer handelsüblichen Stereoanlage oder etwa in den Einstellungsdialogen gängiger Medienplayer (siehe Abbildung) zu finden ist, veranschaulicht werden. Schiebt man alle Regler bis auf einen ganz nach unten, so ist nur noch ein kleiner Teil des ursprünglichen Klangs hörbar: der Klang der auf den Frequenzbereich des aktiven Schiebereglers begrenzt ist. Nur wenn alle Schieberegler aktiv sind, kann der Klang in seiner ursprünglichen Form gehört werden.

Liegt das digitale Audiosignal vor der MDCT-Transformation als durchgängige Wertefolge einzelner Spannungswerte vor, so liegt es nach der MDCT-Transformation aufgeteilt in 572 einzelne Frequenzkomponenten vor. Jede dieser Frequenzkomponenten enthält den auf einen schmalen Teil des Spektrums begrenzten Teil des hörbaren Klangs. Alle Frequenzkomponenten gemeinsam bilden das vollständige Klangbild. Die MDCT wird eingesetzt, um die Art, wie Klänge vom menschlichen Gehör verarbeitet werden, zu simulieren.

Für den Großteil der massiven Einsparungen bei MP3 ist das psychoakustische Modell zuständig. Dieses macht die Erkenntnisse der Psychoakustik nutzbar, um auf deren Basis Irrelevanz zu entfernen. Die wichtigsten Prinzipien der Psychoakustik sind dabei die Ruhehörschwelle und die Maskierung.

Das menschliche Gehör ist bei völliger Stille nicht gleich empfindlich für alle Frequenzen, tatsächlich hören wir im Bereich zwischen 2 kHz und 5 kHz am besten. Zum Ende des hörbaren Bereichs zwischen etwa 15Hz und 20kHz nimmt unser Hörvermögen ab und der Lautstärke der jeweiligen Komponente muss entsprechend hoch sein, damit sie überhaupt noch hörbar ist. Durch Experimente wurde die absolute Grenze des menschlichen Hörvermögens, die Ruhehörschwelle, festgelegt (siehe Abbildung). Alle Komponenten eines Audiosignals, die unter der Ruhehörschwelle bleiben können ohne jeglichen hörbaren Verlust entfernt werden.

 

In der Akustik kommt es auch zu Verdeckungen: Leiße Töne werden von lauten Töne überdeckt und sind daher nicht hörbar. Jeder, der schon mal während eines Raketenstarts eine Unterhaltung führen wollte, kennt dieses Phänomen. In der Psychoakustik nennt man das Phänomen Maskierung. Wie von der Abbildung gezeigt, wird die Maskierung wird als Anhebung der Ruhehörschwelle im Bereich der Frequenz des Störsignals interpretiert. Maskierung kommt tatsächlich in einer typischen Audioszene ständig vor, jedoch sind Teilverdeckungen von Klängen häufiger als vollständige Verdeckungen. Das psychoakustische Modell nutzt die Masikierung ebenso wie die Ruhehörschwelle, um unhörbare Bestandteile des Klanges herauszufiltern und weitere Einsparungen vorzunehmen.

 

Tatsächlich ist das psychoakustische Modell der einzige Bestandteil des Verfahrens, welcher noch immer in aktiver Entwicklung ist. Mit der Standardisierung des Verfahrens wurde zwar auch ein psychoakustisches Modell vorgestellt, dieses stellt jedoch ausdrücklich nur ein Beispiel dar. Aktuellere MP3-Codecs enthalten psychoakustische Modelle die auf neueren Erkenntnissen basieren und daher eine hörbar bessere Klangqualität bieten als die MP3-Codecs aus der Anfangszeit.

Die transformierten und von Irrelevanz befreiten Audio-Daten werden in einem letzten Schritt mittels der Huffman-Kodierung komprimiert. Die Huffman-Kodierung ist ein Standardverfahren der Kompression und kommt in der selben Form auch zum Einsatz in den verschiedensten Verfahren zur Kodierung von Stand- und Bewegtbildern, unter anderem in JPEG, MPEG-1 und MPEG-2. Huffman-Kodierung ist auch die entscheidende Komponente der universellen Kompressionsstandards ZIP und RAR.

Weitere Informationen

Weiterführende Informationen zum Thema MP3 finden Sie hier:

"Understanding MP3" von Martin Ruckert, ISBN 3528059052: Ein umfassendes Gesamtwerk zum Thema MP3 und eine Anleitung zum Schreiben eines eigenen MP3-Codecs.

"Wikipedia: MP3" von verschiedenen Autoren: http://de.wikipedia.org/wiki/Mp3