MP3 jest częścią MPEG-1, będącego standardem kompresji
dźwięku i ruchomych obrazów zaproponowanym przez
MPEG (Moving
Picture Experts Group). Format wideo MPEG-1 używany jest na Video CD.
Jakość obrazu przy zwykłej przepustowości VCD jest w przybliżeniu porównywalna
do tej znanych z kaset
VHS.
MPEG-1 składa się z wielu "partii", kolejno:
- Synchronizacja oraz mieszanie wideo i audio.
- Kodek kompresji sygnałów wideo bez przeplotu.
- Kodek kompresji stratnej sygnałów audio. Standard definiuje trzy
"warstwy", czy też poziomy złożoności kodowania audio MPEG.
- MP1 lub MPEG-1 Part 3 Layer 1 (MPEG-1 Audio Layer 1)
- MP2 lub MPEG-1 Part 3 Layer 2 (MPEG-1 Audio Layer 2)
- MP3 lub MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer 3)
- Procedury dla testów zgodności.
- Oprogramowanie referencyjne.
MP3 (ang.
MPEG-1 Audio Layer-3) to popularny format
stratnej kompresji dźwięku opierający się na
zmodyfikowanej dyskretnej transformacie cosinusowej i używający
modelu psychoakustycznego. Format został stworzony we
Fraunhofer Institute. Przy tworzeniu jego pierwszej
implementacji wykorzystywany był m.in. utwór
Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia
ludzkiego głosu.
Dźwięk
skompresowany z
przepływnością (ang. bitrate) 128
kbps daje
zazwyczaj zadowalającą jakość na przeciętnym sprzęcie odsłuchowym w
komputerach osobistych (128 kbps przyjmuje się jako odpowiadającą niskiej
jakości odtwarzaczom CD),
dźwięk skompresowany przy 192 kbps jest dla większości ludzi nieodróżnialny od
oryginału. Niektórzy słuchacze w celu uzyskania większej jakości dźwięku
stosują jeszcze słabszą kompresję (256 lub nawet 320 kbps). Jakość
zależy również w dużym stopniu od używanego do kompresji enkodera.
Pierwotnie do kompresji MP3 stosowano
Constant Bit Rate (CBR), czyli do każdej ramki używano tej samej ilości
bitów. Współcześnie używa się raczej
Variable Bit Rate (VBR) charakteryzującego się zmienną przepływnością w
wybranym przedziale podczas kodowania.
Kodowany dźwięk może posiadać postać zarówno jednokanałową (mono) jak i
dwukanałową (stereo). Istnieje też format MP3 Surround (do zapisu dźwięku
wielokanałowego 5.1) wstecznie zgodny z wcześniejszym standardem.
Dla dźwięku stereofonicznego format MP3 posiada trzy tryby kompresji:
- dual channel - w którym dźwięk jest zapisywany jako dwa odrębne
kanały monofoniczne.
- stereo (stereo mode 0) - w którym każda ramka zapisywana
jest algorytmem left/right stereo.
- joint stereo (stereo mode 1) - w którym dla każdej ramki
wybierany jest najlepszy dla niej algorytm zapisu dźwięku stereo.
Stosowanymi w kompresji MP3 algorytmami kodowania ramki dźwięku
stereofonicznego są:
- left/right stereo (simple stereo, independent channel)
- w którym dźwięk w kanałach prawym i lewym jest kodowany niezależnie, może
jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów.
Efektywny dla ramek, w których oba kanały różnią się w dużym stopniu.
- middle/side stereo - w którym sygnał stereo kodowany jest w
postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów.
Efektywny dla ramek, w których oba kanały przyjmują podobne wartości.
- intensity stereo - w którym sygnał stereo dla niektórych (głównie
wysokich) częstotliwości kodowany jest jako monofoniczna wartość uzupełniona
o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce
stosowany tylko przy niskiej przepływności (poniżej 80 kbps). Niektóre
enkodery (np. LAME)
w ogóle nie stosują tego algorytmu.
Pliki w tym formacie posiadają rozszerzenie .mp3.
CBR dostępne w MP3: 8 kb/s 16 kb/s 32 kb/s 40 kb/s 64 kb/s 80 kb/s 96 kb/s 112
kb/s 128 kb/s 160 kb/s 192 kb/s 224 kb/s 256 kb/s 320 kb/s
Struktura pliku MP3
Plik MP3 jest zbudowany z wielu ramek MP3, które składają sie z nagłówka
(MP3 header) oraz danych (MP3 data). Taka sekwencja ramek nazywana jest
strumieniem elementarnym. Ramki są niezależnymi jednostkami: można wyciąć
ramki z pliku MP3 i odtwarzacz MP3 będzie w stanie je odtworzyć.
Rys. 1 Struktura pliku MP3
Zródło obrazka (Wikipedia)
Diagram przedstawiony na rys. 1 pokazuje, że nagłówek MP3 składa się ze
sekwencji synchronizującej (Sync Word), wykorzystywanego do identyfikacji
początku prawidłowej ramki. Następnie jest bit oznaczający, że jest to
standard MPEG i dwa bity oznaczające, że warstwa 3 jest używana (MPEG-1 Audio Layer 3 albo MP3). Następne wartości zależą już od samego pliku MP3. Zakres
wartości dla każdego pola nagłówka, wraz ze specyfikacją samego nagłówka
zdefiniowane są przez ISO/IEC 11172-3. Większość dzisiejszych plików MP3
zawiera metadane ID3, które poprzedzają ramki MP3, co również zostało pokazane
na rys. 1
MP3 Surround
Rozszerzenie formatu mp3 stworzone przez twórców tego formatu pozwalające
na zapis formatu 5.1. Zapisywane są dwa kanały tak jak we zwykłej mp3, a
informacja potrzebna do wygenerowania dodatkowych kanałów jest zapisana w
Tagach mp3. Dzięki temu rozwiązaniu mp3 można odtwarzać jako zwykłe stereo na
odtwarzaczach sprzętowych. Zapisanie dodatkowych kanałów zajmuje mało
miejsca (ponieważ ich zapisywana jest informacja jak z dwóch kanałów
wygenerować inne). Najprawdopodobniej te rozwiązanie zostanie skopiowanie do
innych kompresorów dźwięku.
Linki:
http://wiki.hydrogenaudio.org/index.php?title=MP3 - Szczegółowy opis formatu i metody kompresji (ang.)
http://en.wikipedia.org/wiki/MP3 (ang.)
http://www.profon.xq.pl/publikacje/mpeg.htm - Standard kodowania MPEG-2
ISO/IEC JTC1/SC29/WG11 - o MPEG-1 (ang.) (Czerwiec 1996)