Nagrywając płyty CD, tworząc pliki MP3, czy nawet komponując przy pomocy komputera z reguły nie zadajemy sobie pytania: Czym tak naprawdę jest dźwięk cyfrowy? Jeżeli dodatkowo nasza wiedza z dziedziny fizyki i akustyki jest uboga, to zapewne nie potrafimy sobie wyobrazić, jak komputery radzą sobie z dźwiękiem i muzyką. A szkoda, bo brak przynajmniej podstawowej wiedzy z reguły rodzi wiele nieporozumień. Czy płyta CD jest "gorsza" od winylowej? Co oznaczają częstotliwość i liczba bitów - najważniejsze parametry plików dźwiękowych WAVE? Pytania takie można mnożyć. Mama nadzieję, że lektura tej krótkiej instrukcji da odpowiedź przynajmniej na niektóre z nich. Na początek wyobraźmy sobie dźwięk - taki, jaki dociera do naszych uszu. Zapewne wiemy, że jest to fala rozchodząca się w powietrzu. Może ona mieć różną postać, ale my zajmiemy się najprostszą możliwością - idealną falą sinusoidalną. Wygląda ona tak: Rys. 1. Fala sinusoidalna. Falę taką usłyszymy jako monotonny, jednostajny dźwięk. Jego wysokość zależy od okresu fali - im będzie on krótszy, tym wyższy będzie usłyszany dźwięk. Dla komputera przedstawiona powyżej fala jest czymś zupełnie abstrakcyjnym. Całą rzeczywistość musi on zobrazować w systemie binarnym, czyli w postaci zer i jedynek. Jeżeli komputer poświęci na opisanie fali sinusoidalnej 1 bit pamięci, to uzyskamy następujący obraz: Rys. 2. Ta sama fala sinusoidalna - tym razem zapisana przez komputer w drodze samplingu 1-bitowego. Rozróżnione zostały jedynie 2 możliwe stany: 1 i -1. W efekcie fala jest bardzo zniekształcona. Oglądając rysunek 2 możemy się domyślić, że dźwięk 1-bitowy nie jest stosowany w technologii cyfrowej. Żeby uzyskać opis fali bardziej odpowiadający rzeczywistości trzeba zwiększyć liczbę bitów przeznaczonych na zapis dźwięku. Rozpatrzmy teraz rozdzielczość 2-bitową. Da nam ona 4 możliwe stany (22 = 4): Rys. 3. Jeszcze raz fala sinusoidalna - teraz w rozdzielczości dwubitowej. Uzyskany wykres wygląda znacznie lepiej, ale to wciąż za mało, by oszukać ludzkie ucho. Musimy jeszcze zwiększyć liczbę bitów, najlepiej do następujących wartości: •8 bitów - da nam to 256 możliwych poziomów dźwięku, •dźwięk 16-bitowy - 65536 możliwości. Kilkanaście lat temu standardem był dźwięk 8-bitowy. Wzrost szybkości procesorów i pojemności pamięci masowych spowodował upowszechnienie 16-bitowego formatu zapisu dźwięku. To w zupełności wystarcza, by ucho ludzkie nie wykryło żadnej różnicy między dźwiękiem analogowym (idealną falą) a cyfrowym. Obecnie możliwe jest stosowanie 24-bitowego dźwięku. Muzykom - amatorom w zupełności wystarczy jednak 16 bitów. Pracując z dźwiękiem cyfrowym nigdy nie należy przekraczać zakresu, jaki wyznacza nam ilość bitów wykorzystana w samplingu. Jeżeli falę przedstawioną poniżej Rys. 4. Fala sinusoidalna samplowana 16-bitowo. zgłośnimy dwukrotnie, to komputerowi "zabraknie bitów" na opisanie dynamiki brzmienia. Uzyskamy następujący efekt: Rys. 5. Przesterowana fala sinusoidalna. Jej dźwięk raczej nie jest miły dla ucha. Fala idealnie sinusoidalna przypomina teraz bardziej kwadratową. Efektem tej zmiany będzie pojawienie się częstotliwości harmonicznych i nieprzyjemne trzaski w głośnikach - przesterowania. Jeżeli nagraliśmy taki dźwięk, to niestety musimy powtórzyć nagranie. W dotychczasowych rozważaniach poruszyłem jedynie problemy związane z rozdzielczością cyfrowego dźwięku, widoczną na pionowej osi wykresów. Pominąłem natomiast problem czasu (widocznego na osi poziomej). Nie można jednak zapomnieć, że zmiany stanu fali w czasie również są dla komputera całkowicie abstrakcyjne. W naturze słyszymy dźwięki ciągłe - technika cyfrowa musi jednak opisać ich zmienność w czasie w postaci liczb. Z pomocą przychodzi tutaj częstotliwość próbkowania. Stopniowe, płynne zmiany stanu fali dźwiękowej zachodzące w czasie są opisywane przez komputer w drodze pobierania próbek dźwięku w ściśle ustalonych odstępach czasowych. Jeżeli częstostliwość próbkowania wynosi 1 Hz, to komputer bada stan fali dźwiękowej raz na sekundę. Rys. 6. Fala sinusoidalna próbkowana z częstotliwościa 1 Hz. W efekcie uzyskamy następujący zapis: Rys. 7. Ta sama fala po próbkowaniu. Ten rysunek przypomina wykres dźwięku 1-bitowego (mimo że zastosowanliśmy 16-bitów). Widać tutaj ogromną wagę właściwego wyboru częstotliwości próbkowania. Im będzie ona większa, tym lepiej dla jakości dźwięku. Dla przykładu obierzmy częstotliwość 8 Hz (8 próbek na sekundę): Rys. 8. Fala sinusoidalna - dźwięk 16-bitowy, częstotliwość próbkowania 8 Hz. Trochę lepiej, ale to wciąż za mało. Aby uzyskać znośny efekt trzeba próbkować w częstotliwością co najmniej kilku kiloherców. 44100 Hz da nam jakość płyty CD. To zupełnie wystarczy, by nie poczuć różnicy między analogowymi sposobami zapisu dźwięku (takimi jak kaseta magnetofonowa). Kończąc ten krótki przewodnik po zagadnieniach związanych z cyfrowym dźwiękiem chciałbym jeszcze przekazać poradę praktyczną: zawsze nagrywajmy dźwięk w formacie 16-bitowym i z częstotliwością próbkowania 44100 Hz. Sprawdź w swoim edytorze audio, czy opcje nagrywania i zapisu do plików WAVE są ustawione w ten właśnie sposób. Informacje, które przedstawiłem, mają spore znaczenie praktyczne. Pracując z cyfrowym dźwiękiem niejednokrotnie natrafimy na opisane powyżej zagadnienia. Próbki i bity możemy zobaczyć na własne oczy, w dowolnym edytorze dźwięku. Poniżej widoczny jest fragment okna programu Sweep, z wycinkiem silnie powiększonego wykresu falowego. Wyraźnie zauważalne są poszczególne próbki: Rys. 9. Dźwięk cyfrowy widziany w edytorze Sweep. To, co słyszymy jako doskonałej jakości dźwięk płyty CD, to tylko zbiór uporządkowanych liczb oszukujących nasze uszy. Oszukujących idealnie.
Cyfrowy zapis dźwięku opiera się na procedurze zwanej próbkowaniem. Próbkowanie, to odczytywanie poziomu sygnału akustycznego w danej chwili i zapisywanie jako liczby. Prawie zawsze liczba ta jest zapisywana w formacie dwójkowym. Tylko z racji zapisywania dźwięku przy odtwarzaniu powstaje wiele zniekształceń: pojawiają się tony, znikają tony, które były, powstają tzw. szumy próbkowania.