Jak aplikacje rozpoznające utwory, takie jak Shazam?

Spektrogram

Shazam i spółka stały się jedną z najbardziej niesamowitych aplikacji, które możemy nosić na smartfonie. I nie chodzi o to, że nie są sławni, bo wszyscy już ich znają, ale to, że są w stanie rozpoznać, który utwór jest grany w danym momencie, wydaje się niemal magiczne. Zobaczmy, jak faktycznie działają aplikacje takie jak Shazam.

Spektrografia, podstawowy filar

W rzeczywistości aplikacje te opierają się na tym, co znamy jako spektrografia lub spektroskopia, czyli zasób wiedzy związany z analizą spektroskopową. I z tymi słowami może być trudno zrozumieć, ale wyjaśnimy to za chwilę. Kiedy pojawia się jakikolwiek dźwięk, możemy go usłyszeć, ponieważ cząsteczki znajdujące się między nami a źródłem tego dźwięku poruszają się, wibrują. Kiedy mówimy, że te cząstki się poruszają, mamy na myśli, że generują fale, które przechodzą z jednego miejsca do drugiego. To, ile razy te cząstki poruszają się tam iz powrotem, nazywa się częstotliwością i na pewno wszyscy słyszeliśmy o częstotliwości dźwięku, prawda? Cóż, spektrografia w tym przypadku służy do pomiaru częstotliwości dźwięków w określonym przedziale czasu. Każdy dźwięk ma w każdym momencie inną częstotliwość, co pozwala na rozróżnienie na spektrogramie, które dźwięki brzmią.

To wszystko kwestia porównania

Skąd wiesz, jaka piosenka jest grana? Porównanie. Właściwie to tak, jakby wziąć „prześwietlenie” i porównać je z innymi prześwietleniami dźwięków, które już przechowywaliśmy, dzięki czemu możemy wiedzieć, który ze wszystkich pasuje do tego. Cóż, dokładnie tak działa Shazam i inne aplikacje.

Spektrogram

Shazam to spektrograf

Kiedy uruchamiamy Shazam i mówi nam, że rozpoznaje piosenkę, tak naprawdę zmienia nasz smartfon w spektrograf. To przechwytywanie dźwięku i generowanie spektrogramu, takiego jak ten, który masz tuż nad tym akapitem. Gdy masz wystarczająco szczegółowy spektrograf, porównujesz go z całą przechowywaną przez niego bazą danych.

Baza danych jest najbardziej złożona

Właściwie najbardziej złożona jest baza danych, która przechowuje spektrogramy wszystkich piosenek. Wiemy, jak trudno jest stworzyć serwis muzyczny zawierający całą muzykę świata. Spotify jest jednym z tych programów, ale wciąż brakuje w nim ważnych utworów. Cóż, jeśli to już jest skomplikowane, wyobraź sobie, jak to jest przechowywać spektrogramy wszystkich tych piosenek. To normalne, że częścią pracy zespołu Shazam i innych podobnych aplikacji jest poświęcenie się rozbudowie bazy danych, która w rzeczywistości jest sercem aplikacji.

Jego działanie w trybie offline jest bardzo proste

Czasami możemy się zastanawiać, jak te aplikacje mogą działać w trybie offline, bez połączenia z Internetem. W rzeczywistości jest to bardzo proste, ponieważ nigdy nie przekazują nam danych, dopóki nie połączą się z Internetem. Nie muszą zapisywać całej piosenki, nie muszą nawet zapisywać utworu muzycznego, który chcemy analizować. W rzeczywistości jedyne, co przechowują, to dane spektrograficzne, aby można je później porównać w bazie danych, a to praktycznie nic nie zajmuje.

Algorytm jest niezbędny

Jednak innym z najważniejszych aspektów tych aplikacji jest algorytm, którego używają do porównywania utworów. Algorytm w rzeczywistości to nic innego jak sposób wykonania procedury. Algorytm Shazama musi być stale ulepszany. Czemu? Ponieważ muszą pracować, aby system podążał ścieżką, która pozwoli mu jeszcze szybciej znaleźć piosenkę. I to jest tak, że można sądzić, że po zrozumieniu spektrogramów i skompletowaniu bazy utworów, wszystko jest zrobione, ale nic nie jest dalsze od prawdy. Załóżmy, że musisz porównać spektrogram z milionami piosenek. Jednak algorytm jest jednym z głównych aspektów. Istnieje kilka technik komputerowych, które mogą to poprawić i nie będziemy mówić o żadnej w szczególności, ponieważ byłoby to tak, jakby mówić o kształcie Chmur w burzliwy dzień. Jednak zawsze dobrze jest wiedzieć, że algorytm aplikacji jest jednym z podstawowych elementów, obok funkcji spektrograficznej i bazy danych utworów.


  1.   Klinika powiedział

    Chazam jest do bani. Jest o wiele lepszy Soundhound lub ID utworu od Sony.


  2.   bijatyka powiedział

    Ciekawy…