Hogyan ismerik fel a dalokat felismerő alkalmazások, például a Shazam?

Spektrogram

A Shazam és cége az egyik legcsodálatosabb alkalmazás lett, amelyet okostelefonon hordozhatunk. És nem arról van szó, hogy nem híresek, mert már mindenki ismeri őket, de mégis szinte varázslatosnak tűnik, hogy bármelyik pillanatban képesek felismerni, melyik dal szól. Lássuk, hogyan működnek valójában az olyan alkalmazások, mint a Shazam.

A spektrográfia, az alapvető pillér

A valóságban ezek az alkalmazások az általunk ismert spektrográfia, vagy spektroszkópia, vagyis a spektroszkópiai elemzéshez kapcsolódó tudásanyagon alapulnak. És ezekkel a szavakkal nehéz lehet megérteni, de mindjárt elmagyarázzuk. Amikor bármilyen hang keletkezik, halljuk, mert a köztünk lévő részecskék és a hang forrása között mozognak, vibrálnak. Amikor azt mondjuk, hogy ezek a részecskék mozognak, akkor azt értjük, hogy hullámokat generálnak, amelyek egyik helyről a másikra mennek. Ahányszor ezek a részecskék oda-vissza mozognak, frekvenciának nevezzük, és bizonyára mindannyian hallottunk a hangok frekvenciájáról, igaz? Nos, a spektrográfia ebben az esetben a hangok frekvenciájának egy bizonyos időtartamon belüli mérésére szolgál. Minden hangnak minden pillanatban más a frekvenciája, és ez lehetővé teszi számunkra, hogy egy spektrogramon megkülönböztessük, mely hangok szólnak.

Összehasonlítás kérdése az egész

Honnan tudod, hogy melyik dal szól? Összehasonlítás. Valójában ez olyan, mintha egy "röntgenfelvételt" készítenénk, és összehasonlítanánk más, már tárolt hangfelvételekkel, így megtudhatjuk, hogy az összes közül melyik egyezik ezzel. Nos, a Shazam és más alkalmazások pontosan így működnek.

Spektrogram

A Shazam egy spektrográf

Amikor elindítjuk a Shazamot, és azt mondja, hogy felismeri a dalt, valójában az okostelefonunkat spektrográfrá alakítja. Ez rögzíti a hangot, és olyan spektrogramot hoz létre, mint amilyen ez a bekezdés felett van. Ha van egy kellően részletes spektrográf, akkor összehasonlíthatja azt az általuk tárolt teljes adatbázissal.

Az adatbázis a legösszetettebb

Valójában a legösszetettebb az az adatbázis, amely az összes dal spektrogramját tárolja. Tudjuk, milyen nehéz olyan zenei szolgáltatást létrehozni, amely a világ összes zenéjét tartalmazza. A Spotify az egyik ilyen program, de a fontos dalok továbbra is hiányoznak belőle. Nos, ha ez már bonyolult, képzelje el, milyen lehet az összes dal spektrogramját tárolni. Normális, hogy a Shazam és más hasonló alkalmazások csapata munkájának része az adatbázis bővítése, amely valójában az alkalmazás szíve.

Offline működése nagyon egyszerű

Néha elgondolkodhatunk azon, hogyan működhetnek ezek az alkalmazások offline, internetkapcsolat nélkül. Valójában nagyon egyszerű, hiszen soha nem adják meg nekünk az adatokat, amíg nem csatlakoznak az internethez. Nem kell a teljes dalt elmenteniük, de még azt a zenét sem, amelyet elemezni szeretnénk. Valójában csak a spektrográfiai adatokat tartják meg, hogy később össze lehessen hasonlítani az adatbázisban, és ez gyakorlatilag semmit sem foglal el.

Az algoritmus elengedhetetlen

Azonban ezen alkalmazások másik legfontosabb szempontja a dalok összehasonlítására használt algoritmus. Az algoritmus valójában nem más, mint egy eljárás végrehajtásának módja. A Shazam algoritmusát folyamatosan fejleszteni kell. Miért? Mert dolgozniuk kell azon, hogy a rendszer olyan utat járjon be, amely lehetővé teszi, hogy még gyorsabban megtalálja a dalt. És az ember azt gondolhatja, hogy a spektrogramok megértése és a dalok adatbázisának elkészülte után minden készen van, de semmi sem állhat távolabb az igazságtól. Gondoljunk arra, hogy a spektrogramot millió és millió dallal kellene összehasonlítani. Az algoritmus azonban az egyik fő szempont. Számos számítógépes technika létezik ennek javítására, és ezekről nem fogunk különösebben beszélni, mert az olyan lenne, mintha a Felhők alakjáról beszélnénk egy viharos napon. Azt azonban mindig jó tudni, hogy az alkalmazás algoritmusa az egyik lényeges elem a spektrográfiai függvény és a daladatbázis függvénye mellett.


  1.   a klinika dijo

    Chazam szívás. Sokkal jobb Soundhound vagy track ID a Sony-tól.


  2.   A beattle dijo

    Érdekes…