Hvordan fungerer apper som gjenkjenner sanger, som Shazam?

Spektrogram

Shazam og selskapet har blitt en av de mest fantastiske applikasjonene vi kan bære på en smarttelefon. Og det er ikke det at de ikke er kjente, for alle kjenner dem allerede, men det virker likevel nesten magisk at de er i stand til å gjenkjenne hvilken sang som spilles til enhver tid. La oss se hvordan apper som Shazam faktisk fungerer.

Spektrografi, den essensielle søylen

I virkeligheten er disse applikasjonene basert på det vi kjenner som spektrografi, eller spektroskopi, det vil si kunnskapsmengden knyttet til spektroskopisk analyse. Og med disse ordene kan det være vanskelig å forstå, men vi vil forklare det om et øyeblikk. Når en lyd produseres, kan vi høre den fordi partiklene som er mellom oss og kilden til lyden beveger seg, vibrerer. Når vi sier at disse partiklene beveger seg, mener vi at de genererer bølger, som går fra et sted til et annet. Antall ganger disse partiklene beveger seg frem og tilbake kalles frekvensen, og vi har sikkert alle hørt om frekvensen til en lyd, ikke sant? Vel, spektrografi, i dette tilfellet, er dedikert til å måle frekvensen av lyder i en viss tidsperiode. Hver lyd har en annen frekvens i hvert øyeblikk, og det lar oss differensiere, på et spektrogram, hvilke lyder som høres.

Det hele handler om å sammenligne

Hvordan vet du hvilken sang som spilles? Sammenligner. Egentlig er det som å ta en "røntgen" og sammenligne den med andre røntgenbilder av lyder som vi allerede hadde lagret, og dermed kunne vite hvilken av alle som matcher den. Vel, det er akkurat slik Shazam og andre apper fungerer.

Spektrogram

Shazam er en spektrograf

Når vi starter Shazam, og den forteller oss at den gjenkjenner sangen, gjør den faktisk smarttelefonen vår til en spektrograf. Det fanger opp lyden og genererer et spektrogram som det du har rett over dette avsnittet. Når du har en tilstrekkelig detaljert spektrograf, fortsetter du med å sammenligne den med hele databasen de har lagret.

Databasen er den mest komplekse

Faktisk er den mest komplekse av alt databasen som lagrer spektrogrammene til alle sangene. Vi vet hvor vanskelig det er å lage en musikktjeneste som inneholder all musikken i verden. Spotify er et av disse programmene, men det mangler fortsatt viktige sanger. Vel, hvis det allerede er komplekst, forestill deg hvordan det må være å lagre spektrogrammene til alle disse sangene. Det er normalt at en del av arbeidet til teamet til Shazam og andre lignende applikasjoner er å dedikere til å utvide databasen som faktisk er hjertet i applikasjonen.

Dens offline operasjon er veldig enkel

Noen ganger lurer vi kanskje på hvordan disse applikasjonene kan fungere offline, uten Internett-tilkobling. Det er faktisk veldig enkelt, siden de aldri gir oss dataene før de er koblet til Internett. De trenger ikke å lagre hele sangen, de trenger ikke engang å lagre musikkstykket vi ønsker å analysere. I virkeligheten er det eneste de beholder spektrografiske data, slik at de senere kan sammenlignes i databasen, og det tar praktisk talt ingenting.

Algoritmen er viktig

En annen av de viktigste aspektene ved disse applikasjonene er imidlertid algoritmen de bruker for å sammenligne sanger. En algoritme er i virkeligheten ikke noe mer enn en måte å utføre en prosedyre på. Shazams algoritme må stadig forbedres. Hvorfor? For de må jobbe for å få systemet til å følge en vei som gjør at det kan finne sangen enda raskere. Og det er at man kan tenke at når spektrogrammene først er forstått og databasen med sanger er fullført, er alt gjort, men ingenting kan være lenger fra sannheten. La oss tenke at du bør sammenligne spektrogrammet med millioner og millioner av sanger. Algoritmen er imidlertid et av hovedaspektene. Det er flere datateknikker for å forbedre dette, og vi skal ikke snakke om noen spesielt fordi det ville være som å snakke om formen til skyene på en stormfull dag. Det er imidlertid alltid godt å vite at algoritmen til applikasjonen er et av de essensielle elementene, sammen med spektrografifunksjonen og sangdatabasen.


  1.   klinikken sa

    Chazam suger. Det er såååå mye bedre Soundhound eller spor-ID fra Sony.


  2.   Beatlen sa

    Interessant…