Hur fungerar appar som känner igen låtar, som Shazam?

Spektrogram

Shazam och företaget har blivit en av de mest fantastiska applikationer som vi kan bära på en smartphone. Och det är inte så att de inte är kända, för alla känner dem redan, men det verkar ändå nästan magiskt att de kan känna igen vilken låt som spelas vid varje givet ögonblick. Låt oss se hur appar som Shazam faktiskt fungerar.

Spektrografi, den väsentliga pelaren

I verkligheten är dessa tillämpningar baserade på vad vi känner som spektrografi, eller spektroskopi, det vill säga kunskapsmassan relaterad till spektroskopisk analys. Och med dessa ord kan det vara svårt att förstå men vi kommer att förklara det om ett ögonblick. När något ljud produceras kan vi höra det eftersom partiklarna som finns mellan oss och källan till det ljudet rör sig, vibrerar. När vi säger att dessa partiklar rör sig menar vi att de genererar vågor, som går från en plats till en annan. Antalet gånger dessa partiklar rör sig fram och tillbaka kallas frekvensen, och visst har vi alla hört talas om frekvensen av ett ljud, eller hur? Tja, spektrografi, i det här fallet, är tillägnad att mäta frekvensen av ljud under en viss tidsperiod. Varje ljud har en annan frekvens vid varje ögonblick, och det gör att vi på ett spektrogram kan skilja vilka ljud som låter.

Allt handlar om att jämföra

Hur vet du vilken låt som spelas? Jämförande. Egentligen är det som att ta en "röntgen" och jämföra den med andra röntgenstrålar av ljud som vi redan hade lagrat, och på så sätt kunna veta vilken av alla som matchar den. Det är precis så Shazam och andra appar fungerar.

Spektrogram

Shazam är en spektrograf

När vi startar Shazam, och den säger att den känner igen låten, är vad den faktiskt gör att förvandla vår smartphone till en spektrograf. Det fångar ljudet och genererar ett spektrogram som det du har precis ovanför detta stycke. När du väl har en tillräckligt detaljerad spektrograf fortsätter du att jämföra den med hela databasen de har lagrat.

Databasen är den mest komplexa

Egentligen är den mest komplexa av allt databasen som lagrar spektrogrammen för alla låtarna. Vi vet hur svårt det är att skapa en musiktjänst som innehåller all musik i världen. Spotify är ett av dessa program, men viktiga låtar saknas fortfarande i det. Tja, om det redan är komplext, föreställ dig hur det måste vara att lagra spektrogrammen för alla dessa låtar. Det är normalt att en del av arbetet i teamet av Shazam och andra liknande applikationer är att ägna sig åt att utöka databasen som i själva verket är hjärtat i applikationen.

Dess offlineoperation är mycket enkel

Ibland kanske vi undrar hur dessa applikationer kan fungera offline, utan en internetanslutning. Det är faktiskt väldigt enkelt, eftersom de aldrig ger oss data förrän de är anslutna till Internet. De behöver inte spara hela låten, de behöver inte ens spara musikstycket som vi vill analysera. I verkligheten är det enda de behåller spektrografiska data, så att de senare kan jämföras i databasen, och det tar praktiskt taget ingenting.

Algoritmen är viktig

En annan av de viktigaste aspekterna av dessa applikationer är dock algoritmen de använder för att jämföra låtar. En algoritm är i verkligheten inget annat än ett sätt att utföra en procedur. Shazams algoritm måste ständigt förbättras. Varför? För de måste jobba för att få systemet att följa en väg som gör att det kan hitta låten ännu snabbare. Och det är att man kan tro att när spektrogrammen väl är förstått och sångdatabasen är klar är allt gjort, men ingenting är längre från sanningen. Låt oss tro att du måste jämföra spektrogrammet med miljoner och åter miljoner låtar. Algoritmen är dock en av huvudaspekterna. Det finns flera datortekniker för att förbättra detta, och vi kommer inte att prata om någon särskilt eftersom det skulle vara som att prata om formen på molnen en stormig dag. Det är dock alltid bra att veta att applikationens algoritm är en av de väsentliga delarna, tillsammans med spektrografifunktionen och låtdatabasen.


  1.   kliniken sade

    Chazam suger. Det är såååå mycket bättre Soundhound eller spår-ID från Sony.


  2.   Beatteln sade

    Intressant…