Kuinka kappaleita tunnistavat sovellukset, kuten Shazam, toimivat?

Spektrogrammi

Shazamista ja yrityksestä on tullut yksi upeimmista sovelluksista, joita voimme kuljettaa älypuhelimessa. Eikä kyse ole siitä, etteivätkö he olisi kuuluisia, koska kaikki tuntevat heidät jo, mutta silti tuntuu melkein taianomaiselta, että he pystyvät tunnistamaan, mikä kappale soi kulloinkin. Katsotaanpa, kuinka Shazamin kaltaiset sovellukset todella toimivat.

Spektrografia, olennainen pilari

Todellisuudessa nämä sovellukset perustuvat spektrografiaan tai spektroskopiaan, eli spektroskopiseen analyysiin liittyvään tietokokonaisuuteen. Ja näillä sanoilla sitä voi olla vaikea ymmärtää, mutta selitämme sen hetken kuluttua. Kun ääni syntyy, voimme kuulla sen, koska hiukkaset, jotka ovat meidän ja äänen lähteen välillä, liikkuvat, värähtelevät. Kun sanomme näiden hiukkasten liikkuvan, tarkoitamme, että ne synnyttävät aaltoja, jotka kulkevat paikasta toiseen. Sitä, kuinka monta kertaa nämä hiukkaset liikkuvat edestakaisin, kutsutaan taajuudeksi, ja varmasti olemme kaikki kuulleet äänen taajuudesta, eikö niin? No, tässä tapauksessa spektrografia on omistettu äänien taajuuden mittaamiseen tietyn ajanjakson aikana. Jokaisella äänellä on eri taajuus kullakin hetkellä, ja sen avulla voimme erottaa spektrogrammista, mitkä äänet soivat.

Kaikki on vertailukysymys

Mistä tiedät mikä biisi soi? Vertaamalla. Itse asiassa se on kuin "röntgenkuvan" ottamista ja sen vertaamista muihin jo tallennettuihin ääniröntgensäteisiin, jotta voimme tietää, mikä kaikista vastaa sitä. No, juuri näin Shazam ja muut sovellukset toimivat.

Spektrogrammi

Shazam on spektrografi

Kun käynnistämme Shazamin ja se kertoo meille, että se tunnistaa kappaleen, se itse asiassa muuttaa älypuhelimemme spektrografiksi. Se kaappaa äänen ja luo spektrogrammin, kuten tämän kappaleen yläpuolella. Kun sinulla on riittävän yksityiskohtainen spektrografi, voit verrata sitä koko tietokantaan, jonka he ovat tallentaneet.

Tietokanta on monimutkaisin

Todellisuudessa monimutkaisin kaikista on tietokanta, joka tallentaa kaikkien kappaleiden spektrogrammit. Tiedämme, kuinka vaikeaa on luoda musiikkipalvelu, joka sisältää kaiken maailman musiikin. Spotify on yksi näistä ohjelmista, mutta tärkeitä kappaleita siitä puuttuu edelleen. No, jos se on jo monimutkaista, kuvittele, millaista on kaikkien noiden kappaleiden spektrogrammien tallentaminen. On normaalia, että osa Shazamin ja muiden vastaavien sovellusten tiimin työstä on omistautua laajentamaan tietokantaa, joka itse asiassa on sovelluksen ydin.

Sen offline-käyttö on hyvin yksinkertaista

Joskus saatamme ihmetellä, kuinka nämä sovellukset voivat toimia offline-tilassa ilman Internet-yhteyttä. Se on itse asiassa hyvin yksinkertaista, koska he eivät koskaan anna meille tietoja ennen kuin he ovat yhteydessä Internetiin. Heidän ei tarvitse tallentaa koko kappaletta, heidän ei tarvitse tallentaa edes sitä musiikkikappaletta, jota haluamme analysoida. Todellisuudessa ainoa asia, mitä he säilyttävät, on spektrografiset tiedot, jotta niitä voidaan myöhemmin verrata tietokantaan, eikä se vie käytännössä mitään.

Algoritmi on välttämätön

Toinen näiden sovellusten tärkeimmistä näkökohdista on kuitenkin algoritmi, jota ne käyttävät kappaleiden vertailuun. Algoritmi ei todellisuudessa ole muuta kuin tapa suorittaa toimenpide. Shazamin algoritmia on parannettava jatkuvasti. Miksi? Koska heidän on työskenneltävä saadakseen järjestelmän seuraamaan polkua, jonka avulla se löytää kappaleen entistä nopeammin. Ja voi ajatella, että kun spektrogrammit on ymmärretty ja kappaleiden tietokanta valmis, kaikki on tehty, mutta mikään ei voi olla kauempana totuudesta. Ajatellaanpa, että spektrogrammia pitäisi verrata miljooniin ja miljooniin kappaleisiin. Algoritmi on kuitenkin yksi tärkeimmistä näkökohdista. Tämän parantamiseksi on useita tietokonetekniikoita, emmekä aio puhua niistä erityisesti, koska se olisi kuin puhuisi Pilvien muodosta myrskyisenä päivänä. On kuitenkin aina hyvä tietää, että sovelluksen algoritmi on yksi olennaisista elementeistä spektrografiafunktion ja kappaletietokannan ohella.


  1.   Klinikka dijo

    Chazam on perseestä. Se on niin paljon parempi Soundhound tai Sonyn raidan tunnus.


  2.   Beattlen dijo

    Mielenkiintoista…