Wie funktionieren Apps, die Lieder erkennen, wie Shazam?

Spektrogramm

Shazam und Co. sind zu einer der erstaunlichsten Anwendungen geworden, die wir auf einem Smartphone ausführen können. Und es ist nicht so, dass sie nicht berühmt sind, denn jeder kennt sie schon, aber es scheint fast magisch zu sein, dass sie in der Lage sind, zu jedem Zeitpunkt zu erkennen, welches Lied gerade gespielt wird. Sehen wir uns an, wie Apps wie Shazam tatsächlich funktionieren.

Spektrographie, die wesentliche Säule

In Wirklichkeit basieren diese Anwendungen auf dem, was wir als Spektrographie oder Spektroskopie kennen, d. h. das Wissen über die spektroskopische Analyse. Und mit diesen Worten kann es schwer zu verstehen sein, aber wir werden es gleich erklären. Wenn ein Ton erzeugt wird, können wir ihn hören, weil sich die Partikel zwischen uns und der Quelle dieses Tons bewegen, schwingen. Wenn wir sagen, dass sich diese Teilchen bewegen, meinen wir, dass sie Wellen erzeugen, die von einem Ort zum anderen gehen. Die Häufigkeit, mit der sich diese Teilchen hin und her bewegen, wird als Frequenz bezeichnet, und wir haben sicherlich alle von der Frequenz eines Geräusches gehört, oder? Nun, die Spektrographie ist in diesem Fall der Messung der Frequenz von Geräuschen in einem bestimmten Zeitraum gewidmet. Jeder Ton hat zu jedem Zeitpunkt eine andere Frequenz, und das ermöglicht es uns, anhand eines Spektrogramms zu unterscheiden, welche Töne klingen.

Es geht ums Vergleichen

Woher wissen Sie, welches Lied gespielt wird? Vergleichen. Eigentlich ist es so, als würde man ein "Röntgenbild" machen und es mit anderen Röntgenbildern von bereits gespeicherten Geräuschen vergleichen, um so zu wissen, welches von allen zu diesem passt. Genau so funktionieren Shazam und andere Apps.

Spektrogramm

Shazam ist ein Spektrograph

Wenn wir Shazam starten und es uns sagt, dass es den Song erkennt, verwandelt es unser Smartphone in einen Spektrographen. Es erfasst den Ton und erzeugt ein Spektrogramm wie das, das Sie direkt über diesem Absatz haben. Sobald Sie einen ausreichend detaillierten Spektrographen haben, vergleichen Sie ihn mit der gesamten gespeicherten Datenbank.

Die Datenbank ist die komplexeste

In Wirklichkeit ist die komplexeste von allen die Datenbank, in der die Spektrogramme aller Lieder gespeichert sind. Wir wissen, wie schwierig es ist, einen Musikdienst zu erstellen, der die gesamte Musik der Welt enthält. Spotify ist eines dieser Programme, aber wichtige Songs fehlen noch. Nun, wenn das schon komplex ist, stellen Sie sich vor, wie es sein muss, die Spektrogramme all dieser Songs zu speichern. Es ist normal, dass ein Teil der Arbeit des Teams von Shazam und anderen ähnlichen Anwendungen darin besteht, sich der Erweiterung der Datenbank zu widmen, die eigentlich das Herz der Anwendung ist.

Der Offline-Betrieb ist sehr einfach

Manchmal fragen wir uns vielleicht, wie diese Anwendungen offline ohne Internetverbindung funktionieren können. Es ist eigentlich ganz einfach, da sie uns die Daten erst geben, wenn sie mit dem Internet verbunden sind. Sie müssen nicht den gesamten Song speichern, sie müssen nicht einmal das Musikstück speichern, das wir analysieren möchten. In Wirklichkeit behalten sie nur die spektrographischen Daten, um sie später in der Datenbank vergleichen zu können, und das nimmt praktisch nichts ein.

Der Algorithmus ist essentiell

Ein weiterer wichtiger Aspekt dieser Anwendungen ist jedoch der Algorithmus, mit dem sie Songs vergleichen. Ein Algorithmus ist in Wirklichkeit nichts anderes als eine Möglichkeit, eine Prozedur durchzuführen. Der Algorithmus von Shazam muss sich ständig verbessern. Wieso den? Denn sie müssen daran arbeiten, das System dazu zu bringen, einem Pfad zu folgen, der es ermöglicht, den Song noch schneller zu finden. Und es ist so, dass man denken kann, dass, sobald die Spektrogramme verstanden und die Songdatenbank fertig ist, alles erledigt ist, aber nichts ist weiter von der Wahrheit entfernt. Nehmen wir an, Sie sollten das Spektrogramm mit Millionen und Abermillionen von Songs vergleichen. Der Algorithmus ist jedoch einer der Hauptaspekte. Es gibt mehrere Computertechniken, um dies zu verbessern, und wir werden nicht über eine bestimmte sprechen, da dies so wäre, als würde man über die Form der Wolken an einem stürmischen Tag sprechen. Es ist jedoch immer gut zu wissen, dass der Algorithmus der Anwendung neben der Spektrografiefunktion und der Songdatenbank eines der wesentlichen Elemente ist.


  1.   die Klinik sagte

    Chazam ist scheiße. Es ist sooooo viel besser Soundhound oder Track ID von Sony.


  2.   Der Käfer sagte

    Interessant…