Πώς κάνουν οι εφαρμογές που αναγνωρίζουν τραγούδια, όπως το Shazam;

Φασματογράφημα

Το Shazam και η εταιρεία έχουν γίνει μια από αυτές τις πιο εκπληκτικές εφαρμογές που μπορούμε να μεταφέρουμε σε ένα smartphone. Και δεν είναι ότι δεν είναι διάσημοι, γιατί όλοι τους ξέρουν ήδη, αλλά φαίνεται σχεδόν μαγικό το ότι μπορούν να αναγνωρίσουν ποιο τραγούδι παίζει κάθε στιγμή. Ας δούμε πώς λειτουργούν πραγματικά εφαρμογές όπως το Shazam.

Φασματογραφία, ο βασικός πυλώνας

Στην πραγματικότητα, αυτές οι εφαρμογές βασίζονται σε αυτό που γνωρίζουμε ως φασματοσκοπία ή φασματοσκοπία, δηλαδή στο σύνολο των γνώσεων που σχετίζονται με τη φασματοσκοπική ανάλυση. Και με αυτά τα λόγια μπορεί να είναι δύσκολο να το καταλάβεις αλλά θα το εξηγήσουμε σε λίγο. Όταν παράγεται οποιοσδήποτε ήχος, μπορούμε να τον ακούσουμε επειδή τα σωματίδια που βρίσκονται μεταξύ μας και της πηγής αυτού του ήχου κινούνται, δονούνται. Όταν λέμε ότι αυτά τα σωματίδια κινούνται, εννοούμε ότι δημιουργούν κύματα, τα οποία πηγαίνουν από το ένα μέρος στο άλλο. Ο αριθμός των φορών που αυτά τα σωματίδια κινούνται μπρος-πίσω ονομάζεται συχνότητα, και σίγουρα όλοι έχουμε ακούσει για τη συχνότητα ενός ήχου, σωστά; Λοιπόν, η φασματογραφία, σε αυτή την περίπτωση, είναι αφιερωμένη στη μέτρηση της συχνότητας των ήχων σε μια συγκεκριμένη χρονική περίοδο. Κάθε ήχος έχει διαφορετική συχνότητα κάθε στιγμή, και αυτό μας επιτρέπει να διαφοροποιήσουμε, σε ένα φασματόγραμμα, ποιοι ήχοι ακούγονται.

Όλα είναι θέμα σύγκρισης

Πώς ξέρετε ποιο τραγούδι παίζει; Συγκρίνοντας. Στην πραγματικότητα, είναι σαν να παίρνουμε μια "ακτινογραφία" και να τη συγκρίνουμε με άλλες ακτίνες Χ ήχων που είχαμε ήδη αποθηκεύσει, ώστε να μπορούμε να γνωρίζουμε ποια από όλες ταιριάζει. Λοιπόν, έτσι ακριβώς λειτουργούν το Shazam και άλλες εφαρμογές.

Φασματογράφημα

Το Shazam είναι ένας φασματογράφος

Όταν ξεκινάμε το Shazam και μας λέει ότι αναγνωρίζει το τραγούδι, αυτό που στην πραγματικότητα κάνει είναι να μετατρέπει το smartphone μας σε φασματογράφο. Καταγράφει τον ήχο και δημιουργεί ένα φασματόγραμμα όπως αυτό που έχετε ακριβώς πάνω από αυτήν την παράγραφο. Αφού έχετε έναν αρκετά λεπτομερή φασματογράφο, τότε συνεχίζετε να τον συγκρίνετε με ολόκληρη τη βάση δεδομένων που έχουν αποθηκεύσει.

Η βάση δεδομένων είναι η πιο περίπλοκη

Στην πραγματικότητα, το πιο περίπλοκο από όλα είναι η βάση δεδομένων που αποθηκεύει τα φασματογράμματα όλων των τραγουδιών. Γνωρίζουμε πόσο δύσκολο είναι να δημιουργήσεις μια μουσική υπηρεσία που να περιέχει όλη τη μουσική του κόσμου. Το Spotify είναι ένα από αυτά τα προγράμματα, αλλά σημαντικά τραγούδια εξακολουθούν να λείπουν από αυτό. Λοιπόν, αν αυτό είναι ήδη περίπλοκο, φανταστείτε πώς πρέπει να είναι η αποθήκευση των φασματογραμμάτων όλων αυτών των τραγουδιών. Είναι φυσιολογικό ότι μέρος της δουλειάς της ομάδας του Shazam και άλλων παρόμοιων εφαρμογών είναι να αφοσιωθεί στην επέκταση της βάσης δεδομένων που, στην πραγματικότητα, είναι η καρδιά της εφαρμογής.

Η λειτουργία του εκτός σύνδεσης είναι πολύ απλή

Μερικές φορές μπορεί να αναρωτιόμαστε πώς αυτές οι εφαρμογές μπορούν να λειτουργήσουν εκτός σύνδεσης, χωρίς σύνδεση στο Διαδίκτυο. Στην πραγματικότητα είναι πολύ απλό, αφού δεν μας δίνουν ποτέ τα δεδομένα μέχρι να συνδεθούν στο Διαδίκτυο. Δεν χρειάζεται να σώσουν ολόκληρο το τραγούδι, δεν χρειάζεται καν να σώσουν το μουσικό κομμάτι που θέλουμε να αναλύσουμε. Στην πραγματικότητα, το μόνο που διατηρούν είναι τα φασματογραφικά δεδομένα, ώστε αργότερα να μπορούν να συγκριθούν στη βάση δεδομένων, και αυτό δεν καταλαμβάνει σχεδόν τίποτα.

Ο αλγόριθμος είναι απαραίτητος

Ωστόσο, μια άλλη από τις πιο σημαντικές πτυχές αυτών των εφαρμογών είναι ο αλγόριθμος που χρησιμοποιούν για να συγκρίνουν τραγούδια. Ένας αλγόριθμος, στην πραγματικότητα, δεν είναι παρά ένας τρόπος εκτέλεσης μιας διαδικασίας. Ο αλγόριθμος του Shazam πρέπει να βελτιώνεται συνεχώς. Γιατί; Γιατί πρέπει να εργαστούν για να κάνουν το σύστημα να ακολουθήσει μια διαδρομή που του επιτρέπει να βρίσκει το τραγούδι ακόμα πιο γρήγορα. Και είναι ότι μπορεί κανείς να σκεφτεί ότι μόλις γίνουν κατανοητά τα φασματογράμματα και ολοκληρωθεί η βάση δεδομένων των τραγουδιών, όλα γίνονται, αλλά τίποτα δεν απέχει περισσότερο από την αλήθεια. Ας σκεφτούμε ότι πρέπει να συγκρίνετε το φασματόγραμμα με εκατομμύρια και εκατομμύρια τραγούδια. Ωστόσο, ο αλγόριθμος είναι μια από τις κύριες πτυχές. Υπάρχουν πολλές τεχνικές υπολογιστών για να το βελτιώσουμε αυτό, και δεν πρόκειται να μιλήσουμε για καμία συγκεκριμένα γιατί θα ήταν σαν να μιλάμε για το σχήμα των Σύννεφων σε μια θυελλώδη μέρα. Ωστόσο, είναι πάντα καλό να γνωρίζουμε ότι ο αλγόριθμος της εφαρμογής είναι ένα από τα βασικά στοιχεία, μαζί με τη συνάρτηση φασματογραφίας, και αυτή της βάσης δεδομένων τραγουδιών.


  1.   η κλινική dijo

    Το Chazam είναι χάλια. Είναι πολύ καλύτερο Soundhound ή track ID από τη Sony.


  2.   Το beattle dijo

    Ενδιαφέρων…