Làm cách nào để các ứng dụng nhận dạng bài hát, như Shazam?

Quang phổ

Shazam và công ty đã trở thành một trong những ứng dụng tuyệt vời nhất mà chúng ta có thể mang trên điện thoại thông minh. Và không phải là họ không nổi tiếng, bởi vì mọi người đều đã biết đến họ, nhưng dường như vẫn có một điều kỳ diệu khi họ có thể nhận ra bài hát đang phát ở bất kỳ thời điểm nào. Hãy xem các ứng dụng như Shazam thực sự hoạt động như thế nào.

Quang phổ, trụ cột thiết yếu

Trên thực tế, những ứng dụng này dựa trên cái mà chúng ta biết đến là quang phổ, hay quang phổ, tức là khối kiến ​​thức liên quan đến phân tích quang phổ. Và với những từ này nó có thể khó hiểu nhưng chúng tôi sẽ giải thích nó trong giây lát. Khi bất kỳ âm thanh nào được tạo ra, chúng ta có thể nghe thấy nó bởi vì các hạt giữa chúng ta và nguồn phát ra âm thanh đó chuyển động, dao động. Khi chúng tôi nói rằng những hạt này chuyển động, chúng tôi muốn nói rằng chúng tạo ra sóng, đi từ nơi này đến nơi khác. Số lần các hạt này chuyển động qua lại được gọi là tần số, và chắc chắn chúng ta đều đã từng nghe đến tần số của âm thanh phải không? Trong trường hợp này, quang phổ học chuyên dùng để đo tần số của âm thanh trong một khoảng thời gian nhất định. Mỗi âm thanh có một tần số khác nhau tại mỗi thời điểm, và điều đó cho phép chúng ta phân biệt, trên quang phổ, âm thanh nào đang phát ra âm thanh.

Đó là tất cả về so sánh

Làm thế nào để bạn biết những gì bài hát đang phát? So sánh. Trên thực tế, nó giống như chụp một "tia X" và so sánh nó với các tia X âm thanh khác mà chúng tôi đã lưu, do đó có thể biết cái nào phù hợp với cái đó. Chà, đây chính xác là cách Shazam và các ứng dụng khác hoạt động.

Quang phổ

Shazam là một máy quang phổ

Khi chúng tôi bắt đầu Shazam và nó cho chúng tôi biết rằng nó đang nhận dạng bài hát, những gì nó thực sự đang làm là biến điện thoại thông minh của chúng tôi thành một máy quang phổ. Nó đang ghi lại âm thanh và tạo ra một biểu đồ quang phổ giống như biểu đồ bạn có ở trên đoạn này. Khi bạn đã có một máy quang phổ đủ chi tiết, sau đó bạn tiếp tục so sánh nó với toàn bộ cơ sở dữ liệu mà họ đã lưu trữ.

Cơ sở dữ liệu là phức tạp nhất

Trong thực tế, phức tạp nhất là cơ sở dữ liệu lưu trữ các bản ghi phổ của tất cả các bài hát. Chúng tôi biết khó khăn như thế nào để tạo ra một dịch vụ âm nhạc chứa tất cả các bản nhạc trên thế giới. Spotify là một trong những chương trình đó, nhưng các bài hát quan trọng vẫn bị thiếu trong đó. Chà, nếu điều đó đã phức tạp, hãy tưởng tượng việc lưu trữ các bản ghi phổ của tất cả các bài hát đó sẽ như thế nào. Thông thường, một phần công việc của nhóm Shazam và các ứng dụng tương tự khác là dành riêng để mở rộng cơ sở dữ liệu mà trên thực tế, là trung tâm của ứng dụng.

Hoạt động ngoại tuyến của nó rất đơn giản

Đôi khi chúng ta có thể tự hỏi làm thế nào những ứng dụng này có thể hoạt động ngoại tuyến, mà không cần kết nối Internet. Nó thực sự rất đơn giản, vì họ không bao giờ cung cấp cho chúng tôi dữ liệu cho đến khi họ kết nối với Internet. Họ không cần phải lưu toàn bộ bài hát, thậm chí họ không cần phải lưu đoạn nhạc mà chúng ta muốn phân tích. Trên thực tế, thứ duy nhất họ giữ là dữ liệu quang phổ, để sau này có thể so sánh chúng trong cơ sở dữ liệu, và điều đó thực tế không mất gì.

Thuật toán rất cần thiết

Tuy nhiên, một trong những khía cạnh quan trọng nhất của các ứng dụng này là thuật toán mà chúng sử dụng để so sánh các bài hát. Trên thực tế, một thuật toán không hơn gì một cách thực hiện một thủ tục. Thuật toán của Shazam phải được cải tiến liên tục. Tại sao? Bởi vì họ phải làm việc để làm cho hệ thống đi theo một con đường cho phép nó tìm thấy bài hát nhanh hơn. Và người ta có thể nghĩ rằng một khi các bản ghi phổ được hiểu và cơ sở dữ liệu của các bài hát được hoàn thành, mọi thứ đã xong, nhưng không có gì có thể khác xa sự thật. Hãy nghĩ rằng bạn nên so sánh quang phổ với hàng triệu triệu bài hát. Tuy nhiên, thuật toán là một trong những khía cạnh chính. Có một số kỹ thuật máy tính để cải thiện điều này, và chúng ta sẽ không nói cụ thể về bất kỳ điều gì bởi vì nó giống như nói về hình dạng của Mây vào một ngày mưa bão. Tuy nhiên, nên biết rằng thuật toán của ứng dụng là một trong những yếu tố cần thiết, cùng với chức năng quang phổ và của cơ sở dữ liệu bài hát.


  1.   phòng khám dijo

    Chazam tệ quá. Nó tốt hơn rất nhiều so với Soundhound hoặc ID theo dõi từ Sony.


  2.   Nhịp đập dijo

    Hấp dẫn…