Shazam과 같이 노래를 인식하는 앱은 어떻게 작동하나요?

스펙트로그램

Shazam과 회사는 우리가 스마트폰에 가지고 다닐 수 있는 가장 놀라운 애플리케이션 중 하나가 되었습니다. 그리고 그들이 유명하지 않다는 것은 모두가 이미 알고 있기 때문입니다. 그러나 그들이 어떤 주어진 순간에 어떤 노래가 재생되고 있는지 알아볼 수 있다는 것은 여전히 ​​거의 마술처럼 보입니다. Shazam과 같은 앱이 실제로 어떻게 작동하는지 봅시다.

분광학, 필수 기둥

실제로 이러한 응용 프로그램은 분광학 또는 분광학, 즉 분광 분석과 관련된 지식 체계로 알려진 것을 기반으로 합니다. 그리고 이 단어들로는 이해하기 어려울 수 있지만 우리는 그것을 잠시 후에 설명할 것입니다. 어떤 소리가 만들어지면 우리와 그 소리의 근원 사이에 있는 입자가 움직이기 때문에 그것을 들을 수 있습니다. 우리가 이 입자들이 움직인다고 말할 때, 우리는 그들이 한 장소에서 다른 장소로 가는 파동을 생성한다는 것을 의미합니다. 이 입자들이 앞뒤로 움직이는 횟수를 주파수라고 하는데, 우리 모두는 소리의 주파수에 대해 들어본 적이 있을 것입니다. 그렇죠? 이 경우 분광학은 특정 기간 동안 소리의 주파수를 측정하는 데 사용됩니다. 각 소리는 매 순간 다른 주파수를 가지며, 이를 통해 우리는 스펙트로그램에서 소리가 나는 것을 구별할 수 있습니다.

비교하는 것이 전부다

어떤 노래가 재생되고 있는지 어떻게 알 수 있습니까? 비교. 사실, 그것은 "X-선"을 찍어 우리가 이미 저장해 둔 다른 X-선 소리와 비교하여 어느 것이 그 소리와 일치하는지 알 수 있는 것과 같습니다. Shazam과 다른 앱이 작동하는 방식이 바로 그렇습니다.

스펙트로그램

Shazam은 분광기입니다.

Shazam을 시작하고 노래를 인식한다고 알려줄 때 실제로 하는 일은 스마트폰을 분광기로 바꾸는 것입니다. 사운드를 캡처하고 이 단락 바로 위에 있는 것과 같은 스펙트로그램을 생성합니다. 충분히 상세한 분광기가 있으면 저장한 전체 데이터베이스와 비교합니다.

데이터베이스는 가장 복잡하다

사실, 가장 복잡한 것은 모든 노래의 스펙트로그램을 저장하는 데이터베이스입니다. 세상의 모든 음악을 담는 음악 서비스를 만드는 것이 얼마나 어려운 일인지 우리는 잘 알고 있습니다. Spotify는 그 프로그램 중 하나이지만 여전히 중요한 노래가 빠져 있습니다. 글쎄, 그것이 이미 복잡하다면 그 모든 노래의 스펙트로그램을 저장하는 것이 어떨지 상상해보십시오. Shazam 및 기타 유사한 응용 프로그램 팀의 작업 중 일부는 실제로 응용 프로그램의 핵심인 데이터베이스 확장에 전념하는 것이 일반적입니다.

오프라인 작업은 매우 간단합니다.

때때로 우리는 이러한 응용 프로그램이 인터넷 연결 없이 오프라인에서 어떻게 작동하는지 궁금할 수 있습니다. 인터넷에 연결될 때까지 데이터를 제공하지 않기 때문에 실제로는 매우 간단합니다. 그들은 전체 노래를 저장할 필요가 없으며 분석하려는 음악의 일부를 저장할 필요도 없습니다. 실제로 그들이 유지하는 유일한 것은 분광 데이터이므로 나중에 데이터베이스에서 비교할 수 있으며 실제로는 아무 것도 차지하지 않습니다.

알고리즘은 필수

그러나 이러한 응용 프로그램의 또 다른 가장 중요한 측면은 노래를 비교하는 데 사용하는 알고리즘입니다. 실제로 알고리즘은 절차를 수행하는 방법에 불과합니다. Shazam의 알고리즘은 지속적으로 개선되어야 합니다. 왜요? 시스템이 노래를 더 빨리 찾을 수 있는 경로를 따르도록 해야 하기 때문입니다. 그리고 스펙트로그램이 이해되고 노래 데이터베이스가 완성되면 모든 것이 완료되지만 진실에서 멀어지는 것은 없다고 생각할 수 있습니다. 스펙트로그램을 수백만 곡의 노래와 비교해야 한다고 가정해 봅시다. 그러나 알고리즘은 주요 측면 중 하나입니다. 이를 개선하기 위한 여러 컴퓨터 기술이 있으며 폭풍우 치는 날의 구름 모양에 대해 이야기하는 것과 같기 때문에 특별히 언급하지 않겠습니다. 그러나 응용 프로그램의 알고리즘은 spectrography 기능 및 노래 데이터베이스와 함께 필수 요소 중 하나라는 것을 항상 아는 것이 좋습니다.


  1.   엘 클리 니코

    Chazam 짜증나. Sony의 Soundhound 또는 트랙 ID가 훨씬 좋습니다.


  2.   비틀

    흥미 롭군요…