글 이무제 기자 자료제공 플랫톤즈(주)
3D 오디오가 음향업계의 ‘뜨거운 감자’로 떠오르고 있다. 실험적인 시도나 전시 예술, 혹은 고예산 뮤지컬 정도에서나 간혹 볼 수 있었던 시도들은 이제 영화관 환경으로 확장되었고, 곧 게임이나 VR콘텐츠에도 도입될 예정이다. 그러나 아직 관련 업계에서는 명확한 표준이 제정되지 않았으며 당연히 이에 따른 워크플로우조차 정립되지 않았다.
한국의 상황은 더욱 심각하다. 평창 동계올림픽을 대비하기 위한 일환으로 다소 급하게 UHD 표준이 결정되는 과정에서 MPEG-H가 선정되었다. MPEG-H의 기술 자체는 독일의 Fraunhofer IIS에서 개발한 것으로 5.1 서라운드 송출에서 요구되는 비트레이트 수준으로 7.1.4채널+4개의 객체 채널은 물론 22.2채널까지 대응 가능한 우수한 방식이다. 문제는 한국에서 단 한번도 제대로 된 MPEG-H 3D 오디오 방송이 송출된적이 없다는 것이다.
3D 오디오를 이해시키기 어려운 점이 바로 이것이다. 제 아무리 우수한 방식을 갖췄다고는 해도 이게 소비자 입장에서 어떻게 듣고 받아들이느냐에 대한 논의가 전혀 되어있지 않기 때문이다. 최소한 이 부분에서 영화관쪽은 좀 더 자유로운 모양새다. Auro 3D나 Dolby Atmos를 지원하는 극장은 기본적으로 height 채널을 위한 스피커까지 장착되어 있으며 극장 특유의 ‘규모의 경제’덕에 보편화되지 않은 코덱을 장착한 값비싼 플레이어까지 갖출 수 있기 때문이다. 쉽게 말해서 제작부터 배포, 그리고 소비까지 일관된 워크플로우를 갖출 수 있다는 것이다. 그러나 소비자 입장에서 ‘우리의 3D 오디오는 매우 우수한데 이걸 들으려면 별도의 비싼 플레이어나 코덱 기기를 구매해야 하며, 최소한 9.1채널을 갖춘 청취환경까지 갖추는게 좋다’라고 한다면 아무도 관심을 가지지 않을 것이다.
이처럼 채널 기반의 3D 오디오 전송이 각종 규격의 난립과 워크플로우의 미정립으로 혼란을 겪고 있는 가운데 게임이나 VR콘텐츠에서 3D 오디오에 대한 요구가 점점 늘어나면서 한정된 특수 용도로 사용되는 것으로 여겨졌던 ‘바이노럴(Binaural)’와 ‘앰비소닉(Ambisonics)’ 방식이 주목받고 있다. 두 방식 모두 상호반응성(Interactive)에 대한 충분한 연구가 이뤄졌으며 무료 플러그인도 심심찮게 발견할 수 있을 정도로 보편화된 상황이라 보급과 청취에 대한 충분한 인프라가 이미 준비된 것이나 다름없다는 점도 고무적이다. 무엇보다 규격이나 표준에서 자유롭기 때문에 어느 한 회사의 독점으로 인한 횡포 등도 걱정할 필요가 없다. 먼저 주지해둬야 할 점은 바이노럴과 앰비소닉 방식은 활용도나 기능에서 겹치는 부분이 상당하지만 서로 경쟁관계에 놓인 것은 아니라는 점이며 일부 상호 보완적인 면도 존재한다는 것이다. 또한 겹치는 부분에서도 서로 장점과 단점이 너무나 명백히 다르기 때문에 콘텐츠를 제작하거나 배포를 위해서는 각 기술의 특성을 잘 이해하고 신중한 접근을 할 필요가 있다. 또한 상호반응 콘텐츠가 아니라면 굳이 이 두 방식에 목맬 필요 없이 이미 탄탄한 인프라가 갖춰진 채널 기반의 워크플로우를 갖추는 것이 훨씬 유리할 수 있다. 물론 당연한 이야기지만 채널 기반의 워크플로우에서도 바이노럴이나 앰비소닉이 섞여서 사용될 수 있다.
3D 오디오의 전통적인 강자, Binaural
엄밀히 말해서 바이노럴 방식은 단 2채널만 이용하는 것이 기본이기 때문에 3D 오디오의 범주에 넣기는 힘들다. 그러나 문제는 처음에는 실험적으로 제안되었던 이 방식이 놀라울 정도의 정위감과 공간감의 표현으로 마치 3D 오디오를 듣는 것과 같은 착각을 일으킬 정도로 매력적이라는데 있다.
바이노럴을 이해하기 위해서 먼저 알아둬야 할 것이 두 가지가 있다. 먼저 ① 인체가 음원의 방향성을 인식하는 방식에 대해 알아야 하며, ② HRTF(Head Related Transfer Function; 머리전달함수)에 대해 이해가 필요하다.
먼저 인체가 음원의 방향성을 인식하는 방식에 대해 알아보자. 인간의 두 귀는 약 17cm 정도의 거리를 두고 구 형태에 가까운 머리 사이에 위치해있다. 또한 귓구멍 바깥쪽에는 귓바퀴가 있어서 일종의 혼 역할을 한다. 어쨌든 한쪽이 막힌 고막의 구조, 그리고 고막의 변위가 에너지로 바뀐다는 원리로 인해 굳이 마이크로폰과 비교하자면 Pressure 방식의 무지향 콘덴서 마이크와 비슷하다고 할 수 있겠다.
인체는 양쪽 귀의 음량차와 시간차를 이용해 방향성을 인지한다.
‘귀가 무지향이라니?’ 라고 놀랄 독자들도 있겠지만 어디까지나 방식이 그렇다는거지 실제적으로는 배플 역할을 하는 머리의 물리적인 크기와 귓바퀴 때문에 상당한 지향 특성이 생긴다. 이를 ka값으로 계산하면 1이 되는 주파수는 대략 650Hz 정도다. 즉, 650Hz 이하 대역부터는 방향성을 느끼기가 점점 어려워짐을 뜻한다. 쉽게 말해서 인체의 한쪽 귀는 17cm 직경의 거대한 구형 배플을 가진 무지향성 압력형 마이크로폰이다.
실제로 실험 결과 인체는 700Hz 이하 대역에서는 주로 양쪽 귀의 시간차를 통해 방향성을 인지하며 2kHz 이상의 대역에서는 양쪽 귀의 음량 차이로 방향을 인식한다고 알려져 있다. 물론 700Hz~2kHz 사이의 대역은 시간차와 음량차이를 둘 다 이용해 방향을 인지한다.
그림1: 1963년 Franssen의 연구에 의해 인체가 시간차와 음량차를 통해 방향을 인식하는 메커니즘이 밝혀졌다. X축은 시간차, Y축은 음량차를 뜻하며 서로의 교차점에서 인체는 팬텀이미지를 인식한다.
그림1는 1963년 Franssen의 연구에 의해 규명된 그래프로 인체가 시간차와 음량차를 통해 방향을 인식하는 메커니즘이 표현된 것이다. 여기서 X축은 시간차, Y축은 음량차를 뜻하며, X축과 Y축의 교차점에서 인체는 팬텀이미지를 인식하게 된다. 사선으로 가로지는 곡선 중 가운데 선은 팬텀이미지가 중앙에 형성되는 지점을 뜻하며 위쪽과 아래쪽 선은 왼쪽, 혹은 오른쪽의 음량만 들리는 한계선을 뜻한다. 대형 SR 시스템에서 한 쪽 스피커에 지나치게 가까이 다가간 관객은 반대쪽 스피커의 소리를 전혀 듣지 못하기에 스테레오 이미지 형성을 하지 못하는 상황을 생각해보면 된다. 현존하는 스테레오 마이크로폰 테크닉들은 전부 이것을 기초로 만들어진 것이다.
그림2: 더미헤드 마이크로 받은 신호를 바로 이어폰이나 헤드폰으로 듣는 것이 이상적인 바이노럴 청취방법이다.
평탄한 스피커를 더미헤드 근처에서 위치를 바꿔가며 재생시키면 우리는 인체의 각 요소가 어떻게 소리를 왜곡시키는지를 알 수 있다.
이어서 HRTF에 대해 알아보자. 귀 내부의 고막에 도달하는 음파에 영향을 주는 요소는 ① 머리의 크기 ② 귓바퀴 ③ 상체 ④ 이도(耳道) 등이다. 이 모두를 재현하고 고막 위치에 마이크를 배치시킨 것을 ‘더미헤드’ 혹은 ‘바이노럴 마이크로폰’이라고 한다. 이 더미헤드 마이크로폰이 인체의 각 요소들로 인한 왜곡을 잘 표현할 정도로 모사되었다면 그림2와 같이 헤드폰이나 이어폰 등으로 들었을 때 실제와 거의 흡사한 반응을 느낄 수 있을 것이다. 물론 엄밀히 따지면 마이크로폰과 인체 고막의 기계적 임피던스가 다르며 귓바퀴와 이도의 존재로 인해 이어폰으로 청취할 때와 헤드폰으로 청취할 때가 다소 다르긴 하지만 말이다. 그렇다면 거꾸로 생각해서 평탄한 스피커를 재생시킨 후 주파수 반응의 변화를 알아내면 우리가 인체의 듣는 방식을 모사할 수 있지 않을까? 우리는 이 데이터를 HRTF라고 한다.
HRTF 데이터를 얻는 대표적인 방식. 더미헤드를 중심으로 반구형으로 스피커를 다량 위치시킨 후 더미헤드를 360° 회전시키면 높은 해상도로 HRTF 데이터를 취득할 수 있게 된다.
실제로 드라이한 각종 음원을 적절히 가공해서 미리 갖고 있는 HRTF 데이터를 통해 주파수의 왜곡을 반영한 후 양쪽 소스에 적당한 시간차와 음량차를 주면 이어폰이나 헤드폰 청취환경에서 매우 우수한 결과를 얻을 수 있다. 이는 현재 3D 게임엔진 및 음향관련 미들웨어에서 활발히 이용되고 있는 방식이다. 여기서 중요한 것은 HRTF 데이터의 정밀도와 함께 정확한 주파수 반응을 얻기 위한 고품질의 이어폰 및 헤드폰이 필요하다는 것이다. HRTF 디코더에서 시중에 팔리는 헤드폰에 대한 보정 데이터가 있는 경우까지 있다.
역시 장점이라면 단 2채널의 적은 데이터만으로도 꽤 우수한 공간 정위감과 음질을 느낄 수 있다는 것이다. 음질과 표현력에 있어서 전적으로 차수(order)에 결정적으로 영향받는 앰비소닉 방식이 3차에 머무르고 있는데 비해 현재 실용화된 바이노럴 음질은 5차 앰비소닉 이상의 음질을 구현한다고 평가받고 있다.
바이노럴 녹음을 스피커로 듣기 위해서는 크로스토크를 없애주는 프로세싱이 필요한데, 현재까지 딱히 완성도가 높은 방식이 나와있지 않다.
바이노럴 방식에도 단점이 없는 것은 아니다. 가장 결정적인 단점은 스피커 호환성이 좋지 않다는 것이다. 우리 귀는 왼쪽과 오른쪽이 엄연히 분리되어 있으나 스테레오 스피커 시스템으로 듣는 순간 왼쪽 귀로만 가야 할 신호가 오른쪽으로, 오른쪽 귀로만 가야할 신호가 왼쪽 귀에도 도달하게 된다.
이렇게 크로스토크가 발생하는 것을 줄여주기 위해 별도의 프로세싱이 필요한데, 이론적으로는 어느 정도 정립이 되었지만 청감상 만족할만한 결과를 얻기가 힘든 것이 문제다. 더 큰 문제는 채널 기반, 즉 5.1채널이나 5.1.4 혹은 22.2와 같은 서라운드나 3D 오디오 포맷으로 전환하기 위한 방법이 정립되어 있지 않으며, 설사 있다고 해도 성능면에서 만족스럽지 못하다는 것이다.
이런 이유들로 인해 현재까지 바이노럴 방식은 이어폰이나 헤드폰으로만 청취하는 콘텐츠에만 특화되어 있다.
뛰어난 가공성과 호환성이 강점인 Ambisonics
앰비소닉 방식의 아이디어적 기반은 방송 환경 등에서 스테레오 마이킹 방식으로 널리 쓰이는 M/S 방식에 기반하고 있다. M/S는 한 대의 양지향성 마이크로폰과 한 대의 단일 지향성 마이크로폰의 조합으로 이뤄진다. Mid 신호와 Side 신호는 간단한 덧셈과 뺄셈으로 쉽게 X/Y와 같은 패턴으로 디코딩 될 수 있다. 반대로 X/Y로 마이킹한 신호 역시 간단한 덧셈과 뺄셈을 통해 쉽게 Mid와 Side 신호의 분리가 가능하다. 실제로 물리적인 변화는 없지만 전기적으로 서로 호환성을 갖고 있다는 특성을 이용해 일반적인 스테레오 신호를 M/S로 분리하여 스테레오감을 조정하는 플러그인들이 시중에 많이 나와있다.
이를 평면적으로 확장한 것이 바로 Double MS테크닉이다. 이 기술은 하나의 양지향성 마이크로폰과 서로 반대 방향을 향하는 두 개의 단일지향성 마이크로폰으로 서라운드를 구현해낸다. 방식면에서 이미 앰비소닉과 매우 흡사하기 때문에 ‘2D 1차 앰비소닉’이라고도 불린다. 이 방식은 어처구니 없을 정도로 적은 수량의 마이크로 꽤 괜찮은 서라운드 퀄리티를 간편하게 구현한다는 장점 덕에 이미 많은 방송과 영화 등에서 사용된 바 있다. 물론 X/Y방식과의 호환도 가능하며, 따라서 3개 혹은 4개의 단일 지향성 마이크를 마치 X/Y 방식과 같이 평면에 배치하는 것으로도 구현이 가능하다.그렇다면 이를 3차원적으로 확장하면 어떨까? 이에 착안한 방식이 바로 앰비소닉이다.
앰비소닉은 M/S와 X/Y가 서로 간단한 계산을 통해 전기적으로 변환될 수 있다는 아이디어에 기반한다.
앰비소닉은 무지향성의 ‘음량’ 데이터와 공간에서의 위치를 표현하는 방향 데이터로 구성된다. 따라서 3차원 공간에서의 음성 좌표를 제대로 표현하려면 한 개의 무지향 신호와 X, Y, Z축을 나타내는 3개의 방향신호가 필요하다. 이것을 바로 1차 앰비소닉이라고 한다. 이는 가장 손쉽게는 한 개의 무지향성 마이크를 중앙에 두고 3개의 양지향성 마이크를 X, Y, Z 축으로 배열하여 얻을 수 있다.
한 개의 무지향성 마이크와 3개의 양지향성 마이크로 1차 앰비소닉을 구현한 방식
이 공간좌표 정보를 담고 있는 신호를 ‘B-Format’이라고 부른다. 그렇다면 ‘A-
Format’은 무엇일까? 앞서 M/S와 X/Y는 상호 변환이 쉽게 가능하다고 설명한 바 있다. 즉 A-Format은 단일지향성 마이크를 X/Y 형태로 배치해서 얻어낸 데이터이며, 이를 간단한 프로세싱을 통해 B-Format으로 변환이 가능하다. 이 B-Format은 앰비소닉 디코더를 통해 바이노럴, 서라운드, 3D 오디오 등 다양한 포맷으로 디코딩이 가능하다.
여기까지 보면 매우 편리하고 효율적인 방식같지만, 앰비소닉에도 결정적인 단점이 있다. 공간해상력이 차수에 결정적인 영향을 받는다는 것이다. 이를 계산하는 식은 r = lc / 2πf이다. 여기서 r은 앰비소닉 반경(m), l은 앰비소닉 차수, c는 음속을 말한다. f는 주파수인데, r값이 인체의 머리 크기보다 커야 방향성이 제대로 표현된다. 위 계산식에 따르면 1차 앰비소닉에서 600Hz일 때의 r값은 약 0.09정도가 나오므로 인체의 머리 반경과 비슷해진다. 즉 600Hz 이하에서만 방향성이 표현되고 그 이상은 잘 표현되지 않는다는 것이다.
4개의 단일지향성 마이크를 3차원 X/Y 배치하여 1차 앰비소닉을 구현한 방식
3차로 넘어가게 되면 이 수치는 1.8kHz 정도로 상승한다. 7차 앰비소닉이 되어야만 인체가 예민하게 반응하는 3~5kHz 대역까지 방향성을 표현하기 때문에 비로소 상업적 활용이 가능해진다. 인체의 가청주파수인 20kHz까지 표현하려면 32차 이상이 필요하며 이는 프로세싱과 전송에 1,000개 이상의 채널이 필요함을 의미한다.
상업적 사용이 가능한 최소한의 수치인 7차 앰비소닉만 하더라도 64개 채널이 필요하다. 물론 세월이 흐르고 컴퓨팅 기술과 네트워크 전송기술이 발달하면 이 문제도 곧 해결될 것이지만 아직 앰비소닉은 넘어야 할 산이 많다.
앰비소닉은 X/Y 혹은 M/S 마이킹의 3차원 확장판이다.
현재 거론되는 대안으로는 기존에 호평받았던 3D 마이크로폰 테크닉인 3D-OCT나 ORTF-3D와 같은 배치를 가능한 높은 차수의 앰비소닉 B-Format으로 인코딩한 후 이를 다시 유통되는 다양한 포맷으로 디코딩하는 것이다. 실제로 이 방법은 상대적으로 적은 수의 마이크와 녹음 트랙을 사용하면서도 충분히 높은 차수를 구현할 수 있어서 우수한 결과를 쉽고 빠르게 얻을 수 있다. 다만 인코딩 과정에서 엔지니어의 판단에 전적으로 의존해야 하므로 우수한 모니터링 환경과 경험많은 엔지니어가 필요하다는 단점이 있다.
앞으로의 방향성은?
상술했듯이 앰비소닉의 유연성은 현존하는 방식중에 가장 우수하기 때문에 유튜브와 페이스북의 360° 영상 서비스는 앰비소닉 방식을 기초로 하고 있다. 아직 유튜브는 1차, 페이스북은 2차에 머물고 있지만 페이스북의 경우 전용 인코딩툴의 업데이트 이후 3차 앰비소닉을 지원하는 것으로 보아 조만간 3차 방식의 온라인 유통이 실현되지 않을까 기대된다. 게임엔진에 있어서도 가장 유명한 미들웨어인 Wwise가 3차 앰비소닉 방식을 지원하고 있다. 향후 컴퓨팅 파워와 네트워크 기술의 발전을 기대해본다면 조만간 5차, 7차, 혹은 그 이상도 기대해볼만하다. IEM 을 비롯한 각종 무료 플러그인이 이미 널리 개발되어 있다는 것도 장점이다.
다만 바이노럴 방식의 효율성은 앰비소닉이 절대 범접할 수 없는 장점이다. 또한 앰비소닉의 바이노럴 디코딩이 아직 완벽하지 않은 수준이기 때문에 이어폰/헤드폰 청취에 한정한다면 여전히 ‘넘사벽’ 현실감과 음질을 제공한다는 장점이 있다. 따라서 ‘현재’, 그리고 ‘이어폰/헤드폰 청취’, ‘게임 및 VR 콘텐츠’에 한정한다면 상당기간 바이노럴 방식이 계속 시장을 장악할 것이다. 다만 실제 스피커로 들어야 하는 영화 등의 콘텐츠라면 바이노럴로 작업한다는 것은 큰 의미가 없다. 음악 콘텐츠의 경우에도 바이노럴 마이크로폰은 구조상 큰 구경의 다이어프램을 사용할 수 없기 때문에 높은 자체 노이즈와 낮은 다이나믹으로 고생만 할 확률이 높다.
향후 시장이 어떻게 변하든 이 두 방식은 확연한 장점과 단점을 갖고 있기에 서로 자신의 전문 분야를 갖고 공존할 것이 분명해보인다. 이 글을 읽는 독자 중 3D 오디오 관련 작업을 계획하고 있다면 자신의 작업 방향을 명확하게 정하는 것이 우선 필요할 것이다.
글 이무제 기자 자료제공 플랫톤즈(주)
3D 오디오가 음향업계의 ‘뜨거운 감자’로 떠오르고 있다. 실험적인 시도나 전시 예술, 혹은 고예산 뮤지컬 정도에서나 간혹 볼 수 있었던 시도들은 이제 영화관 환경으로 확장되었고, 곧 게임이나 VR콘텐츠에도 도입될 예정이다. 그러나 아직 관련 업계에서는 명확한 표준이 제정되지 않았으며 당연히 이에 따른 워크플로우조차 정립되지 않았다.
한국의 상황은 더욱 심각하다. 평창 동계올림픽을 대비하기 위한 일환으로 다소 급하게 UHD 표준이 결정되는 과정에서 MPEG-H가 선정되었다. MPEG-H의 기술 자체는 독일의 Fraunhofer IIS에서 개발한 것으로 5.1 서라운드 송출에서 요구되는 비트레이트 수준으로 7.1.4채널+4개의 객체 채널은 물론 22.2채널까지 대응 가능한 우수한 방식이다. 문제는 한국에서 단 한번도 제대로 된 MPEG-H 3D 오디오 방송이 송출된적이 없다는 것이다.
3D 오디오를 이해시키기 어려운 점이 바로 이것이다. 제 아무리 우수한 방식을 갖췄다고는 해도 이게 소비자 입장에서 어떻게 듣고 받아들이느냐에 대한 논의가 전혀 되어있지 않기 때문이다. 최소한 이 부분에서 영화관쪽은 좀 더 자유로운 모양새다. Auro 3D나 Dolby Atmos를 지원하는 극장은 기본적으로 height 채널을 위한 스피커까지 장착되어 있으며 극장 특유의 ‘규모의 경제’덕에 보편화되지 않은 코덱을 장착한 값비싼 플레이어까지 갖출 수 있기 때문이다. 쉽게 말해서 제작부터 배포, 그리고 소비까지 일관된 워크플로우를 갖출 수 있다는 것이다. 그러나 소비자 입장에서 ‘우리의 3D 오디오는 매우 우수한데 이걸 들으려면 별도의 비싼 플레이어나 코덱 기기를 구매해야 하며, 최소한 9.1채널을 갖춘 청취환경까지 갖추는게 좋다’라고 한다면 아무도 관심을 가지지 않을 것이다.
이처럼 채널 기반의 3D 오디오 전송이 각종 규격의 난립과 워크플로우의 미정립으로 혼란을 겪고 있는 가운데 게임이나 VR콘텐츠에서 3D 오디오에 대한 요구가 점점 늘어나면서 한정된 특수 용도로 사용되는 것으로 여겨졌던 ‘바이노럴(Binaural)’와 ‘앰비소닉(Ambisonics)’ 방식이 주목받고 있다. 두 방식 모두 상호반응성(Interactive)에 대한 충분한 연구가 이뤄졌으며 무료 플러그인도 심심찮게 발견할 수 있을 정도로 보편화된 상황이라 보급과 청취에 대한 충분한 인프라가 이미 준비된 것이나 다름없다는 점도 고무적이다. 무엇보다 규격이나 표준에서 자유롭기 때문에 어느 한 회사의 독점으로 인한 횡포 등도 걱정할 필요가 없다. 먼저 주지해둬야 할 점은 바이노럴과 앰비소닉 방식은 활용도나 기능에서 겹치는 부분이 상당하지만 서로 경쟁관계에 놓인 것은 아니라는 점이며 일부 상호 보완적인 면도 존재한다는 것이다. 또한 겹치는 부분에서도 서로 장점과 단점이 너무나 명백히 다르기 때문에 콘텐츠를 제작하거나 배포를 위해서는 각 기술의 특성을 잘 이해하고 신중한 접근을 할 필요가 있다. 또한 상호반응 콘텐츠가 아니라면 굳이 이 두 방식에 목맬 필요 없이 이미 탄탄한 인프라가 갖춰진 채널 기반의 워크플로우를 갖추는 것이 훨씬 유리할 수 있다. 물론 당연한 이야기지만 채널 기반의 워크플로우에서도 바이노럴이나 앰비소닉이 섞여서 사용될 수 있다.
3D 오디오의 전통적인 강자, Binaural
엄밀히 말해서 바이노럴 방식은 단 2채널만 이용하는 것이 기본이기 때문에 3D 오디오의 범주에 넣기는 힘들다. 그러나 문제는 처음에는 실험적으로 제안되었던 이 방식이 놀라울 정도의 정위감과 공간감의 표현으로 마치 3D 오디오를 듣는 것과 같은 착각을 일으킬 정도로 매력적이라는데 있다.
바이노럴을 이해하기 위해서 먼저 알아둬야 할 것이 두 가지가 있다. 먼저 ① 인체가 음원의 방향성을 인식하는 방식에 대해 알아야 하며, ② HRTF(Head Related Transfer Function; 머리전달함수)에 대해 이해가 필요하다.
먼저 인체가 음원의 방향성을 인식하는 방식에 대해 알아보자. 인간의 두 귀는 약 17cm 정도의 거리를 두고 구 형태에 가까운 머리 사이에 위치해있다. 또한 귓구멍 바깥쪽에는 귓바퀴가 있어서 일종의 혼 역할을 한다. 어쨌든 한쪽이 막힌 고막의 구조, 그리고 고막의 변위가 에너지로 바뀐다는 원리로 인해 굳이 마이크로폰과 비교하자면 Pressure 방식의 무지향 콘덴서 마이크와 비슷하다고 할 수 있겠다.
인체는 양쪽 귀의 음량차와 시간차를 이용해 방향성을 인지한다.
‘귀가 무지향이라니?’ 라고 놀랄 독자들도 있겠지만 어디까지나 방식이 그렇다는거지 실제적으로는 배플 역할을 하는 머리의 물리적인 크기와 귓바퀴 때문에 상당한 지향 특성이 생긴다. 이를 ka값으로 계산하면 1이 되는 주파수는 대략 650Hz 정도다. 즉, 650Hz 이하 대역부터는 방향성을 느끼기가 점점 어려워짐을 뜻한다. 쉽게 말해서 인체의 한쪽 귀는 17cm 직경의 거대한 구형 배플을 가진 무지향성 압력형 마이크로폰이다.
실제로 실험 결과 인체는 700Hz 이하 대역에서는 주로 양쪽 귀의 시간차를 통해 방향성을 인지하며 2kHz 이상의 대역에서는 양쪽 귀의 음량 차이로 방향을 인식한다고 알려져 있다. 물론 700Hz~2kHz 사이의 대역은 시간차와 음량차이를 둘 다 이용해 방향을 인지한다.
그림1: 1963년 Franssen의 연구에 의해 인체가 시간차와 음량차를 통해 방향을 인식하는 메커니즘이 밝혀졌다. X축은 시간차, Y축은 음량차를 뜻하며 서로의 교차점에서 인체는 팬텀이미지를 인식한다.
그림1는 1963년 Franssen의 연구에 의해 규명된 그래프로 인체가 시간차와 음량차를 통해 방향을 인식하는 메커니즘이 표현된 것이다. 여기서 X축은 시간차, Y축은 음량차를 뜻하며, X축과 Y축의 교차점에서 인체는 팬텀이미지를 인식하게 된다. 사선으로 가로지는 곡선 중 가운데 선은 팬텀이미지가 중앙에 형성되는 지점을 뜻하며 위쪽과 아래쪽 선은 왼쪽, 혹은 오른쪽의 음량만 들리는 한계선을 뜻한다. 대형 SR 시스템에서 한 쪽 스피커에 지나치게 가까이 다가간 관객은 반대쪽 스피커의 소리를 전혀 듣지 못하기에 스테레오 이미지 형성을 하지 못하는 상황을 생각해보면 된다. 현존하는 스테레오 마이크로폰 테크닉들은 전부 이것을 기초로 만들어진 것이다.
그림2: 더미헤드 마이크로 받은 신호를 바로 이어폰이나 헤드폰으로 듣는 것이 이상적인 바이노럴 청취방법이다.
평탄한 스피커를 더미헤드 근처에서 위치를 바꿔가며 재생시키면 우리는 인체의 각 요소가 어떻게 소리를 왜곡시키는지를 알 수 있다.
이어서 HRTF에 대해 알아보자. 귀 내부의 고막에 도달하는 음파에 영향을 주는 요소는 ① 머리의 크기 ② 귓바퀴 ③ 상체 ④ 이도(耳道) 등이다. 이 모두를 재현하고 고막 위치에 마이크를 배치시킨 것을 ‘더미헤드’ 혹은 ‘바이노럴 마이크로폰’이라고 한다. 이 더미헤드 마이크로폰이 인체의 각 요소들로 인한 왜곡을 잘 표현할 정도로 모사되었다면 그림2와 같이 헤드폰이나 이어폰 등으로 들었을 때 실제와 거의 흡사한 반응을 느낄 수 있을 것이다. 물론 엄밀히 따지면 마이크로폰과 인체 고막의 기계적 임피던스가 다르며 귓바퀴와 이도의 존재로 인해 이어폰으로 청취할 때와 헤드폰으로 청취할 때가 다소 다르긴 하지만 말이다. 그렇다면 거꾸로 생각해서 평탄한 스피커를 재생시킨 후 주파수 반응의 변화를 알아내면 우리가 인체의 듣는 방식을 모사할 수 있지 않을까? 우리는 이 데이터를 HRTF라고 한다.
HRTF 데이터를 얻는 대표적인 방식. 더미헤드를 중심으로 반구형으로 스피커를 다량 위치시킨 후 더미헤드를 360° 회전시키면 높은 해상도로 HRTF 데이터를 취득할 수 있게 된다.
실제로 드라이한 각종 음원을 적절히 가공해서 미리 갖고 있는 HRTF 데이터를 통해 주파수의 왜곡을 반영한 후 양쪽 소스에 적당한 시간차와 음량차를 주면 이어폰이나 헤드폰 청취환경에서 매우 우수한 결과를 얻을 수 있다. 이는 현재 3D 게임엔진 및 음향관련 미들웨어에서 활발히 이용되고 있는 방식이다. 여기서 중요한 것은 HRTF 데이터의 정밀도와 함께 정확한 주파수 반응을 얻기 위한 고품질의 이어폰 및 헤드폰이 필요하다는 것이다. HRTF 디코더에서 시중에 팔리는 헤드폰에 대한 보정 데이터가 있는 경우까지 있다.
역시 장점이라면 단 2채널의 적은 데이터만으로도 꽤 우수한 공간 정위감과 음질을 느낄 수 있다는 것이다. 음질과 표현력에 있어서 전적으로 차수(order)에 결정적으로 영향받는 앰비소닉 방식이 3차에 머무르고 있는데 비해 현재 실용화된 바이노럴 음질은 5차 앰비소닉 이상의 음질을 구현한다고 평가받고 있다.
바이노럴 녹음을 스피커로 듣기 위해서는 크로스토크를 없애주는 프로세싱이 필요한데, 현재까지 딱히 완성도가 높은 방식이 나와있지 않다.
바이노럴 방식에도 단점이 없는 것은 아니다. 가장 결정적인 단점은 스피커 호환성이 좋지 않다는 것이다. 우리 귀는 왼쪽과 오른쪽이 엄연히 분리되어 있으나 스테레오 스피커 시스템으로 듣는 순간 왼쪽 귀로만 가야 할 신호가 오른쪽으로, 오른쪽 귀로만 가야할 신호가 왼쪽 귀에도 도달하게 된다.
이렇게 크로스토크가 발생하는 것을 줄여주기 위해 별도의 프로세싱이 필요한데, 이론적으로는 어느 정도 정립이 되었지만 청감상 만족할만한 결과를 얻기가 힘든 것이 문제다. 더 큰 문제는 채널 기반, 즉 5.1채널이나 5.1.4 혹은 22.2와 같은 서라운드나 3D 오디오 포맷으로 전환하기 위한 방법이 정립되어 있지 않으며, 설사 있다고 해도 성능면에서 만족스럽지 못하다는 것이다.
이런 이유들로 인해 현재까지 바이노럴 방식은 이어폰이나 헤드폰으로만 청취하는 콘텐츠에만 특화되어 있다.
뛰어난 가공성과 호환성이 강점인 Ambisonics
앰비소닉 방식의 아이디어적 기반은 방송 환경 등에서 스테레오 마이킹 방식으로 널리 쓰이는 M/S 방식에 기반하고 있다. M/S는 한 대의 양지향성 마이크로폰과 한 대의 단일 지향성 마이크로폰의 조합으로 이뤄진다. Mid 신호와 Side 신호는 간단한 덧셈과 뺄셈으로 쉽게 X/Y와 같은 패턴으로 디코딩 될 수 있다. 반대로 X/Y로 마이킹한 신호 역시 간단한 덧셈과 뺄셈을 통해 쉽게 Mid와 Side 신호의 분리가 가능하다. 실제로 물리적인 변화는 없지만 전기적으로 서로 호환성을 갖고 있다는 특성을 이용해 일반적인 스테레오 신호를 M/S로 분리하여 스테레오감을 조정하는 플러그인들이 시중에 많이 나와있다.
이를 평면적으로 확장한 것이 바로 Double MS테크닉이다. 이 기술은 하나의 양지향성 마이크로폰과 서로 반대 방향을 향하는 두 개의 단일지향성 마이크로폰으로 서라운드를 구현해낸다. 방식면에서 이미 앰비소닉과 매우 흡사하기 때문에 ‘2D 1차 앰비소닉’이라고도 불린다. 이 방식은 어처구니 없을 정도로 적은 수량의 마이크로 꽤 괜찮은 서라운드 퀄리티를 간편하게 구현한다는 장점 덕에 이미 많은 방송과 영화 등에서 사용된 바 있다. 물론 X/Y방식과의 호환도 가능하며, 따라서 3개 혹은 4개의 단일 지향성 마이크를 마치 X/Y 방식과 같이 평면에 배치하는 것으로도 구현이 가능하다.그렇다면 이를 3차원적으로 확장하면 어떨까? 이에 착안한 방식이 바로 앰비소닉이다.
앰비소닉은 M/S와 X/Y가 서로 간단한 계산을 통해 전기적으로 변환될 수 있다는 아이디어에 기반한다.
앰비소닉은 무지향성의 ‘음량’ 데이터와 공간에서의 위치를 표현하는 방향 데이터로 구성된다. 따라서 3차원 공간에서의 음성 좌표를 제대로 표현하려면 한 개의 무지향 신호와 X, Y, Z축을 나타내는 3개의 방향신호가 필요하다. 이것을 바로 1차 앰비소닉이라고 한다. 이는 가장 손쉽게는 한 개의 무지향성 마이크를 중앙에 두고 3개의 양지향성 마이크를 X, Y, Z 축으로 배열하여 얻을 수 있다.
한 개의 무지향성 마이크와 3개의 양지향성 마이크로 1차 앰비소닉을 구현한 방식
이 공간좌표 정보를 담고 있는 신호를 ‘B-Format’이라고 부른다. 그렇다면 ‘A- Format’은 무엇일까? 앞서 M/S와 X/Y는 상호 변환이 쉽게 가능하다고 설명한 바 있다. 즉 A-Format은 단일지향성 마이크를 X/Y 형태로 배치해서 얻어낸 데이터이며, 이를 간단한 프로세싱을 통해 B-Format으로 변환이 가능하다. 이 B-Format은 앰비소닉 디코더를 통해 바이노럴, 서라운드, 3D 오디오 등 다양한 포맷으로 디코딩이 가능하다.
여기까지 보면 매우 편리하고 효율적인 방식같지만, 앰비소닉에도 결정적인 단점이 있다. 공간해상력이 차수에 결정적인 영향을 받는다는 것이다. 이를 계산하는 식은 r = lc / 2πf이다. 여기서 r은 앰비소닉 반경(m), l은 앰비소닉 차수, c는 음속을 말한다. f는 주파수인데, r값이 인체의 머리 크기보다 커야 방향성이 제대로 표현된다. 위 계산식에 따르면 1차 앰비소닉에서 600Hz일 때의 r값은 약 0.09정도가 나오므로 인체의 머리 반경과 비슷해진다. 즉 600Hz 이하에서만 방향성이 표현되고 그 이상은 잘 표현되지 않는다는 것이다.
4개의 단일지향성 마이크를 3차원 X/Y 배치하여 1차 앰비소닉을 구현한 방식
3차로 넘어가게 되면 이 수치는 1.8kHz 정도로 상승한다. 7차 앰비소닉이 되어야만 인체가 예민하게 반응하는 3~5kHz 대역까지 방향성을 표현하기 때문에 비로소 상업적 활용이 가능해진다. 인체의 가청주파수인 20kHz까지 표현하려면 32차 이상이 필요하며 이는 프로세싱과 전송에 1,000개 이상의 채널이 필요함을 의미한다.
상업적 사용이 가능한 최소한의 수치인 7차 앰비소닉만 하더라도 64개 채널이 필요하다. 물론 세월이 흐르고 컴퓨팅 기술과 네트워크 전송기술이 발달하면 이 문제도 곧 해결될 것이지만 아직 앰비소닉은 넘어야 할 산이 많다.
앰비소닉은 X/Y 혹은 M/S 마이킹의 3차원 확장판이다.
현재 거론되는 대안으로는 기존에 호평받았던 3D 마이크로폰 테크닉인 3D-OCT나 ORTF-3D와 같은 배치를 가능한 높은 차수의 앰비소닉 B-Format으로 인코딩한 후 이를 다시 유통되는 다양한 포맷으로 디코딩하는 것이다. 실제로 이 방법은 상대적으로 적은 수의 마이크와 녹음 트랙을 사용하면서도 충분히 높은 차수를 구현할 수 있어서 우수한 결과를 쉽고 빠르게 얻을 수 있다. 다만 인코딩 과정에서 엔지니어의 판단에 전적으로 의존해야 하므로 우수한 모니터링 환경과 경험많은 엔지니어가 필요하다는 단점이 있다.
앞으로의 방향성은?
상술했듯이 앰비소닉의 유연성은 현존하는 방식중에 가장 우수하기 때문에 유튜브와 페이스북의 360° 영상 서비스는 앰비소닉 방식을 기초로 하고 있다. 아직 유튜브는 1차, 페이스북은 2차에 머물고 있지만 페이스북의 경우 전용 인코딩툴의 업데이트 이후 3차 앰비소닉을 지원하는 것으로 보아 조만간 3차 방식의 온라인 유통이 실현되지 않을까 기대된다. 게임엔진에 있어서도 가장 유명한 미들웨어인 Wwise가 3차 앰비소닉 방식을 지원하고 있다. 향후 컴퓨팅 파워와 네트워크 기술의 발전을 기대해본다면 조만간 5차, 7차, 혹은 그 이상도 기대해볼만하다. IEM 을 비롯한 각종 무료 플러그인이 이미 널리 개발되어 있다는 것도 장점이다.
다만 바이노럴 방식의 효율성은 앰비소닉이 절대 범접할 수 없는 장점이다. 또한 앰비소닉의 바이노럴 디코딩이 아직 완벽하지 않은 수준이기 때문에 이어폰/헤드폰 청취에 한정한다면 여전히 ‘넘사벽’ 현실감과 음질을 제공한다는 장점이 있다. 따라서 ‘현재’, 그리고 ‘이어폰/헤드폰 청취’, ‘게임 및 VR 콘텐츠’에 한정한다면 상당기간 바이노럴 방식이 계속 시장을 장악할 것이다. 다만 실제 스피커로 들어야 하는 영화 등의 콘텐츠라면 바이노럴로 작업한다는 것은 큰 의미가 없다. 음악 콘텐츠의 경우에도 바이노럴 마이크로폰은 구조상 큰 구경의 다이어프램을 사용할 수 없기 때문에 높은 자체 노이즈와 낮은 다이나믹으로 고생만 할 확률이 높다.
향후 시장이 어떻게 변하든 이 두 방식은 확연한 장점과 단점을 갖고 있기에 서로 자신의 전문 분야를 갖고 공존할 것이 분명해보인다. 이 글을 읽는 독자 중 3D 오디오 관련 작업을 계획하고 있다면 자신의 작업 방향을 명확하게 정하는 것이 우선 필요할 것이다.