현장의 사운드 분위기를 실감나게 잡아내는 방법: 3D 마이크로폰 테크닉 집중 분석
글 이무제 기자
단도직입적으로 가장 근본적인 질문부터 해보자. ‘3D 마이크로폰 테크닉은 반드시 필요한가?’. 이에 대한 대답은 일부의 상황에서는 ‘No!’라고 답할 수 있다. 많은 단점과 한계에도 불구하고 컨슈머를 위한 Immersive Sound 포맷은 이제 Dolby Atmos로 완전히 굳어진 모양새이며 현재 대부분의 관련 콘텐츠들은 Dolby Atmos의 3D 패너의 오토메이션 기능을 적극적으로 이용하여 만들어지고 있다. 실제로 이렇게 3D 패너로 만드는 가상 3D 사운드는 ‘음원의 이동, 음원의 정위감’에 주로 초점이 맞춰져 있다. 이렇게 말하면 ‘그러면 3D 사운드에 있어 다른 고려할 점이라도 있나?’라는 질문이 나올텐데, 실감나는 3D 사운드의 재현을 위해 무엇보다 필요한 것은 ‘가상 공간의 재현’임을 알아둬야 한다. 단순히 ‘음원이 거기 있다’라는 것으로는 완성도 높은 3D 사운드를 만들어낼 수 없다. Immersive를 직역하면 ‘몰입’이다. 즉, Immersive Sound라는 것은 듣는 사람, 즉 콘텐츠 소비자로 하여금 ‘음원의 위치’ 뿐 아니라 전반적인 사운드 분위기에 있어서 ‘실제로 거기 있다’라는 느낌까지 전달해야 한다. 이를 위해 3D 리버브 등을 사용할 수 있지만 가장 좋은 것은 3D 앰비언스 사운드를 실감나게 잡아내는 것이다. 이를 위해 필요한 것이 바로 3D 마이크로폰 테크닉이다. 그래서 처음으로 돌아가서, 던져진 질문에 대한 또 다른 답은 ‘Yes!, 있으면 더 좋다!’이다.
사실, 본지가 이 기사를 다루는 것은 시기상조일지 모른다. 스테레오 마이킹 기법과는 달리 3D 마이크로폰 테크닉은 아직 완벽한 이론이 정립된 상태가 아니다. 사실, 이는 2D 평면을 다루는 서라운드 마이킹 기법도 마찬가지다. 인체의 귀는 정면의 60° 각도의 소리를 정확히 잡아내는데 특화되어 있으며 다른 방향에서의 소리는 ‘정확한 감지’라기 보다는 ‘전반적인 느낌’이나 ‘분위기’로 감지하기 때문에 3D 마이크로폰 테크닉은 이론적인 정립이 어려울 수 밖에 없다. 그럼에도 불구하고 지금까지 많은 시도들이 있었으며, 유의미한 혁명과 발전이 이뤄지기도 했다. 이에 따라 아직 많은 것을 말할 수 있는 단계는 아니지만 그래도 적잖은 연구 실적이 쌓였기 때문에 지금까지의 시도와 연구들을 총망라하여 정리하는 작업이 3D 사운드 분야를 공부하는 독자들에게 매우 유용할 것이라고 확신한다. 본지가 주로 참고한 자료는 3D 기술의 최첨단에서 활약하는 이현국 교수(University of Huddersfield, UK)가 쓴 논문 [Multichannel 3D Microphone Arrays: A Review]이다. 이 논문에서는 각종 3D 마이크로폰 기법의 이론적 배경과 평가, 지금까지의 연구의 한계와 앞으로 나아가야 할 연구 방향까지 제시하고 있어서 3D 사운드 분야에 관심있는 독자라면 반드시 일독할 것을 권한다.
왜 3D 사운드인가?
앞서 ‘3D 마이크로폰 테크닉’이 3D 사운드를 제작함에 있어서 반드시 필요한 기법은 아니라고 언급했었다. 하지만 전문적으로 3D 사운드의 프로덕션을 행한다면 반드시 알고 있어야 하는 것이 바로 3D 마이크로폰 테크닉이다. 이는 단순히 ‘몇 가지의 마이크 배치 기법’을 암기하는 것을 말하는게 아니다. 각 마이크로폰 배치가 가지는 의미, 이루고자 하는 것, 이론적 배경, 한계 등을 정확히 아는 것까지 포함한다. 이는 사람이 3차원 음장을 인지하는 방법을 다루기 때문이다. 물론 본지 9월호에 대거 실린 관련 기사에서 확인할 수 있듯이 사람은 전면의 극히 일부를 제외하고는 3차원 정위감을 정확히 인지하지는 못한다. 하지만 전반적인 3D 사운드는 공간의 ‘인상’, ‘분위기’ 형성에 있어서 지대한 영향을 끼친다. 예컨대 영화에서 배경 장면이 변화할 때마다 포스트 프로덕션 스튜디오의 사운드 엔지니어는 그 장면에 걸맞은 잔향을 제대로 표현하는 것이 1차적 목표다. 해변에 마주 앉은 연인의 대화에서 마치 어느 폐허가 된 건물의 계단에서 들릴 법한 공간 잔향이 들린다면 제 아무리 참을성이 많은 관객이라도 영화에 집중하기는 어려울 것이다. 현재는 아마도 Dolby Atmos에게 밀리는 모양새이지만 3D 사운드 포맷의 선구자인 NHK22.2나 Auro 3D와 같은 포맷은 이와 같은 이유들을 배경으로 정확한 정위감 표현 이전에 3차원 공간 사운드의 전반적인 모사를 더욱 중요시 했다. 이는 라이브 Immersive 포맷인 L-Acoustics L-ISA나 d&b audiotechnik의 Soundscape, Yamaha의 AFC, Meyer Sound Contellation도 마찬가지다.
지금까지 시도된 3D 마이크로폰 기법도 전반적으로 비슷한 방향으로 접근했다. 정확한 정위감만으로 본다면 아마 매우 높은 차수의 Ambisonics 마이크로폰이 정답이 될 수 밖에 없을 것이다. 하지만 실제로 모든 3D 클래식 음악 콘텐츠들을 통틀어봐도 Ambisonics 기법으로 진지하게 제작되는 예는 찾아보기 어렵다. 이는 Immersive Sound에서 ‘더’ 중요한 것이 정확한 정위감보다는 전반적인 분위기의 재현과 더 뛰어난 음색과 음질이라는 주장을 뒷받침한다.
어쨌든 3D 사운드 콘텐츠, 그리고 3D 재생 환경은 전반적인 몰입감, 그리고 ‘내가 거기에 있다’라는 느낌을 기존의 서라운드보다 더욱 확실하게, 실감나게 전달해준다. 모처럼 마련된 3D 재생 환경이라면, 가능하다면 가상으로 만들어낸 음장보다는 실제 현장의 분위기를 전달해주는 방향으로의 시도가 맞지 않을까? 이러한 시도는 팝 음악 등에서는 맞지 않을 수 있어도 클래식 음악, 영화, 드라마, 게임 등에서는 아마도 의미가 있을 것이다.
3D 사운드 제작 기법의 분류
먼저 알아야 할 것은 3D 오디오가 어떻게 다뤄지고 만들어지느냐이다. 현재 업계에서는 크게 3종류로 3D 오디오 프로세싱 기법을 나누고 있다. 채널 기반 오디오(Channel based audio), 객체기반 오디오(Object based audio), 장면 기반 오디오(Scene based audio)가 그것이다. 각 방식은 발전 단계나 혹은 결과물에서의 우열을 가리는 기준이 되는 것이 아니라, 그저 사용 용도나 상황에 맞는 특정 접근 방법이라는 것을 기억해야만 한다. 그리고 실제 제작 과정에 있어서 두 가지, 혹은 세 가지의 방법을 혼용 및 모두 사용하는 경우가 대다수이기 때문에 3D 사운드 제작자는 모든 방식을 전부 완벽하게 이해하고 있어야만 한다.
채널 기반 오디오(Channel based audio)
채널 기반 방식은 각 스피커에 할당되는 오디오 채널을 다루는 방식을 말한다. 예컨대 현재 스테레오 마이크로폰 테크닉 및 패닝 방식은 전형적인 채널 기반의 오디오이다. 각 마이크로폰은 각 스피커로 할당되는 소리를 담아낸다. 이 마이크로폰은 상황에 따라 여러 개가 될 수 있으며 반드시 하드패닝될 필요도 없다. 예컨대 데카트리(Decca-Tree) 방식은 2개를 초과하는 마이크로폰이 사용되지만 완벽한 스테레오 채널 기반의 녹음 및 프로세싱 방식이다. 다만 3D 오디오에서는, 특히 초창기의 3D 마이크로폰 기법을 보면 각 마이크로폰에 스피커 출력 채널이 하나씩 할당되는 경향이 짙어서 오디오 포맷의 채널 수와 마이크의 개수가 같거나 비슷한 경우가 많긴 하다. 물론 채널 기반 오디오가 반드시 마이크로폰 기법과만 연관되는 것은 아니다. 예컨대 시중에 판매되는 대부분의 3D 리버브 플러그인은 채널 기반 오디오로 분류해야 하며, 혹은 이전의 5.1이나 7.1 채널의 Dolby Digital 서라운드 등은 당시 기술의 한계로 채널 기반 오디오로 대부분 작업되었다.
또한 최신의 Dolby Atmos에서도 채널 기반 오디오의 유산은 여전히 남아있는데, 바로 7.1.2 Bed 채널로 불리는 트랙들이다. Dolby Atmos는 총 128채널의 입출력이 가능하지만 7.1.2채널이 Bed로 할당되었기 때문에 실제로 ‘객체’로 다룰 수 있는 채널은 118채널에 그친다.
객체 기반 오디오(Object based audio)
객체 기반 오디오는 GUI가 보편화된 현재의 3D 패너에서 가장 흔히 볼 수 있는 방식이다. 합성음 또는 드라이한 음원만을 캡쳐하는 스팟 마이크로폰에서 잡아낸 소리를 3D 패너를 통해 가상 공간에 배치하는 것으로, 3D패너의 설계에 따라 다양한 기법이 적용될 수 있지만 어쨌든 ‘소리’를 하나의 ‘객체’로 보는 모든 방식은 전부 객체 기반 오디오로 분류된다. 영화 등의 콘텐츠의 포스트 프로덕션 과정에서 예컨대 비행기나 총알 등이 날아가는 궤적의 소리 표현 등은 대부분 이 방식에 속한다. 또한 라이브 뮤지컬 등에서 배우가 트래커 장비를 장착한 후 움직이는 위치대로 자동 패닝되는 방식 또한 객체 기반 오디오에 속한다. 하지만 객체 기반 오디오와 채널 기반 오디오가 완전히 선을 긋듯이 구분되는 것은 아니다. 예컨대 3D 마이크로폰 리그에서 특정 방향에서 오는 잔향 및 반사음만을 잡아내는 지향성 마이크를 사용한 경우를 생각해보자. 이를 3D 패너를 통해 특정 위치에 배치한다면, 그래서 특정 위치의 스피커 채널에서 출력되게 한다면 이는 채널 기반인가? 객체 기반인가? 이처럼 구분이 애매모호한 면이 존재하지만 아마도 채널 기반과 객체 기반의 오디오를 가르는 기준은 유연성이 될 수 있다. 객체 기반으로 모든 패닝을 실시한다면 마스터링 되는 스피커 채널의 수에 제한받을 필요는 없어지기 때문이다. 따라서 Dolby Atmos 작업물을 만드는 경우 9.1.6에서 5.1.4, 그리고 스테레오 다운믹스 및 바이노럴 렌더링에 이르기까지 기본적으로 Dolby Atmos 패너가 객체 기반을 채택하고 있기에 폭넓은 출력 상황에 대응이 가능하며, 프로젝트 호환이 가능해지는 것이다.
장면 기반 오디오(Scene based audio)
채널 기반 오디오와 객체 기반 오디오가 사뭇 다르면서도 구분이 애매모호한 면이 있는 것과 달리 장면 기반 오디오는 확연히 구분되는 특징을 가진다. 이는 장면 기반 오디오가 360도 구형 방향의 위치와 공간의 정보를 모두 담아내는 특성을 갖기 때문이다. 현재까지 장면 기반 오디오에서 실제적으로 다뤄지는 방식은 Ambisonics가 유일하다. 지금까지 본지가 수 차례 Ambisonics 기법에 대해 다뤄왔지만, 다시 간단히 복습하자면 Ambisonics는 크게 A-Format과 B-Format으로 나눠지며, 진정한 Ambisonics는 B-Format이라고 할 수 있다. B-Format은 W, X, Y, Z의 각 공간 방향의 음속(Velocity) 정보를 담아낸 것으로 공간 해상도에 따라 ‘n차(nth order)’의 숫자로 구분된다. 가장 기본적인 1차 Ambisonics는 4개 채널로 구성되며 이를 ‘가상 지향성 마이크로폰 이론’에 기반한 sin 및 cos 계산으로 공간의 음 정보를 인코딩 및 디코딩한다는 개념이다. 당연히 차수가 높아질수록 공간의 정보가 세밀하게 담기게 된다.
이 개념이 이해하기 어렵다면 스테레오로 개념을 좁혀 XY 마이크로폰 기법과 MS 마이크로폰 기법의 상호 인코딩 및 디코딩을 생각해보면 이해가 쉽다. XY 마이크로폰 기법은 시간차 없이 마이크로폰이 지향하는 위치의 소리 정보를 갖고 있다. 여기에는 방향과 에너지의 크기 정보가 둘 다 있기 때문에 Vector 값이다. 따라서 M 신호는 L+R, 그리고 S 신호는 한 쪽을 위상반전시켜 L-R(혹은 R-L)로 얻어낼 수 있다. 이를 MS 인코딩이라고 한다. MS 마이크로폰 기법은 한 개의 단일지향성 마이크로폰과 한 개의 양지향성 마이크로폰으로 M과 S 신호를 인코딩 방식 없이 바로 캡쳐한다. 그리고 이렇게 얻어낸 MS 신호는 M+S, 그리고 M-S로 하여 각각 LR 신호를 얻어낼 수 있다. 이를 MS 디코딩이라고 한다. 이를 3차원 공간으로 확장한 것이 바로 Ambisonics 이론의 기반이다. 말하자면 XY 기법은 A-Format, 그리고 MS 기법은 B-Format을 바로 얻어내는 방식에 속하는 셈이다. 이 방식은 360도 공간에서 오는 잔향을 완벽하게 캡쳐할 뿐 아니라 소리의 위치 정보까지 담아낼 수 있기 때문에 3D 오디오를 다루는 가장 근본적인 방식이기도 하다. 하지만 문제점은 공간의 해상도가 Ambisonics B-Format의 차수에 절대적인 영향을 받는다는 것이다. 실제로 콘텐츠를 만드는데 있어서 제대로 된 공간음향이라는 느낌을 주려면 최소한 3차의 프로세싱을 해야하며 상업적으로 유의미하려면 최대한 양보하더라도 5차, 이상적으로는 7차 Ambisonics의 프로세싱이 권장된다. 그런데 5차 Ambisonics만 해도 36개 채널, 그리고 7차의 경우 무려 64채널의 고해상도 오디오 정보를 담고 있다. 최근의 컴퓨터 프로세싱 파워가 아무리 강력하더라도 하나의 오디오 객체가 64채널이라면 확실한 부담이다. 따라서 Ambisonics는 개별 오디오 객체보다는 공간 전체의 울림이나 소리, 즉 Dolby Atmos 환경과 비교하자면 ‘Bed’ 채널을 다루는데 좀 더 적합할 수 있다.
마이크로폰 배치 방식에 있어서 Ambisonics는 물리적인 한계로 인해 실제 구현이 어렵거나 거의 불가능하다. 현재 상업적인 용도로 실제 출시된 Ambisonics 마이크로폰은 대부분 1차에 그치며, 간혹 일부 모델에서 2~3차가 발견되며, 초고가 제품의 경우 4차 방식이 있긴 하지만 이 경우 가격이 비쌀 뿐 아니라 단일 마이크로폰에 30트랙에 가까운 멀티트랙 레코딩이 필요하기 때문에 실제 운용이 만만치 않다.
실용적인 사용에 있어서 Ambisonics 방식은 아마도 ‘가상 스피커’ 구현에 가장 적합할지도 모른다. Dolby Atmos나 Auro 3D, NHK22.2 등의 다양한 콘텐츠들을 제대로 들으려면 반드시 권장 스피커 배치 하에서 청취해야만 한다. 하지만 각 포맷의 트랙을 권장 스피커 배치에 맞는 각도로 가상 배치하여 충분히 높은 차수의 Ambisonics로 인코딩한 후 각 청취 환경에 맞게 디코딩한다면 서로간의 충분한 호환성을 제공할 수 있게 된다. 현존하는 형식 중 가장 유연하다는 이러한 장점은 게임 및 VR 분야에서 Ambisonics가 각광받는 이유를 말해준다. 왜 Youtube와 Facebook이 시장이 무르익지도, 관련기술이 채 정립되지 않은 시점에서 자신들의 3D 오디오 포맷으로 왜 굳이 Ambisonics를 선택했는지이해가 되는가?
3D 마이크로폰 어레이의 분류
스테레오 마이크로폰 기법은 크게 마이크로폰 사이에 공간을 두는 Spcaced 방식, 그리고 마이크로폰들을 최대한 가깝게 위치시키는 Coincident 방식, 그리고 두 방법을 적절히 절충하는 Near-coincident 방식의 세 가지로 나뉜다. 마찬가지로 3D 마이크로폰 기법 역시 비슷하게 분류할 수 있다. 3D 마이크로폰 기법은 상단과 하단 어레이로 분류되는만큼 분류 기준이 하나 더 생긴다. 하지만 지나치게 세부 분류를 나누기보다 큰 줄기에서 보자면 하단과 상단 마이크로폰이 모두 거리를 두는 HVS(horizontally & vertically spaced), 수평면으로는 공간을 두지만 하단과 상단 마이크로폰의 거리는 최소화하는 HSVC(horizontally spaced & vertically coincident), 그리고 수평면 및 수직면 모두 거리를 최소화하는 HVC(horizontally & vertically coincident) 방식으로 나눌 수 있겠다. 소리에 있어서 ‘공간’은 곧 ‘시간’이므로 이를 각 공간 정보 표현에 있어서 시간 정보를 사용할 것인지, 아닌지로 보아도 좋다.
스페이스드 기법의 경우 비교적 저음까지 채널간 역상관(interchannel decorrelation)의 크기가 커지기 때문에 이상적인 재생 환경이라면 더 깊은 공간감을 느끼게 된다. 이는 모노 시그널로 배포될 확률이 낮은 하이-프로덕션 작업물, 특히 고음질의 오케스트라 녹음에 A-B 마이크로폰 테크닉이 주로 사용되는 이유다. HVS는 이에 착안한 방식으로 A-B 방식을 3차원 공간으로 확장한 것이라고 보아도 좋다. 하지만 연구 결과에 따르면 인체의 귀는 소리의 높이 정보 인지에 있어서 시간 정보를 거의 사용하지 않는다. 따라서 상부 및 하부 어레이에 시간차를 최소화하고 대신 지향성 마이크로폰을 쓰는 절충형 방식인 HSVC 방식이 이후 제안되어 이제는 보편적으로 쓰이고 있다. 모든 마이크로폰의 거리가 최소화되는 HVC 방식은 주로 Ambisonics에서 흔히 볼 수 있다. 다만, 실제로 마이크로폰은 물리적 크기를 갖고 있다는 점, 그리고 마이크로폰 어레이를 작게 만들기 위한, 그리고 가격을 낮추기 위한 여러가지 시도들은 좋은 음질을 내는데 있어서 방해가 된다는 점등의 이유로 인해 실제로 HVC 방식이 고음질의 음악, 특히 오케스트라 녹음에 쓰이는 경우는 거의 없다.
앞서 언급한 분류가 ‘마이크로폰의 시간 및 음속 정보’에 관한 것이라면 ‘마이크로폰이 담는 내용’에 관한 분류도 있다. 실제 3D 오디오 작업물을 만들어내는 과정에 있어서 ‘실제 음원의 3차원 위치 정보’를 담아낼 것인지 아니면 ‘공간의 느낌과 인상을 결정하는 현장감’을 담아낼 것인지에 따른 것이다. 이는 일반적인 녹음 작업에 있어서 ‘스팟 마이킹’과 ‘앰비언스 마이킹’으로 구분하는 것과 비슷하다. 3D 마이크로폰에 있어서 ‘메인 어레이’라고 한다면 예컨대 오케스트라에서는 지휘자의 머리 위에 배치되어 실제 악기 소리들과 함께 공간의 잔향 사운드까지 총체적으로 담아낸다. 실제 작업에 있어서 3D 마이크로폰의 하부 레이어의 전면 마이크로폰은 오케스트라의 직접음을, 그리고 후면 마이크로폰 및 상부 어레이는 공간의 잔향음을 주로 담아낼 것이다. 하지만 오케스트라 뒤에 합창단이 도열해 있거나 혹은 상부 높은 곳까지 음원이 위치한 파이프 오르간의 경우라면 상부 어레이의 전면 마이크로폰이 충분한 직접음을 받아낼 것이다.
메인 어레이에 더하여 3차원의 공간 잔향음만을 포착하기 위한 3D 마이크로폰 어레이를 구성하는 것도 생각할 수 있다. 이 경우 마이크로폰은 오케스트라를 지향하지 않거나 혹은 무지향성 마이크로폰으로 구성된 어레이라면 직접음과 반사음의 비율이 1:1 이하가 되는 임계 거리를 넘어서 배치될 것이다. 이렇게 의도적으로 구성된 3차원 어레이는 직접음 정보를 거의 포함하지 않기 때문에 추후 사운드 믹싱에 있어서 큰 자유도를 준다. 물론 직접음을 포착하는 메인 어레이 및 스팟 마이크로폰이 미리 추가로 배치되어 있어야 하겠지만 말이다. 대부분 3D 앰비언스 어레이의 경우 대규모의 녹음 시스템을 구성할 때 사용된다.
HVS(horizontally & vertically spaced)-수평 및 수직 간격 어레이
이 분류에 속하는 마이크로폰 기법들은 대개 3D 오디오 산업의 초창기에 등장한 것들이다. 따라서 기반 이론이 부실할 때도 있으며, 종종 좋은 평가를 받지 못하기도 한다. 하지만 실제로 필드에서 좋은 결과를 낸 ‘실전형 배치’들이 대부분 여기에 속한다. 이론과 현실은 일치하지 않는다는 좋은 예랄까. 하지만 만약 결과물이 좋다면 좋은 이유가 분명히 있을 것이다. 이 기법들을 잘 연구한다면 ‘좋은 소리의 비밀’을 찾을 수 있을지도 모르겠다. 또한 주지해둬야 할 점은, 여기 소개되는 마이크로폰 기법들은 대개 ‘채널 기반’으로 작동하게끔 구성된 경우가 대다수다. 따라서 특정 기법은 특정 오디오 포맷과만 어울리는 경우가 많다. 예컨대 Dolby Atmos는 후발 주자인만큼 여기 소개된 기법들과 여러모로 어울리지 않는다. 마지막으로, 이 기법들은 대부분 울림이 좋은 홀 안에서 오케스트라의 연주를 염두에 두고 개발된 것이다. 따라서 어레이의 각 부분은 전면의 오케스트라 직접음, 그리고 후면과 상단의 반사 및 잔향음으로 나뉘어져 픽업하게끔 구성되어 있는 경우가 대다수다. 이는 당시 초창기의 3D 오디오가 블루레이 오디오 등 하이파이 마니아들을 위한 제작에 집중되어 있었던 배경과 밀접한 관련이 있다.
OCT-3D
OCT-3D는 그 유명한 OCT-Stereo 기법, 그리고 OCT-Surround 기법에서 파생된 어레이로 Theile과 Wittek이 제안한 방식이다. 먼저 하단 어레이의 전면 마이크로폰을 보면 센터 채널에 단일지향성, 그리고 거리를 둔 양 사이드 끝에 초지향성 마이크로폰이 서로 반대 방향으로 배치된 것으로 센터 이미지와 사이드의 스테레오 이미지를 둘 다 충실히 재현하면서도 후반 작업성이 좋은 OCT-Stereo와 완전히 같다. 40cm의 거리 뒤로, 그리고 10cm 바깥으로 배치된 후면의 단일지향성 페어는 서라운드 스피커에 라우팅되는 신호를 담아낸다. 즉, OCT-Surround다. 이는 다분히 5.1채널 서라운드 기법에 특화되어 있는 것이다. 상단을 지향하는 4개의 초지향성 마이크로폰은 1m의 거리를 두고, 하단 어레이의 마이크와 같은 지점에 배치된다. 이는 전면에서 오는 오케스트라의 직접음은 피하되 상단의 잔향음만을 골라서 픽업하겠다는 의도이다. 다만 재생시 전면의 상하 이미지 재현에 있어서는 이상적인 결과를 기대하기는 어려울 것이다. 이는 상부의 초지향성 마이크로폰이 완전히 천장을 향하게 되어 있기 때문으로, 하단부 마이크로폰과의 유기적인 연계(시간차, 음량차)를 통한 수직 패닝 달성을 위해 고안된 것은 아니기 때문이다. 즉, OCT-3D는 전면 오케스트라의 직접음을 픽업하는 전면 어레이+후면 및 상부의 잔향음 픽업에 특화된 후면 및 상단 어레이의 조합이다.
Bowles Array
Bowles Array는 하단부는 무지향성을 사용한 A-B 스페이스드를 구성한 어레이에 센터 이미지 달성을 위한 단일 지향성 마이크로폰을 중앙에 추가하고 상단부 어레이에는 직접음을 피하고 잔향음만을 픽업하는 초지향성 마이크로폰을 상단 60°, 수평 45° 각도로 배치하는 방식이다. 각 마이크로폰 사이의 간격은 제시되지 않았으며 앙상블 크기에 따라 유기적으로 바꿀 것이 제안된다. 이는 다소 이상하게 들릴 수 있지만 메인 마이크로폰에 속하는 하단 어레이가 A-B 스페이스드 방식을 기반으로 했다는 점을 상기해보면 쉽게 수긍이 될 것이다. 상단 어레이의 초지향성 마이크로폰 4개는 직접음을 피함과 동시에 서로의 크로스토크를 방지하기 위한 각도가 제안된 것이다. 마지막으로 하단과 상부 어레이의 거리는 하단 어레이의 마이크끼리 거리의 1/3, 최대 1/2이 넘지 않도록 제안된다. 이는 ‘Hole in the middle’ 현상을 방지하기 위해서다. 상위 레이어에 무지향성 마이크로폰을 사용하는 것은 권장되지 않는다. 과도한 저역 서밍, 콤필터링, 정위감에 있어서 문제가 발생할 확률이 높기 때문이다.
Williams Umbrella
Williams Umbrella의 하단 어레이를 보면 다분히 NOS 스테레오의 서라운드식 확장판인 것으로 보인다. 각 마이크로폰은 단일지향성 구성으로 서로 45° 각도를 두며 35cm의 간격을 두게끔 설계되었다. 이는 명백한 음량차이를 만들기 때문에 Near-Coincident로 분류할 수 있을 정도다. 상부 레이어는 특이하게 양지향성 마이크로폰으로 구성되게끔 설계되었다. 이는 설계자의 비공식 청취 테스트에서 수직 대각선 평면의 팬텀 이미지를 정확히 달성한다는 것이 증명되었기에 채택되었다. 상단 레이어는 하단 레이어보다 다소 큰 52cm의 간격을 두고 십자 배열되며 하단 레이어와의 거리는 1m이다. 이는 대각선 방향의 팬텀 이미지 달성에는 적합하지만 수직 스피커 사이의 위치 표현에 있어서는 좋은 결과를 얻지 못했다. 그리고 상부 어레이의 양지향성 마이크로폰이 발생시키는 하단의 로브는 하단 레이어의 단일지향성 마이크로폰과 간섭을 일으키기도 했다.
2L-Cube
Lindberg가 개발한 2L-Cube는 특이하게도 모든 마이크로폰이 무지향성만으로 구성된다. 말하자면 A-B 스페이스드 방식의 3D 버전인 것. A-B 방식에 기인한 만큼 큐브의 너비와 깊이는 앙상블에 따라 유기적으로 변할 수 있지만 하단 레이어와 상단 레이어의 높이는 1m로 일정할 것이 권장된다. 또한 센터 이미지 형성을 위한 하단 레이어 전면의 센터 마이크가 추가될 것도 권장된다. 이로 인해 5.1.4 혹은 9.1 포맷 재생에 적합한 채널이 확보된다. 이 방식은 일견 이상해보이지만(전면 대규모 오케스트라의 경우 충분한 레벨 차이가 생성되지 않을 수 있다!) 이 방식이 360° 원형 배치된 오케스트라를 위해 설계되었다는 것을 알고나면 수긍이 될지도 모르겠다. 이 경우 각 마이크로폰은 충분한 음량 차를 발생시키기 때문에 강한 정위감과 공간감을 동시에 만들어낼 수 있다. 실제로 개발자는 레벨의 밸런스를 개선하기 위해 실제 세션에서 개별 연주자의 거리를 조정했다고 한다.
무지향성 마이크로폰의 선택 기준은 극성 응답보다는 음색으로 선택하게 되며, 종종 상황에 따라 상단 어레이의 경우에는 음압 이퀄라이저(마이크로폰의 면적을 크게 하여 고음의 방향성을 증가시키는 장치. 무지향성 마이크로폰이 중고역에서 일부 지향성을 갖도록 만든다.)를 사용하여 방향성을 높여 채널간 레벨차를 더욱 크게 만들기도 한다. 이를 통해 상단 레이어에 유입되는 직접음이 일부 줄어들기 때문에 전면 수직 평면에서 소스 이미지가 흐릿하게 상단으로 이동되는 현상이 방지될 수 있다.
Spider Tree
Sawagichi는 2L-Cube에서와 마찬가지로 360°로 배치된 연주자들 중앙에 배치하기 위한 마이크로폰 기법을 개발했다. 5.1채널 스피커의 배치를 어느 정도 본딴 5각형 배치의 하단 마이크로폰은 무지향성을 사용한다. 2L-Cube와 전반적으로 비슷하지만 하단 레이어 마이크로폰의 배치가 사각형이 아닌 오각형이라는 점에서 큰 차이가 있다. 만약 7.1채널 재생 환경일 경우 양 +90, -90° 바깥쪽에 아웃트리거로 무지향성 마이크 페어를 추가하여 재생포맷 호환성에 대응한다. 하단 레이어보다는 좀 더 크게, 그러나 정확한 크기가 지정되지는 않은 상단 레이어의 지향성 마이크 4개는 음악적인 표현에 더 유용할 것이라고 여겨지는 천장에서의 초기반사음을 픽업하기 위한 것이다. 전반적으로 360° 연주자 배치이기에 음원과의 거리가 가깝고 따라서 각 채널은 강한 채널간 레벨 차이를 나타내며 동시에 ‘hole in the middle’의 우려도 있다. 하지만 Sawaguchi는 이 기법이 ‘역동적인 음악적 표현’’을 제공했다고 밝히고 있다.
Twin Cube
각 마이크로폰끼리의 거리는 2m로 전부 동일하게 설정된 대형의 3D 큐브 어레이인 이 방식은 지나치게 넓은 마이크간 거리로 상황에 따라 센터에 마이크를 추가할 것이 권장된다. 이 방식에 사용되는 마이크로폰은 Sennheiser MKH800 Twin 듀얼 출력 마이크로폰으로 Auro-3D 녹음 기술로 처음에 제안된 방식이다. 이 마이크로폰은 2개의 단일지향성 캡슐이 서로 반대 방향을 향하도록 배치되어 있어서 개별 출력을 적절히 이용해 다양한 방식의 지향 패턴을 얻어낼 수 있다. 3D 녹음 시대의 비교적 초창기에 제안된 방식인만큼 이론적 근거가 빈약하며, 그저 듀얼 출력 마이크로폰으로 유연한 후반 작업을 염두에 둔 방식에 가깝다. 상단 레이어와 하단 레이어는 비록 2m의 먼 거리를 형성하고는 있지만 두 레이어의 마이크로폰 모두 같은 방향을 향하게끔 되어 있기 때문에 강한 채널간 간섭이 발생되며 이는 불안정한 수직의 팬텀 이미지를 형성한다. 그러나 파이프 오르간이나 대규모 오케스트라, 오케스트라 뒷면의 라이저 위의 합창단 녹음에서는 충분한 채널간 음량차가 있는 직접음이 발생되기 때문에 좋은 결과를 얻을 수 있다.
Double-UFIX
Double-UFIX는 Camerer가 제안한 방식으로 5.1.4 포맷에 적합하다. 9개의 마이크로폰 모두 와이드 카디오이드 방식으로 구성되며 각 마이크간 거리는 50~41cm 가량으로 하단 레이어는 오각형을, 상단레이어는 사각형을 구성, 그리고 상단과 하단 레이어의 거리는 20~30cm로 그쳐 전반적인 분위기 재현 및 팬텀 이미지 구현을 적절히 균형적으로 제공하기 위해 설계되었다. 각 마이크로폰 페어들은 MARRS 모델링 소프트웨어를 통해 계산된 것으로 적절한 음량차 및 시간차를 제공하며 각 마이크로폰의 지향각은 재생되는 대응 스피커의 지향각도에 맞춰 조절된다.
와이드 카디오이드 패턴의 마이크로폰은 일반적인 지향성 및 초지향성 마이크로폰에 비해 더 확장된 저주파 응답을 제공하는 대신 상대적으로 낮은 지향성으로 저주파에서 채널간 간섭이 일어날 수 있다. 다만 앞서 언급한 50~41cm 정도의 마이크간 거리는 300Hz까지 역상관을 생성하기 때문에 청감상 더 확장된 공간감을 제공할 수 있다. 상단 및 하단 어레이의 지향각은 서로 충분한 레벨차이를 생성할 수 있는 90°로 설정되어 채널간 간섭을 줄이며, 20~30cm의 수직 간격은 500Hz까지 역상관을 생성한다. 이 방식은 지금까지 제안된 HVS 어레이 방식 중 가장 Near-Coincident의 성격을 가진 것으로, 어레이의 크기가 충분히 작으며 각 마이크로폰의 채널간 간섭도 비교적 적은 편에 속한다.
Hamasaki Cube
명칭에서 짐작할 수 있듯이 이 마이크로폰 어레이 방식은 NHK22.2 방식을 개발하고 제안한 Hamasaki와 Van Baelen이 개발한 것이다. 하단 레이어는 전부 양지향성 마이크로만 구성되는데 이 마이크로폰 어레이는 애초에 전면의 직접음을 전혀 받지 않도록 되어 있다. 즉, 이 마이크로폰 어레이는 완벽한 앰비언스 사운드 픽업을 위해서만 고안된 것이다. 2m 간격으로 구성된 하단부 4개의 양지향성 마이크로폰 리그는 Hamasaki Square라고 불리는 것으로 서라운드 앰비언스 녹음에서 이미 널리 알려진 방식이다. 이는 무지향성 마이크로폰 리그를 사용하는 것과 달리 오케스트라의 직접음은 받지 않으면서 2m의 마이크로폰 간격으로 인해 100Hz에서도 충분한 4채널 역상관 앰비언스를 생성한다. 연구에 의하면 앰비언스 녹음 및 재생에서 후면 채널만 사용하는 것보다는 전면 채널까지 사용하는 것이 더 큰 현장감을 생성하는 것으로 나타났다.
여기에 상단 레이어는 초지향성 마이크로폰을 통해 천장을 향하도록 했다. 상단과 하단의 마이크로폰 레이어의 간격은 2m 정도로 동일하기 때문에 Hamasaki Cube라고 하는 정입방체 레이아웃이 형성된다. 여기에 만약 VOG(Voice of God)라 불리는 머리 바로 위쪽의 오버헤드 스피커가 추가되는 경우 중앙에 추가적인 초지향성 마이크로폰이 배치될 수 있다.
Main/Ambience Array Approaches
이 방식은 NHK22.2 재생 환경을 위해 Hamasaki가 제안한 기본적인 마이크로폰 배열이다. 먼저 5개의 초지향성 마이크로폰이 메인 어레이로서 무대 앞에 일직선으로 각각의 간격이 동일하게 오케스트라 앞에 배치된다. 앰비언스 캡쳐를 위해서는 양 옆을 향하는 13개의 양지향성 마이크로폰이 녹음 장소의 다양한 위치에 배치된다. 넓은 간격을 사용하는 이유는 충분한 저음까지 각 마이크로폰 간 충분한 역상관을 만들어내기 위해서다. 여기에 Howie는 Hamasaki의 접근 방법을 채택하고 확장했다. 5개의 전면을 향하는 초지향성 메인 마이크로폰은 같으나 하단 레이어에는 측면을 향하는 8개의 양지향성 마이크로폰과 함께 상단 레이어에는 위쪽을 지향하는 8개의 초지향성 마이크로폰을 배치한다. 상단 레이어와 하단 레이어의 간격은 3.67m에 달한다. 여기에 추가적으로 3개의 바운더리 마이크를 무대바닥에 넓은 간격으로 배치하여 하단 레이어용으로 사용한다.
HSVC(horizontally spaced & vertically coincident)-수평 간격 및 수직 일치 어레이
거듭 이야기 하는 것이지만 최근 연구 결과에 따르면 인체의 귀는 수직 음상 정보의 파악에 있어서 시간차를 전혀 사용하지 않는다. 이는 실제 실험으로도 드러난 것이며, 일정 이상의 시간차는 오히려 정확한 정위감은 물론 현장감까지 해치는 것으로 나타나기까지 했다. 이에 따라 최근의 3D 마이크로폰 기법은 하단과 상단 마이크로폰 배치에 있어서 간격을 없애고 대신 지향성 및 초지향성 마이크로폰을 사용하여 채널간 분리를 시도하는 방향으로 나아가고 있다. 어레이의 크기에 있어서도 지나치게 넓은 간격 배치는 피하는 추세이며, 극저음의 역상관 생성이 필요한 경우에는 무지향성 아웃트리거 정도를 추가하는 정도로 대응하는 경우가 대부분이다.
PCMA-3D
PCMA-3D는 취재진이 참고한 논문의 저자인 이현국 교수가 제안한 PCMA(Perspective Control Microphone Array) 설계 개념을 기반으로 하는 5.1.4 및 7.1.4 포맷에 대응하는 어레이이다. 먼저 하단 레이어를 살펴보면 단일지향성 마이크로폰을 상황에 따라 1~2m 간격으로 배치하여 충분한 시간차와 함께 레벨 차이까지 더불어 확보한다. 전면의 LCR 채널에 해당하는 3개의 단일지향성 마이크로폰은 재생 스피커의 배치 방향과 동일하게 각각 -30°, 0°, +30°를 지향하게 하며 2개의 서라운드 마이크로폰은 후면을 지향한다. 상단을 지향하는 초지향성 마이크로폰은 하단 레이어의 마이크로폰들과 정확히 Coincident한 위치에 근접 배치되어 시간차를 근본적으로 없앤다. 대신 이 마이크로폰들은 상단을 지향하여 주로 천장에서 오는 앰비언스를 캡쳐하게끔 한다. 상단 레이어에 초지향성 마이크를 사용한 경우에는 최대한의 크로스토크 억제를 위해 127° 방향에 하단 지향성 마이크로폰이 향하도록 할 수 있으며 지향성 마이크로폰의 경우 서로 반대방향을 바라보도록 배치하는 것도 고려할 수 있다. 하단 및 상단 어레이의 마이크들이 서로 근접해 있기 때문에 이미 작업이 끝난 3D 사운드 콘텐츠를 2D 서라운드 콘텐츠로 다운믹싱하는 작업도 매우 쉽게 이뤄진다. 근본적으로 시간차가 없기 때문에 콤필터링이 없어서 단순히 채널을 서밍하는 것만으로도 착색이 거의 없는 동시에 채널의 정보가 전부 살아있는 다운믹싱이 가능하다.
ESMA-3D
ESMA(Equal Segment Microphone Array)는 원래 Williams가 제안한 연속적인 360° 음장캡쳐를 시도하는 방식이다. 즉 ‘Critical Linking’ 개념을 기반으로 하는 것이며 이는 중복되거나 누락되는 간격 없이 마이크 어레이의 각 세그먼트를 배치하고 연결하는 것이다. 이에 대해 1)어레이에 있는 모든 인접 마이크로폰들은 같은 각도를 형성해야 하며, 2)대향 각도와 스피커의 배치 각도 역시 동일해야 한다는 것이다. 여기서 해박한 독자라면 이미 눈치챘겠지만 이는 이미 잘 알려진 4채널 쿼드라포닉에 기반한다. 실제로 Williams가 원래 제안한 것은 각 마이크들을 24cm 간격으로 동일하게 배열하고 또한 각 마이크로폰들은 +-45°의 각도를 형성, 각 마이크로폰들은 정확히 90°의 각도를 갖게 되어있다. 그러나 이현국 교수는 이 방식이 정확한 사운드 이미징을 제공하지 못한다는 것을 발견하고 MARRS 모델링을 기반으로 50cm의 간격으로 수정할 것을 제안했다. 여기에 더해 상단 레이어에는 초지향성 마이크로폰이 하단 레이어의 마이크로폰과 같은 위치에 배열되어 상단을 지향하도록 한다.
ORTF-3D
Schoeps의 Wittek과 Theile는 OCT-3D의 거대한 어레이의 단점을 개선한 ORTF-3D를 제안했다. ORTF는 17cm 간격과 110도 간격의 단일지향성 마이크로폰을 사용하는 인기있는 Near-Coincident 어레이 기법이다. Wittek과 Theile는 ORTF의 장점을 서라운드 및 3D 환경에 적용하기 위해 8개의 초지향성 마이크로폰을 좌우 20cm, 앞뒤거리 10cm로 배치하고 상단과 하단레이어의 마이크는 최대한 근접시켜 불필요한 시간차를 없앴으며 상단과 하단의 마이크로폰은 90°의 각도를 이루도록 하여 완벽한 채널간 분리를 달성하였다. 이 방식은 컴팩트한 디자인으로 인해 높은 휴대성 실현이 가능하므로 곧 실제 현장에 즉시 사용되었다. 현재 영국의 BBC 방송국을 비롯한 상업 방송사들은 스포츠 현장 중계 등 생생한 현장감이 필요한 곳에 이 마이크로폰 리그를 사용한다. 더불어 약간의 시간차만 있을 뿐 Ambisonics A-Format과 유사한 방식을 취하고 있기 때문에 가상 스피커 개념을 사용하는 VR/AR이나 게임콘텐츠 제작에도 유용하게 사용할 수 있다. 아직은 극히 일부지만 한국에도 사용사례가 있으며 특히 현실감 및 정위감 재현에 있어서 탁월하다는 평가를 받고 있다. 단지 8개의 녹음 채널만을 필요로 한다는 것도 장점이어서 포터블 8채널 레코더로도 쉽게 야외 로케이션이 가능하다.
au3Dio
45°나 90°가 아닌, 60°의 각도를 사용하는 것이 au3Dio이다. 이에 따라 하단 레이어는 육각형 레이아웃으로 구성되며 각 마이크로폰들은 중복 지역을 최소화하기 위해 62cm 간격으로 배열된다. 여기에 천장을 지향하는 양지향성 마이크로폰이 하단 레이어의 전면 2개 및 후면 2개 마이크로폰 위치에 시간차 없이 배열되어 상단 레이어를 형성한다. 이 상단 레이어의 시그널은 실제 상단 레이어 스피커로 직접 라우팅될 수 있으며, 이 경우 하단 레이어의 단일지향성 마이크로폰은 정확히 정면의 음원을 향하는 것이 권장된다. 그래야만 최대한의 채널 분리가 보장되기 때문이다. 물론 대안으로 하단의 지향성 및 상단의 양지향성 마이크를 MS 방식으로 프로세싱하여 시그널을 중간 및 상단 레이어에 유연하게 라우팅하여 후반작업하는 것도 가능하다. 이 경우 마이크 어레이를 음원의 높이보다 높게 올려서 설치해야 한다.
Lee Rec-3D
이 방식은 Hamasaki Squre를 HSVC 방식으로 3D 확장한 개념이라고 할 수 있다. 이는 이현국 교수가 제안한 것으로 실제 실험을 통해 Hamasaki Squre를 다소 축소하고 시간차 없는 상단 어레이를 더한 것이다. 직접음을 받지 않고 잔향 및 반사음만 캡쳐하는 전면의 양지향성 페어, 그리고 뒷면을 향하는 단일지향성 페어라는 아이디어는 같으나 이현국 교수는 면밀한 실험을 통해 어레이의 너비는 1m, 그리고 깊이는 50cm까지 줄여도 인식되는 현장감에 있어서 큰 차이가 없다는 것을 발견했다. 이에 따라 어레이의 크기를 전반적으로 대폭 줄인 후 천장을 향하는 초지향성 마이크로폰을 정확히 하단 어레이 마이크들과 시간차 없이 Coincident하게 배치하여 상단 어레이를 형성하는 것이 기본 골자다. 이를 바탕으로 하단 레이어는 1)전면의 양지향성 페어 및 후면의 단일지향성 페어, 2)4개의 측면을 향하는 양지향성 2페어, 3)4개의 후면을 향하는 단일지향성 2페어로 구성된다. 이는 녹음 상황에 따라 유연하게 선택하여야 한다. 예컨대 뒤쪽을 향하는 단일지향성 배치는 콘서트홀 뒷벽을 맞고 반사되는 잔향을 더 많이 캡쳐한다. 측면을 향하는 양지향성 배치는 더 강한 초기 측면 반사를 포착하는 경향이 있어서 소스 및 환경 폭에 대한 인식을 향상시키는데 도움이 된다.
HVC(horizontally & vertically coincident)-수평 및 수직 일치 어레이
완벽한 시간차가 없는 마이크로폰 배치 방식은 실제로는 존재하지 않는다. 왜냐하면 마이크로폰은 물리적인 크기가 존재하기 때문이다. 하지만 마이크로폰 캡슐의 크기만큼 최대한 집적시키는 시도는 해볼 수 있을 것이다. 또한 마이크로폰의 지향성 형성을 얼마나 실현할 수 있는지도 문제다. 현실적으로는 단일지향성 및 초지향성 형성까지 해내는 것이 전부이다보니 A-Format으로 캡쳐할 수 있는 것은 Ambisonics 1차(4개의 단일지향성 캡슐) 및 2차(8개의 초지향성 캡슐) 정도가 한계이다. 그 이상의 차수는 구 평면에 무지향성 마이크로폰을 배치시키는 것으로 실현하고 있으며 이 경우 저주파에서 의미있는 방향성 형성이 어렵다는 단점이 있다. 즉, 현실적으로 높은 차수, 그리고 높은 음질의 Ambisonics 마이크로폰을 만드는 것은 아직은 기술적으로 많은 난관이 있다.
일반적으로는 마이크로폰으로 A-Format을 만들고 이후 B-Format으로 인코딩하여 Ambisonics를 다룬다고 알려져 있지만 마이크로폰에서 바로 B-Format을 얻을 수 있는 방법도 있다. 비록 1차에 그치긴 하지만 3개의 양지향성 마이크로폰과 1개의 무지향성 마이크로폰을 조합하면 W, X, Y, Z에 해당하는 시그널을 얻을 수 있다. 이는 MS 스테레오를 평면 서라운드에 대응하는 더블-MS로 확장하고 다시 이것을 3차원으로 확장한 것과 비슷하다. W, X, Y, Z에 해당하는 마이크로폰을 직접 배치하는 것을 트리플-MS라고 하며 더블-MS에 Z축에 대응하는 양지향성 마이크로폰을 추가하는 것은 더블MS+Z라고 지칭된다. 이 방식은 주로 상업용으로 잘 알려진 A-Format Ambisonics 마이크로폰에 비해 질적으로 우수한 마이크로폰을 사용할 수 있기 때문에 음질적으로 좋은 결과를 얻을 확률이 높다. 명심해야 할 것은 분명히 Ambisonics에서 높은 차수는 중요한 요소지만, 그 이상으로 중요한 것이 마이크로폰의 퀄리티라는 것이다. 기본적으로 마이크에서 우수한 소리를 얻지 못한 상태에서 단순히 차수만 높인다면 그저 ‘좋지 않은 소리를 더 우수한 해상도로 듣게 되는 꼴’이 될 뿐이다.
청취 환경도 고려해야 하는 부분이다. 최적의 Ambisonics 청취는 스피커들이 서로 같은 간격으로 배열되어야만 한다. 즉, B-Format으로 인코딩된 신호가 손실없이 스피커 배치에 대응하는 디코딩이 되어야만 한다. 하지만 상업적인 Immersive Sound 환경 구성은 대체로 Auro-3D나 Dolby Atmos의 5.1.4나 7.1.4, 혹은 9.1.6의 불규칙한 배열이기 때문에 면밀한 검토가 요구된다. 이 경우 EPAD 및 AllRAD 디코딩이 제안되고 있다. 이번 기사는 Ambisonics이 주제는 아니므로 다양한 인코딩 및 디코딩, 그리고 Ambisonics에 대한 여러가지 특징과 이론적 기반에 대해서는 다음 기회에 좀 더 깊이 다루도록 할 것이다.
정리
A-Format 1차 Ambisonics 마이크로폰은 상업적으로 널리 활용된다. 사진은 Sennheiser Ambeo.
Ambisonics B-Format을 바로 얻어내는 방식도 존재한다. 사진은 트리플-MS 기법.
더블-MS의 원리. 지금까지 많은 서라운드 앰비언스 콘텐츠가 더블-MS 방식으로 제작되었다.
이번 기사에서는 지금까지 등장하고 제시된 다양한 3D 마이크로폰 기법들을 나열하고 분석했다. 비록 완전한 분석 및 비교는 아니지만, 3D 마이크로폰 배치 설계에 있어서 어떤 이론적 기반이 있는지, 그리고 어떤 점은 중요하고 또 어떤 점은 중요하지 않은지 대략 감을 잡는데 도움이 되었으리라 생각한다. 아직 많은 것이 정립되고 결정된 것은 아니지만 3D Immersive 스피커 배치가 단순히 정확한 사운드 객체의 위치감 표현에만 머무르지 않고 좀 더 확장된 현실감과 다채로운 공간감을 제공하기 위해 개발된 것처럼, 3D 마이크로폰 기법 역시 단순히 정확한 정위감의 표현을 넘어 그 이상의 것을 청취자에게 전달하기 위해 만들어지고 고안되고 있다. 만약 정확한 정위감만이 중요하다면 아마도 높은 차수의 Ambisonics 마이크로폰만이 살아남았을 것이다. 하지만 시장의 응답은 그렇지 않다. 낮은 차수의 Ambisonics 마이크로폰은 낮은 가격과 편리한 휴대성으로 그럭저럭 살아남고 있지만 높은 차수의 마이크로폰은 상대적으로 높은 가격에 비해 실망스러운 음질 때문에 실제 현장에서는 거의 쓰이지 못하고 있다. 반대로 정확한 정위감과는 전혀 상관없으며 오히려 정위감 형성에 방해가 된다고까지 결론난 HVS-수평 및 수직 간격 어레이 방식의 레코딩에서 많은 Audiophile들은 감동을 느끼며 음악의 즐거움을 만끽하고 있다. 실제로 많은 3D오디오 명반들이 이 방식으로 작업된 경우가 대다수니 말이다. 말하자면 3D 마이크로폰 기법은 아직도 개척중이며 그 비밀이 이제서야 조금씩 밝혀지고 있는 분야다. 많은 독자들이 이번 기사에서 실마리를 풀고 자신감을 얻어 좋은 결과를 만들어낼 수 있기를 기대해본다.
현장의 사운드 분위기를 실감나게 잡아내는 방법: 3D 마이크로폰 테크닉 집중 분석
글 이무제 기자
단도직입적으로 가장 근본적인 질문부터 해보자. ‘3D 마이크로폰 테크닉은 반드시 필요한가?’. 이에 대한 대답은 일부의 상황에서는 ‘No!’라고 답할 수 있다. 많은 단점과 한계에도 불구하고 컨슈머를 위한 Immersive Sound 포맷은 이제 Dolby Atmos로 완전히 굳어진 모양새이며 현재 대부분의 관련 콘텐츠들은 Dolby Atmos의 3D 패너의 오토메이션 기능을 적극적으로 이용하여 만들어지고 있다. 실제로 이렇게 3D 패너로 만드는 가상 3D 사운드는 ‘음원의 이동, 음원의 정위감’에 주로 초점이 맞춰져 있다. 이렇게 말하면 ‘그러면 3D 사운드에 있어 다른 고려할 점이라도 있나?’라는 질문이 나올텐데, 실감나는 3D 사운드의 재현을 위해 무엇보다 필요한 것은 ‘가상 공간의 재현’임을 알아둬야 한다. 단순히 ‘음원이 거기 있다’라는 것으로는 완성도 높은 3D 사운드를 만들어낼 수 없다. Immersive를 직역하면 ‘몰입’이다. 즉, Immersive Sound라는 것은 듣는 사람, 즉 콘텐츠 소비자로 하여금 ‘음원의 위치’ 뿐 아니라 전반적인 사운드 분위기에 있어서 ‘실제로 거기 있다’라는 느낌까지 전달해야 한다. 이를 위해 3D 리버브 등을 사용할 수 있지만 가장 좋은 것은 3D 앰비언스 사운드를 실감나게 잡아내는 것이다. 이를 위해 필요한 것이 바로 3D 마이크로폰 테크닉이다. 그래서 처음으로 돌아가서, 던져진 질문에 대한 또 다른 답은 ‘Yes!, 있으면 더 좋다!’이다.
사실, 본지가 이 기사를 다루는 것은 시기상조일지 모른다. 스테레오 마이킹 기법과는 달리 3D 마이크로폰 테크닉은 아직 완벽한 이론이 정립된 상태가 아니다. 사실, 이는 2D 평면을 다루는 서라운드 마이킹 기법도 마찬가지다. 인체의 귀는 정면의 60° 각도의 소리를 정확히 잡아내는데 특화되어 있으며 다른 방향에서의 소리는 ‘정확한 감지’라기 보다는 ‘전반적인 느낌’이나 ‘분위기’로 감지하기 때문에 3D 마이크로폰 테크닉은 이론적인 정립이 어려울 수 밖에 없다. 그럼에도 불구하고 지금까지 많은 시도들이 있었으며, 유의미한 혁명과 발전이 이뤄지기도 했다. 이에 따라 아직 많은 것을 말할 수 있는 단계는 아니지만 그래도 적잖은 연구 실적이 쌓였기 때문에 지금까지의 시도와 연구들을 총망라하여 정리하는 작업이 3D 사운드 분야를 공부하는 독자들에게 매우 유용할 것이라고 확신한다. 본지가 주로 참고한 자료는 3D 기술의 최첨단에서 활약하는 이현국 교수(University of Huddersfield, UK)가 쓴 논문 [Multichannel 3D Microphone Arrays: A Review]이다. 이 논문에서는 각종 3D 마이크로폰 기법의 이론적 배경과 평가, 지금까지의 연구의 한계와 앞으로 나아가야 할 연구 방향까지 제시하고 있어서 3D 사운드 분야에 관심있는 독자라면 반드시 일독할 것을 권한다.
왜 3D 사운드인가?
앞서 ‘3D 마이크로폰 테크닉’이 3D 사운드를 제작함에 있어서 반드시 필요한 기법은 아니라고 언급했었다. 하지만 전문적으로 3D 사운드의 프로덕션을 행한다면 반드시 알고 있어야 하는 것이 바로 3D 마이크로폰 테크닉이다. 이는 단순히 ‘몇 가지의 마이크 배치 기법’을 암기하는 것을 말하는게 아니다. 각 마이크로폰 배치가 가지는 의미, 이루고자 하는 것, 이론적 배경, 한계 등을 정확히 아는 것까지 포함한다. 이는 사람이 3차원 음장을 인지하는 방법을 다루기 때문이다. 물론 본지 9월호에 대거 실린 관련 기사에서 확인할 수 있듯이 사람은 전면의 극히 일부를 제외하고는 3차원 정위감을 정확히 인지하지는 못한다. 하지만 전반적인 3D 사운드는 공간의 ‘인상’, ‘분위기’ 형성에 있어서 지대한 영향을 끼친다. 예컨대 영화에서 배경 장면이 변화할 때마다 포스트 프로덕션 스튜디오의 사운드 엔지니어는 그 장면에 걸맞은 잔향을 제대로 표현하는 것이 1차적 목표다. 해변에 마주 앉은 연인의 대화에서 마치 어느 폐허가 된 건물의 계단에서 들릴 법한 공간 잔향이 들린다면 제 아무리 참을성이 많은 관객이라도 영화에 집중하기는 어려울 것이다. 현재는 아마도 Dolby Atmos에게 밀리는 모양새이지만 3D 사운드 포맷의 선구자인 NHK22.2나 Auro 3D와 같은 포맷은 이와 같은 이유들을 배경으로 정확한 정위감 표현 이전에 3차원 공간 사운드의 전반적인 모사를 더욱 중요시 했다. 이는 라이브 Immersive 포맷인 L-Acoustics L-ISA나 d&b audiotechnik의 Soundscape, Yamaha의 AFC, Meyer Sound Contellation도 마찬가지다.
지금까지 시도된 3D 마이크로폰 기법도 전반적으로 비슷한 방향으로 접근했다. 정확한 정위감만으로 본다면 아마 매우 높은 차수의 Ambisonics 마이크로폰이 정답이 될 수 밖에 없을 것이다. 하지만 실제로 모든 3D 클래식 음악 콘텐츠들을 통틀어봐도 Ambisonics 기법으로 진지하게 제작되는 예는 찾아보기 어렵다. 이는 Immersive Sound에서 ‘더’ 중요한 것이 정확한 정위감보다는 전반적인 분위기의 재현과 더 뛰어난 음색과 음질이라는 주장을 뒷받침한다.
어쨌든 3D 사운드 콘텐츠, 그리고 3D 재생 환경은 전반적인 몰입감, 그리고 ‘내가 거기에 있다’라는 느낌을 기존의 서라운드보다 더욱 확실하게, 실감나게 전달해준다. 모처럼 마련된 3D 재생 환경이라면, 가능하다면 가상으로 만들어낸 음장보다는 실제 현장의 분위기를 전달해주는 방향으로의 시도가 맞지 않을까? 이러한 시도는 팝 음악 등에서는 맞지 않을 수 있어도 클래식 음악, 영화, 드라마, 게임 등에서는 아마도 의미가 있을 것이다.
3D 사운드 제작 기법의 분류
먼저 알아야 할 것은 3D 오디오가 어떻게 다뤄지고 만들어지느냐이다. 현재 업계에서는 크게 3종류로 3D 오디오 프로세싱 기법을 나누고 있다. 채널 기반 오디오(Channel based audio), 객체기반 오디오(Object based audio), 장면 기반 오디오(Scene based audio)가 그것이다. 각 방식은 발전 단계나 혹은 결과물에서의 우열을 가리는 기준이 되는 것이 아니라, 그저 사용 용도나 상황에 맞는 특정 접근 방법이라는 것을 기억해야만 한다. 그리고 실제 제작 과정에 있어서 두 가지, 혹은 세 가지의 방법을 혼용 및 모두 사용하는 경우가 대다수이기 때문에 3D 사운드 제작자는 모든 방식을 전부 완벽하게 이해하고 있어야만 한다.
채널 기반 오디오(Channel based audio)
채널 기반 방식은 각 스피커에 할당되는 오디오 채널을 다루는 방식을 말한다. 예컨대 현재 스테레오 마이크로폰 테크닉 및 패닝 방식은 전형적인 채널 기반의 오디오이다. 각 마이크로폰은 각 스피커로 할당되는 소리를 담아낸다. 이 마이크로폰은 상황에 따라 여러 개가 될 수 있으며 반드시 하드패닝될 필요도 없다. 예컨대 데카트리(Decca-Tree) 방식은 2개를 초과하는 마이크로폰이 사용되지만 완벽한 스테레오 채널 기반의 녹음 및 프로세싱 방식이다. 다만 3D 오디오에서는, 특히 초창기의 3D 마이크로폰 기법을 보면 각 마이크로폰에 스피커 출력 채널이 하나씩 할당되는 경향이 짙어서 오디오 포맷의 채널 수와 마이크의 개수가 같거나 비슷한 경우가 많긴 하다. 물론 채널 기반 오디오가 반드시 마이크로폰 기법과만 연관되는 것은 아니다. 예컨대 시중에 판매되는 대부분의 3D 리버브 플러그인은 채널 기반 오디오로 분류해야 하며, 혹은 이전의 5.1이나 7.1 채널의 Dolby Digital 서라운드 등은 당시 기술의 한계로 채널 기반 오디오로 대부분 작업되었다.
또한 최신의 Dolby Atmos에서도 채널 기반 오디오의 유산은 여전히 남아있는데, 바로 7.1.2 Bed 채널로 불리는 트랙들이다. Dolby Atmos는 총 128채널의 입출력이 가능하지만 7.1.2채널이 Bed로 할당되었기 때문에 실제로 ‘객체’로 다룰 수 있는 채널은 118채널에 그친다.
객체 기반 오디오(Object based audio)
객체 기반 오디오는 GUI가 보편화된 현재의 3D 패너에서 가장 흔히 볼 수 있는 방식이다. 합성음 또는 드라이한 음원만을 캡쳐하는 스팟 마이크로폰에서 잡아낸 소리를 3D 패너를 통해 가상 공간에 배치하는 것으로, 3D패너의 설계에 따라 다양한 기법이 적용될 수 있지만 어쨌든 ‘소리’를 하나의 ‘객체’로 보는 모든 방식은 전부 객체 기반 오디오로 분류된다. 영화 등의 콘텐츠의 포스트 프로덕션 과정에서 예컨대 비행기나 총알 등이 날아가는 궤적의 소리 표현 등은 대부분 이 방식에 속한다. 또한 라이브 뮤지컬 등에서 배우가 트래커 장비를 장착한 후 움직이는 위치대로 자동 패닝되는 방식 또한 객체 기반 오디오에 속한다. 하지만 객체 기반 오디오와 채널 기반 오디오가 완전히 선을 긋듯이 구분되는 것은 아니다. 예컨대 3D 마이크로폰 리그에서 특정 방향에서 오는 잔향 및 반사음만을 잡아내는 지향성 마이크를 사용한 경우를 생각해보자. 이를 3D 패너를 통해 특정 위치에 배치한다면, 그래서 특정 위치의 스피커 채널에서 출력되게 한다면 이는 채널 기반인가? 객체 기반인가? 이처럼 구분이 애매모호한 면이 존재하지만 아마도 채널 기반과 객체 기반의 오디오를 가르는 기준은 유연성이 될 수 있다. 객체 기반으로 모든 패닝을 실시한다면 마스터링 되는 스피커 채널의 수에 제한받을 필요는 없어지기 때문이다. 따라서 Dolby Atmos 작업물을 만드는 경우 9.1.6에서 5.1.4, 그리고 스테레오 다운믹스 및 바이노럴 렌더링에 이르기까지 기본적으로 Dolby Atmos 패너가 객체 기반을 채택하고 있기에 폭넓은 출력 상황에 대응이 가능하며, 프로젝트 호환이 가능해지는 것이다.
장면 기반 오디오(Scene based audio)
채널 기반 오디오와 객체 기반 오디오가 사뭇 다르면서도 구분이 애매모호한 면이 있는 것과 달리 장면 기반 오디오는 확연히 구분되는 특징을 가진다. 이는 장면 기반 오디오가 360도 구형 방향의 위치와 공간의 정보를 모두 담아내는 특성을 갖기 때문이다. 현재까지 장면 기반 오디오에서 실제적으로 다뤄지는 방식은 Ambisonics가 유일하다. 지금까지 본지가 수 차례 Ambisonics 기법에 대해 다뤄왔지만, 다시 간단히 복습하자면 Ambisonics는 크게 A-Format과 B-Format으로 나눠지며, 진정한 Ambisonics는 B-Format이라고 할 수 있다. B-Format은 W, X, Y, Z의 각 공간 방향의 음속(Velocity) 정보를 담아낸 것으로 공간 해상도에 따라 ‘n차(nth order)’의 숫자로 구분된다. 가장 기본적인 1차 Ambisonics는 4개 채널로 구성되며 이를 ‘가상 지향성 마이크로폰 이론’에 기반한 sin 및 cos 계산으로 공간의 음 정보를 인코딩 및 디코딩한다는 개념이다. 당연히 차수가 높아질수록 공간의 정보가 세밀하게 담기게 된다.
이 개념이 이해하기 어렵다면 스테레오로 개념을 좁혀 XY 마이크로폰 기법과 MS 마이크로폰 기법의 상호 인코딩 및 디코딩을 생각해보면 이해가 쉽다. XY 마이크로폰 기법은 시간차 없이 마이크로폰이 지향하는 위치의 소리 정보를 갖고 있다. 여기에는 방향과 에너지의 크기 정보가 둘 다 있기 때문에 Vector 값이다. 따라서 M 신호는 L+R, 그리고 S 신호는 한 쪽을 위상반전시켜 L-R(혹은 R-L)로 얻어낼 수 있다. 이를 MS 인코딩이라고 한다. MS 마이크로폰 기법은 한 개의 단일지향성 마이크로폰과 한 개의 양지향성 마이크로폰으로 M과 S 신호를 인코딩 방식 없이 바로 캡쳐한다. 그리고 이렇게 얻어낸 MS 신호는 M+S, 그리고 M-S로 하여 각각 LR 신호를 얻어낼 수 있다. 이를 MS 디코딩이라고 한다. 이를 3차원 공간으로 확장한 것이 바로 Ambisonics 이론의 기반이다. 말하자면 XY 기법은 A-Format, 그리고 MS 기법은 B-Format을 바로 얻어내는 방식에 속하는 셈이다. 이 방식은 360도 공간에서 오는 잔향을 완벽하게 캡쳐할 뿐 아니라 소리의 위치 정보까지 담아낼 수 있기 때문에 3D 오디오를 다루는 가장 근본적인 방식이기도 하다. 하지만 문제점은 공간의 해상도가 Ambisonics B-Format의 차수에 절대적인 영향을 받는다는 것이다. 실제로 콘텐츠를 만드는데 있어서 제대로 된 공간음향이라는 느낌을 주려면 최소한 3차의 프로세싱을 해야하며 상업적으로 유의미하려면 최대한 양보하더라도 5차, 이상적으로는 7차 Ambisonics의 프로세싱이 권장된다. 그런데 5차 Ambisonics만 해도 36개 채널, 그리고 7차의 경우 무려 64채널의 고해상도 오디오 정보를 담고 있다. 최근의 컴퓨터 프로세싱 파워가 아무리 강력하더라도 하나의 오디오 객체가 64채널이라면 확실한 부담이다. 따라서 Ambisonics는 개별 오디오 객체보다는 공간 전체의 울림이나 소리, 즉 Dolby Atmos 환경과 비교하자면 ‘Bed’ 채널을 다루는데 좀 더 적합할 수 있다.
마이크로폰 배치 방식에 있어서 Ambisonics는 물리적인 한계로 인해 실제 구현이 어렵거나 거의 불가능하다. 현재 상업적인 용도로 실제 출시된 Ambisonics 마이크로폰은 대부분 1차에 그치며, 간혹 일부 모델에서 2~3차가 발견되며, 초고가 제품의 경우 4차 방식이 있긴 하지만 이 경우 가격이 비쌀 뿐 아니라 단일 마이크로폰에 30트랙에 가까운 멀티트랙 레코딩이 필요하기 때문에 실제 운용이 만만치 않다.
실용적인 사용에 있어서 Ambisonics 방식은 아마도 ‘가상 스피커’ 구현에 가장 적합할지도 모른다. Dolby Atmos나 Auro 3D, NHK22.2 등의 다양한 콘텐츠들을 제대로 들으려면 반드시 권장 스피커 배치 하에서 청취해야만 한다. 하지만 각 포맷의 트랙을 권장 스피커 배치에 맞는 각도로 가상 배치하여 충분히 높은 차수의 Ambisonics로 인코딩한 후 각 청취 환경에 맞게 디코딩한다면 서로간의 충분한 호환성을 제공할 수 있게 된다. 현존하는 형식 중 가장 유연하다는 이러한 장점은 게임 및 VR 분야에서 Ambisonics가 각광받는 이유를 말해준다. 왜 Youtube와 Facebook이 시장이 무르익지도, 관련기술이 채 정립되지 않은 시점에서 자신들의 3D 오디오 포맷으로 왜 굳이 Ambisonics를 선택했는지이해가 되는가?
3D 마이크로폰 어레이의 분류
스테레오 마이크로폰 기법은 크게 마이크로폰 사이에 공간을 두는 Spcaced 방식, 그리고 마이크로폰들을 최대한 가깝게 위치시키는 Coincident 방식, 그리고 두 방법을 적절히 절충하는 Near-coincident 방식의 세 가지로 나뉜다. 마찬가지로 3D 마이크로폰 기법 역시 비슷하게 분류할 수 있다. 3D 마이크로폰 기법은 상단과 하단 어레이로 분류되는만큼 분류 기준이 하나 더 생긴다. 하지만 지나치게 세부 분류를 나누기보다 큰 줄기에서 보자면 하단과 상단 마이크로폰이 모두 거리를 두는 HVS(horizontally & vertically spaced), 수평면으로는 공간을 두지만 하단과 상단 마이크로폰의 거리는 최소화하는 HSVC(horizontally spaced & vertically coincident), 그리고 수평면 및 수직면 모두 거리를 최소화하는 HVC(horizontally & vertically coincident) 방식으로 나눌 수 있겠다. 소리에 있어서 ‘공간’은 곧 ‘시간’이므로 이를 각 공간 정보 표현에 있어서 시간 정보를 사용할 것인지, 아닌지로 보아도 좋다.
스페이스드 기법의 경우 비교적 저음까지 채널간 역상관(interchannel decorrelation)의 크기가 커지기 때문에 이상적인 재생 환경이라면 더 깊은 공간감을 느끼게 된다. 이는 모노 시그널로 배포될 확률이 낮은 하이-프로덕션 작업물, 특히 고음질의 오케스트라 녹음에 A-B 마이크로폰 테크닉이 주로 사용되는 이유다. HVS는 이에 착안한 방식으로 A-B 방식을 3차원 공간으로 확장한 것이라고 보아도 좋다. 하지만 연구 결과에 따르면 인체의 귀는 소리의 높이 정보 인지에 있어서 시간 정보를 거의 사용하지 않는다. 따라서 상부 및 하부 어레이에 시간차를 최소화하고 대신 지향성 마이크로폰을 쓰는 절충형 방식인 HSVC 방식이 이후 제안되어 이제는 보편적으로 쓰이고 있다. 모든 마이크로폰의 거리가 최소화되는 HVC 방식은 주로 Ambisonics에서 흔히 볼 수 있다. 다만, 실제로 마이크로폰은 물리적 크기를 갖고 있다는 점, 그리고 마이크로폰 어레이를 작게 만들기 위한, 그리고 가격을 낮추기 위한 여러가지 시도들은 좋은 음질을 내는데 있어서 방해가 된다는 점등의 이유로 인해 실제로 HVC 방식이 고음질의 음악, 특히 오케스트라 녹음에 쓰이는 경우는 거의 없다.
앞서 언급한 분류가 ‘마이크로폰의 시간 및 음속 정보’에 관한 것이라면 ‘마이크로폰이 담는 내용’에 관한 분류도 있다. 실제 3D 오디오 작업물을 만들어내는 과정에 있어서 ‘실제 음원의 3차원 위치 정보’를 담아낼 것인지 아니면 ‘공간의 느낌과 인상을 결정하는 현장감’을 담아낼 것인지에 따른 것이다. 이는 일반적인 녹음 작업에 있어서 ‘스팟 마이킹’과 ‘앰비언스 마이킹’으로 구분하는 것과 비슷하다. 3D 마이크로폰에 있어서 ‘메인 어레이’라고 한다면 예컨대 오케스트라에서는 지휘자의 머리 위에 배치되어 실제 악기 소리들과 함께 공간의 잔향 사운드까지 총체적으로 담아낸다. 실제 작업에 있어서 3D 마이크로폰의 하부 레이어의 전면 마이크로폰은 오케스트라의 직접음을, 그리고 후면 마이크로폰 및 상부 어레이는 공간의 잔향음을 주로 담아낼 것이다. 하지만 오케스트라 뒤에 합창단이 도열해 있거나 혹은 상부 높은 곳까지 음원이 위치한 파이프 오르간의 경우라면 상부 어레이의 전면 마이크로폰이 충분한 직접음을 받아낼 것이다.
메인 어레이에 더하여 3차원의 공간 잔향음만을 포착하기 위한 3D 마이크로폰 어레이를 구성하는 것도 생각할 수 있다. 이 경우 마이크로폰은 오케스트라를 지향하지 않거나 혹은 무지향성 마이크로폰으로 구성된 어레이라면 직접음과 반사음의 비율이 1:1 이하가 되는 임계 거리를 넘어서 배치될 것이다. 이렇게 의도적으로 구성된 3차원 어레이는 직접음 정보를 거의 포함하지 않기 때문에 추후 사운드 믹싱에 있어서 큰 자유도를 준다. 물론 직접음을 포착하는 메인 어레이 및 스팟 마이크로폰이 미리 추가로 배치되어 있어야 하겠지만 말이다. 대부분 3D 앰비언스 어레이의 경우 대규모의 녹음 시스템을 구성할 때 사용된다.
HVS(horizontally & vertically spaced)-수평 및 수직 간격 어레이
이 분류에 속하는 마이크로폰 기법들은 대개 3D 오디오 산업의 초창기에 등장한 것들이다. 따라서 기반 이론이 부실할 때도 있으며, 종종 좋은 평가를 받지 못하기도 한다. 하지만 실제로 필드에서 좋은 결과를 낸 ‘실전형 배치’들이 대부분 여기에 속한다. 이론과 현실은 일치하지 않는다는 좋은 예랄까. 하지만 만약 결과물이 좋다면 좋은 이유가 분명히 있을 것이다. 이 기법들을 잘 연구한다면 ‘좋은 소리의 비밀’을 찾을 수 있을지도 모르겠다. 또한 주지해둬야 할 점은, 여기 소개되는 마이크로폰 기법들은 대개 ‘채널 기반’으로 작동하게끔 구성된 경우가 대다수다. 따라서 특정 기법은 특정 오디오 포맷과만 어울리는 경우가 많다. 예컨대 Dolby Atmos는 후발 주자인만큼 여기 소개된 기법들과 여러모로 어울리지 않는다. 마지막으로, 이 기법들은 대부분 울림이 좋은 홀 안에서 오케스트라의 연주를 염두에 두고 개발된 것이다. 따라서 어레이의 각 부분은 전면의 오케스트라 직접음, 그리고 후면과 상단의 반사 및 잔향음으로 나뉘어져 픽업하게끔 구성되어 있는 경우가 대다수다. 이는 당시 초창기의 3D 오디오가 블루레이 오디오 등 하이파이 마니아들을 위한 제작에 집중되어 있었던 배경과 밀접한 관련이 있다.
OCT-3D
OCT-3D는 그 유명한 OCT-Stereo 기법, 그리고 OCT-Surround 기법에서 파생된 어레이로 Theile과 Wittek이 제안한 방식이다. 먼저 하단 어레이의 전면 마이크로폰을 보면 센터 채널에 단일지향성, 그리고 거리를 둔 양 사이드 끝에 초지향성 마이크로폰이 서로 반대 방향으로 배치된 것으로 센터 이미지와 사이드의 스테레오 이미지를 둘 다 충실히 재현하면서도 후반 작업성이 좋은 OCT-Stereo와 완전히 같다. 40cm의 거리 뒤로, 그리고 10cm 바깥으로 배치된 후면의 단일지향성 페어는 서라운드 스피커에 라우팅되는 신호를 담아낸다. 즉, OCT-Surround다. 이는 다분히 5.1채널 서라운드 기법에 특화되어 있는 것이다. 상단을 지향하는 4개의 초지향성 마이크로폰은 1m의 거리를 두고, 하단 어레이의 마이크와 같은 지점에 배치된다. 이는 전면에서 오는 오케스트라의 직접음은 피하되 상단의 잔향음만을 골라서 픽업하겠다는 의도이다. 다만 재생시 전면의 상하 이미지 재현에 있어서는 이상적인 결과를 기대하기는 어려울 것이다. 이는 상부의 초지향성 마이크로폰이 완전히 천장을 향하게 되어 있기 때문으로, 하단부 마이크로폰과의 유기적인 연계(시간차, 음량차)를 통한 수직 패닝 달성을 위해 고안된 것은 아니기 때문이다. 즉, OCT-3D는 전면 오케스트라의 직접음을 픽업하는 전면 어레이+후면 및 상부의 잔향음 픽업에 특화된 후면 및 상단 어레이의 조합이다.
Bowles Array
Bowles Array는 하단부는 무지향성을 사용한 A-B 스페이스드를 구성한 어레이에 센터 이미지 달성을 위한 단일 지향성 마이크로폰을 중앙에 추가하고 상단부 어레이에는 직접음을 피하고 잔향음만을 픽업하는 초지향성 마이크로폰을 상단 60°, 수평 45° 각도로 배치하는 방식이다. 각 마이크로폰 사이의 간격은 제시되지 않았으며 앙상블 크기에 따라 유기적으로 바꿀 것이 제안된다. 이는 다소 이상하게 들릴 수 있지만 메인 마이크로폰에 속하는 하단 어레이가 A-B 스페이스드 방식을 기반으로 했다는 점을 상기해보면 쉽게 수긍이 될 것이다. 상단 어레이의 초지향성 마이크로폰 4개는 직접음을 피함과 동시에 서로의 크로스토크를 방지하기 위한 각도가 제안된 것이다. 마지막으로 하단과 상부 어레이의 거리는 하단 어레이의 마이크끼리 거리의 1/3, 최대 1/2이 넘지 않도록 제안된다. 이는 ‘Hole in the middle’ 현상을 방지하기 위해서다. 상위 레이어에 무지향성 마이크로폰을 사용하는 것은 권장되지 않는다. 과도한 저역 서밍, 콤필터링, 정위감에 있어서 문제가 발생할 확률이 높기 때문이다.
Williams Umbrella
Williams Umbrella의 하단 어레이를 보면 다분히 NOS 스테레오의 서라운드식 확장판인 것으로 보인다. 각 마이크로폰은 단일지향성 구성으로 서로 45° 각도를 두며 35cm의 간격을 두게끔 설계되었다. 이는 명백한 음량차이를 만들기 때문에 Near-Coincident로 분류할 수 있을 정도다. 상부 레이어는 특이하게 양지향성 마이크로폰으로 구성되게끔 설계되었다. 이는 설계자의 비공식 청취 테스트에서 수직 대각선 평면의 팬텀 이미지를 정확히 달성한다는 것이 증명되었기에 채택되었다. 상단 레이어는 하단 레이어보다 다소 큰 52cm의 간격을 두고 십자 배열되며 하단 레이어와의 거리는 1m이다. 이는 대각선 방향의 팬텀 이미지 달성에는 적합하지만 수직 스피커 사이의 위치 표현에 있어서는 좋은 결과를 얻지 못했다. 그리고 상부 어레이의 양지향성 마이크로폰이 발생시키는 하단의 로브는 하단 레이어의 단일지향성 마이크로폰과 간섭을 일으키기도 했다.
2L-Cube
Lindberg가 개발한 2L-Cube는 특이하게도 모든 마이크로폰이 무지향성만으로 구성된다. 말하자면 A-B 스페이스드 방식의 3D 버전인 것. A-B 방식에 기인한 만큼 큐브의 너비와 깊이는 앙상블에 따라 유기적으로 변할 수 있지만 하단 레이어와 상단 레이어의 높이는 1m로 일정할 것이 권장된다. 또한 센터 이미지 형성을 위한 하단 레이어 전면의 센터 마이크가 추가될 것도 권장된다. 이로 인해 5.1.4 혹은 9.1 포맷 재생에 적합한 채널이 확보된다. 이 방식은 일견 이상해보이지만(전면 대규모 오케스트라의 경우 충분한 레벨 차이가 생성되지 않을 수 있다!) 이 방식이 360° 원형 배치된 오케스트라를 위해 설계되었다는 것을 알고나면 수긍이 될지도 모르겠다. 이 경우 각 마이크로폰은 충분한 음량 차를 발생시키기 때문에 강한 정위감과 공간감을 동시에 만들어낼 수 있다. 실제로 개발자는 레벨의 밸런스를 개선하기 위해 실제 세션에서 개별 연주자의 거리를 조정했다고 한다.
무지향성 마이크로폰의 선택 기준은 극성 응답보다는 음색으로 선택하게 되며, 종종 상황에 따라 상단 어레이의 경우에는 음압 이퀄라이저(마이크로폰의 면적을 크게 하여 고음의 방향성을 증가시키는 장치. 무지향성 마이크로폰이 중고역에서 일부 지향성을 갖도록 만든다.)를 사용하여 방향성을 높여 채널간 레벨차를 더욱 크게 만들기도 한다. 이를 통해 상단 레이어에 유입되는 직접음이 일부 줄어들기 때문에 전면 수직 평면에서 소스 이미지가 흐릿하게 상단으로 이동되는 현상이 방지될 수 있다.
Spider Tree
Sawagichi는 2L-Cube에서와 마찬가지로 360°로 배치된 연주자들 중앙에 배치하기 위한 마이크로폰 기법을 개발했다. 5.1채널 스피커의 배치를 어느 정도 본딴 5각형 배치의 하단 마이크로폰은 무지향성을 사용한다. 2L-Cube와 전반적으로 비슷하지만 하단 레이어 마이크로폰의 배치가 사각형이 아닌 오각형이라는 점에서 큰 차이가 있다. 만약 7.1채널 재생 환경일 경우 양 +90, -90° 바깥쪽에 아웃트리거로 무지향성 마이크 페어를 추가하여 재생포맷 호환성에 대응한다. 하단 레이어보다는 좀 더 크게, 그러나 정확한 크기가 지정되지는 않은 상단 레이어의 지향성 마이크 4개는 음악적인 표현에 더 유용할 것이라고 여겨지는 천장에서의 초기반사음을 픽업하기 위한 것이다. 전반적으로 360° 연주자 배치이기에 음원과의 거리가 가깝고 따라서 각 채널은 강한 채널간 레벨 차이를 나타내며 동시에 ‘hole in the middle’의 우려도 있다. 하지만 Sawaguchi는 이 기법이 ‘역동적인 음악적 표현’’을 제공했다고 밝히고 있다.
Twin Cube
각 마이크로폰끼리의 거리는 2m로 전부 동일하게 설정된 대형의 3D 큐브 어레이인 이 방식은 지나치게 넓은 마이크간 거리로 상황에 따라 센터에 마이크를 추가할 것이 권장된다. 이 방식에 사용되는 마이크로폰은 Sennheiser MKH800 Twin 듀얼 출력 마이크로폰으로 Auro-3D 녹음 기술로 처음에 제안된 방식이다. 이 마이크로폰은 2개의 단일지향성 캡슐이 서로 반대 방향을 향하도록 배치되어 있어서 개별 출력을 적절히 이용해 다양한 방식의 지향 패턴을 얻어낼 수 있다. 3D 녹음 시대의 비교적 초창기에 제안된 방식인만큼 이론적 근거가 빈약하며, 그저 듀얼 출력 마이크로폰으로 유연한 후반 작업을 염두에 둔 방식에 가깝다. 상단 레이어와 하단 레이어는 비록 2m의 먼 거리를 형성하고는 있지만 두 레이어의 마이크로폰 모두 같은 방향을 향하게끔 되어 있기 때문에 강한 채널간 간섭이 발생되며 이는 불안정한 수직의 팬텀 이미지를 형성한다. 그러나 파이프 오르간이나 대규모 오케스트라, 오케스트라 뒷면의 라이저 위의 합창단 녹음에서는 충분한 채널간 음량차가 있는 직접음이 발생되기 때문에 좋은 결과를 얻을 수 있다.
Double-UFIX
Double-UFIX는 Camerer가 제안한 방식으로 5.1.4 포맷에 적합하다. 9개의 마이크로폰 모두 와이드 카디오이드 방식으로 구성되며 각 마이크간 거리는 50~41cm 가량으로 하단 레이어는 오각형을, 상단레이어는 사각형을 구성, 그리고 상단과 하단 레이어의 거리는 20~30cm로 그쳐 전반적인 분위기 재현 및 팬텀 이미지 구현을 적절히 균형적으로 제공하기 위해 설계되었다. 각 마이크로폰 페어들은 MARRS 모델링 소프트웨어를 통해 계산된 것으로 적절한 음량차 및 시간차를 제공하며 각 마이크로폰의 지향각은 재생되는 대응 스피커의 지향각도에 맞춰 조절된다.
와이드 카디오이드 패턴의 마이크로폰은 일반적인 지향성 및 초지향성 마이크로폰에 비해 더 확장된 저주파 응답을 제공하는 대신 상대적으로 낮은 지향성으로 저주파에서 채널간 간섭이 일어날 수 있다. 다만 앞서 언급한 50~41cm 정도의 마이크간 거리는 300Hz까지 역상관을 생성하기 때문에 청감상 더 확장된 공간감을 제공할 수 있다. 상단 및 하단 어레이의 지향각은 서로 충분한 레벨차이를 생성할 수 있는 90°로 설정되어 채널간 간섭을 줄이며, 20~30cm의 수직 간격은 500Hz까지 역상관을 생성한다. 이 방식은 지금까지 제안된 HVS 어레이 방식 중 가장 Near-Coincident의 성격을 가진 것으로, 어레이의 크기가 충분히 작으며 각 마이크로폰의 채널간 간섭도 비교적 적은 편에 속한다.
Hamasaki Cube
명칭에서 짐작할 수 있듯이 이 마이크로폰 어레이 방식은 NHK22.2 방식을 개발하고 제안한 Hamasaki와 Van Baelen이 개발한 것이다. 하단 레이어는 전부 양지향성 마이크로만 구성되는데 이 마이크로폰 어레이는 애초에 전면의 직접음을 전혀 받지 않도록 되어 있다. 즉, 이 마이크로폰 어레이는 완벽한 앰비언스 사운드 픽업을 위해서만 고안된 것이다. 2m 간격으로 구성된 하단부 4개의 양지향성 마이크로폰 리그는 Hamasaki Square라고 불리는 것으로 서라운드 앰비언스 녹음에서 이미 널리 알려진 방식이다. 이는 무지향성 마이크로폰 리그를 사용하는 것과 달리 오케스트라의 직접음은 받지 않으면서 2m의 마이크로폰 간격으로 인해 100Hz에서도 충분한 4채널 역상관 앰비언스를 생성한다. 연구에 의하면 앰비언스 녹음 및 재생에서 후면 채널만 사용하는 것보다는 전면 채널까지 사용하는 것이 더 큰 현장감을 생성하는 것으로 나타났다.
여기에 상단 레이어는 초지향성 마이크로폰을 통해 천장을 향하도록 했다. 상단과 하단의 마이크로폰 레이어의 간격은 2m 정도로 동일하기 때문에 Hamasaki Cube라고 하는 정입방체 레이아웃이 형성된다. 여기에 만약 VOG(Voice of God)라 불리는 머리 바로 위쪽의 오버헤드 스피커가 추가되는 경우 중앙에 추가적인 초지향성 마이크로폰이 배치될 수 있다.
Main/Ambience Array Approaches
이 방식은 NHK22.2 재생 환경을 위해 Hamasaki가 제안한 기본적인 마이크로폰 배열이다. 먼저 5개의 초지향성 마이크로폰이 메인 어레이로서 무대 앞에 일직선으로 각각의 간격이 동일하게 오케스트라 앞에 배치된다. 앰비언스 캡쳐를 위해서는 양 옆을 향하는 13개의 양지향성 마이크로폰이 녹음 장소의 다양한 위치에 배치된다. 넓은 간격을 사용하는 이유는 충분한 저음까지 각 마이크로폰 간 충분한 역상관을 만들어내기 위해서다. 여기에 Howie는 Hamasaki의 접근 방법을 채택하고 확장했다. 5개의 전면을 향하는 초지향성 메인 마이크로폰은 같으나 하단 레이어에는 측면을 향하는 8개의 양지향성 마이크로폰과 함께 상단 레이어에는 위쪽을 지향하는 8개의 초지향성 마이크로폰을 배치한다. 상단 레이어와 하단 레이어의 간격은 3.67m에 달한다. 여기에 추가적으로 3개의 바운더리 마이크를 무대바닥에 넓은 간격으로 배치하여 하단 레이어용으로 사용한다.
HSVC(horizontally spaced & vertically coincident)-수평 간격 및 수직 일치 어레이
거듭 이야기 하는 것이지만 최근 연구 결과에 따르면 인체의 귀는 수직 음상 정보의 파악에 있어서 시간차를 전혀 사용하지 않는다. 이는 실제 실험으로도 드러난 것이며, 일정 이상의 시간차는 오히려 정확한 정위감은 물론 현장감까지 해치는 것으로 나타나기까지 했다. 이에 따라 최근의 3D 마이크로폰 기법은 하단과 상단 마이크로폰 배치에 있어서 간격을 없애고 대신 지향성 및 초지향성 마이크로폰을 사용하여 채널간 분리를 시도하는 방향으로 나아가고 있다. 어레이의 크기에 있어서도 지나치게 넓은 간격 배치는 피하는 추세이며, 극저음의 역상관 생성이 필요한 경우에는 무지향성 아웃트리거 정도를 추가하는 정도로 대응하는 경우가 대부분이다.
PCMA-3D
PCMA-3D는 취재진이 참고한 논문의 저자인 이현국 교수가 제안한 PCMA(Perspective Control Microphone Array) 설계 개념을 기반으로 하는 5.1.4 및 7.1.4 포맷에 대응하는 어레이이다. 먼저 하단 레이어를 살펴보면 단일지향성 마이크로폰을 상황에 따라 1~2m 간격으로 배치하여 충분한 시간차와 함께 레벨 차이까지 더불어 확보한다. 전면의 LCR 채널에 해당하는 3개의 단일지향성 마이크로폰은 재생 스피커의 배치 방향과 동일하게 각각 -30°, 0°, +30°를 지향하게 하며 2개의 서라운드 마이크로폰은 후면을 지향한다. 상단을 지향하는 초지향성 마이크로폰은 하단 레이어의 마이크로폰들과 정확히 Coincident한 위치에 근접 배치되어 시간차를 근본적으로 없앤다. 대신 이 마이크로폰들은 상단을 지향하여 주로 천장에서 오는 앰비언스를 캡쳐하게끔 한다. 상단 레이어에 초지향성 마이크를 사용한 경우에는 최대한의 크로스토크 억제를 위해 127° 방향에 하단 지향성 마이크로폰이 향하도록 할 수 있으며 지향성 마이크로폰의 경우 서로 반대방향을 바라보도록 배치하는 것도 고려할 수 있다. 하단 및 상단 어레이의 마이크들이 서로 근접해 있기 때문에 이미 작업이 끝난 3D 사운드 콘텐츠를 2D 서라운드 콘텐츠로 다운믹싱하는 작업도 매우 쉽게 이뤄진다. 근본적으로 시간차가 없기 때문에 콤필터링이 없어서 단순히 채널을 서밍하는 것만으로도 착색이 거의 없는 동시에 채널의 정보가 전부 살아있는 다운믹싱이 가능하다.
ESMA-3D
ESMA(Equal Segment Microphone Array)는 원래 Williams가 제안한 연속적인 360° 음장캡쳐를 시도하는 방식이다. 즉 ‘Critical Linking’ 개념을 기반으로 하는 것이며 이는 중복되거나 누락되는 간격 없이 마이크 어레이의 각 세그먼트를 배치하고 연결하는 것이다. 이에 대해 1)어레이에 있는 모든 인접 마이크로폰들은 같은 각도를 형성해야 하며, 2)대향 각도와 스피커의 배치 각도 역시 동일해야 한다는 것이다. 여기서 해박한 독자라면 이미 눈치챘겠지만 이는 이미 잘 알려진 4채널 쿼드라포닉에 기반한다. 실제로 Williams가 원래 제안한 것은 각 마이크들을 24cm 간격으로 동일하게 배열하고 또한 각 마이크로폰들은 +-45°의 각도를 형성, 각 마이크로폰들은 정확히 90°의 각도를 갖게 되어있다. 그러나 이현국 교수는 이 방식이 정확한 사운드 이미징을 제공하지 못한다는 것을 발견하고 MARRS 모델링을 기반으로 50cm의 간격으로 수정할 것을 제안했다. 여기에 더해 상단 레이어에는 초지향성 마이크로폰이 하단 레이어의 마이크로폰과 같은 위치에 배열되어 상단을 지향하도록 한다.
ORTF-3D
Schoeps의 Wittek과 Theile는 OCT-3D의 거대한 어레이의 단점을 개선한 ORTF-3D를 제안했다. ORTF는 17cm 간격과 110도 간격의 단일지향성 마이크로폰을 사용하는 인기있는 Near-Coincident 어레이 기법이다. Wittek과 Theile는 ORTF의 장점을 서라운드 및 3D 환경에 적용하기 위해 8개의 초지향성 마이크로폰을 좌우 20cm, 앞뒤거리 10cm로 배치하고 상단과 하단레이어의 마이크는 최대한 근접시켜 불필요한 시간차를 없앴으며 상단과 하단의 마이크로폰은 90°의 각도를 이루도록 하여 완벽한 채널간 분리를 달성하였다. 이 방식은 컴팩트한 디자인으로 인해 높은 휴대성 실현이 가능하므로 곧 실제 현장에 즉시 사용되었다. 현재 영국의 BBC 방송국을 비롯한 상업 방송사들은 스포츠 현장 중계 등 생생한 현장감이 필요한 곳에 이 마이크로폰 리그를 사용한다. 더불어 약간의 시간차만 있을 뿐 Ambisonics A-Format과 유사한 방식을 취하고 있기 때문에 가상 스피커 개념을 사용하는 VR/AR이나 게임콘텐츠 제작에도 유용하게 사용할 수 있다. 아직은 극히 일부지만 한국에도 사용사례가 있으며 특히 현실감 및 정위감 재현에 있어서 탁월하다는 평가를 받고 있다. 단지 8개의 녹음 채널만을 필요로 한다는 것도 장점이어서 포터블 8채널 레코더로도 쉽게 야외 로케이션이 가능하다.
au3Dio
45°나 90°가 아닌, 60°의 각도를 사용하는 것이 au3Dio이다. 이에 따라 하단 레이어는 육각형 레이아웃으로 구성되며 각 마이크로폰들은 중복 지역을 최소화하기 위해 62cm 간격으로 배열된다. 여기에 천장을 지향하는 양지향성 마이크로폰이 하단 레이어의 전면 2개 및 후면 2개 마이크로폰 위치에 시간차 없이 배열되어 상단 레이어를 형성한다. 이 상단 레이어의 시그널은 실제 상단 레이어 스피커로 직접 라우팅될 수 있으며, 이 경우 하단 레이어의 단일지향성 마이크로폰은 정확히 정면의 음원을 향하는 것이 권장된다. 그래야만 최대한의 채널 분리가 보장되기 때문이다. 물론 대안으로 하단의 지향성 및 상단의 양지향성 마이크를 MS 방식으로 프로세싱하여 시그널을 중간 및 상단 레이어에 유연하게 라우팅하여 후반작업하는 것도 가능하다. 이 경우 마이크 어레이를 음원의 높이보다 높게 올려서 설치해야 한다.
Lee Rec-3D
이 방식은 Hamasaki Squre를 HSVC 방식으로 3D 확장한 개념이라고 할 수 있다. 이는 이현국 교수가 제안한 것으로 실제 실험을 통해 Hamasaki Squre를 다소 축소하고 시간차 없는 상단 어레이를 더한 것이다. 직접음을 받지 않고 잔향 및 반사음만 캡쳐하는 전면의 양지향성 페어, 그리고 뒷면을 향하는 단일지향성 페어라는 아이디어는 같으나 이현국 교수는 면밀한 실험을 통해 어레이의 너비는 1m, 그리고 깊이는 50cm까지 줄여도 인식되는 현장감에 있어서 큰 차이가 없다는 것을 발견했다. 이에 따라 어레이의 크기를 전반적으로 대폭 줄인 후 천장을 향하는 초지향성 마이크로폰을 정확히 하단 어레이 마이크들과 시간차 없이 Coincident하게 배치하여 상단 어레이를 형성하는 것이 기본 골자다. 이를 바탕으로 하단 레이어는 1)전면의 양지향성 페어 및 후면의 단일지향성 페어, 2)4개의 측면을 향하는 양지향성 2페어, 3)4개의 후면을 향하는 단일지향성 2페어로 구성된다. 이는 녹음 상황에 따라 유연하게 선택하여야 한다. 예컨대 뒤쪽을 향하는 단일지향성 배치는 콘서트홀 뒷벽을 맞고 반사되는 잔향을 더 많이 캡쳐한다. 측면을 향하는 양지향성 배치는 더 강한 초기 측면 반사를 포착하는 경향이 있어서 소스 및 환경 폭에 대한 인식을 향상시키는데 도움이 된다.
HVC(horizontally & vertically coincident)-수평 및 수직 일치 어레이
완벽한 시간차가 없는 마이크로폰 배치 방식은 실제로는 존재하지 않는다. 왜냐하면 마이크로폰은 물리적인 크기가 존재하기 때문이다. 하지만 마이크로폰 캡슐의 크기만큼 최대한 집적시키는 시도는 해볼 수 있을 것이다. 또한 마이크로폰의 지향성 형성을 얼마나 실현할 수 있는지도 문제다. 현실적으로는 단일지향성 및 초지향성 형성까지 해내는 것이 전부이다보니 A-Format으로 캡쳐할 수 있는 것은 Ambisonics 1차(4개의 단일지향성 캡슐) 및 2차(8개의 초지향성 캡슐) 정도가 한계이다. 그 이상의 차수는 구 평면에 무지향성 마이크로폰을 배치시키는 것으로 실현하고 있으며 이 경우 저주파에서 의미있는 방향성 형성이 어렵다는 단점이 있다. 즉, 현실적으로 높은 차수, 그리고 높은 음질의 Ambisonics 마이크로폰을 만드는 것은 아직은 기술적으로 많은 난관이 있다.
일반적으로는 마이크로폰으로 A-Format을 만들고 이후 B-Format으로 인코딩하여 Ambisonics를 다룬다고 알려져 있지만 마이크로폰에서 바로 B-Format을 얻을 수 있는 방법도 있다. 비록 1차에 그치긴 하지만 3개의 양지향성 마이크로폰과 1개의 무지향성 마이크로폰을 조합하면 W, X, Y, Z에 해당하는 시그널을 얻을 수 있다. 이는 MS 스테레오를 평면 서라운드에 대응하는 더블-MS로 확장하고 다시 이것을 3차원으로 확장한 것과 비슷하다. W, X, Y, Z에 해당하는 마이크로폰을 직접 배치하는 것을 트리플-MS라고 하며 더블-MS에 Z축에 대응하는 양지향성 마이크로폰을 추가하는 것은 더블MS+Z라고 지칭된다. 이 방식은 주로 상업용으로 잘 알려진 A-Format Ambisonics 마이크로폰에 비해 질적으로 우수한 마이크로폰을 사용할 수 있기 때문에 음질적으로 좋은 결과를 얻을 확률이 높다. 명심해야 할 것은 분명히 Ambisonics에서 높은 차수는 중요한 요소지만, 그 이상으로 중요한 것이 마이크로폰의 퀄리티라는 것이다. 기본적으로 마이크에서 우수한 소리를 얻지 못한 상태에서 단순히 차수만 높인다면 그저 ‘좋지 않은 소리를 더 우수한 해상도로 듣게 되는 꼴’이 될 뿐이다.
청취 환경도 고려해야 하는 부분이다. 최적의 Ambisonics 청취는 스피커들이 서로 같은 간격으로 배열되어야만 한다. 즉, B-Format으로 인코딩된 신호가 손실없이 스피커 배치에 대응하는 디코딩이 되어야만 한다. 하지만 상업적인 Immersive Sound 환경 구성은 대체로 Auro-3D나 Dolby Atmos의 5.1.4나 7.1.4, 혹은 9.1.6의 불규칙한 배열이기 때문에 면밀한 검토가 요구된다. 이 경우 EPAD 및 AllRAD 디코딩이 제안되고 있다. 이번 기사는 Ambisonics이 주제는 아니므로 다양한 인코딩 및 디코딩, 그리고 Ambisonics에 대한 여러가지 특징과 이론적 기반에 대해서는 다음 기회에 좀 더 깊이 다루도록 할 것이다.
정리
A-Format 1차 Ambisonics 마이크로폰은 상업적으로 널리 활용된다. 사진은 Sennheiser Ambeo.
Ambisonics B-Format을 바로 얻어내는 방식도 존재한다. 사진은 트리플-MS 기법.
더블-MS의 원리. 지금까지 많은 서라운드 앰비언스 콘텐츠가 더블-MS 방식으로 제작되었다.
이번 기사에서는 지금까지 등장하고 제시된 다양한 3D 마이크로폰 기법들을 나열하고 분석했다. 비록 완전한 분석 및 비교는 아니지만, 3D 마이크로폰 배치 설계에 있어서 어떤 이론적 기반이 있는지, 그리고 어떤 점은 중요하고 또 어떤 점은 중요하지 않은지 대략 감을 잡는데 도움이 되었으리라 생각한다. 아직 많은 것이 정립되고 결정된 것은 아니지만 3D Immersive 스피커 배치가 단순히 정확한 사운드 객체의 위치감 표현에만 머무르지 않고 좀 더 확장된 현실감과 다채로운 공간감을 제공하기 위해 개발된 것처럼, 3D 마이크로폰 기법 역시 단순히 정확한 정위감의 표현을 넘어 그 이상의 것을 청취자에게 전달하기 위해 만들어지고 고안되고 있다. 만약 정확한 정위감만이 중요하다면 아마도 높은 차수의 Ambisonics 마이크로폰만이 살아남았을 것이다. 하지만 시장의 응답은 그렇지 않다. 낮은 차수의 Ambisonics 마이크로폰은 낮은 가격과 편리한 휴대성으로 그럭저럭 살아남고 있지만 높은 차수의 마이크로폰은 상대적으로 높은 가격에 비해 실망스러운 음질 때문에 실제 현장에서는 거의 쓰이지 못하고 있다. 반대로 정확한 정위감과는 전혀 상관없으며 오히려 정위감 형성에 방해가 된다고까지 결론난 HVS-수평 및 수직 간격 어레이 방식의 레코딩에서 많은 Audiophile들은 감동을 느끼며 음악의 즐거움을 만끽하고 있다. 실제로 많은 3D오디오 명반들이 이 방식으로 작업된 경우가 대다수니 말이다. 말하자면 3D 마이크로폰 기법은 아직도 개척중이며 그 비밀이 이제서야 조금씩 밝혀지고 있는 분야다. 많은 독자들이 이번 기사에서 실마리를 풀고 자신감을 얻어 좋은 결과를 만들어낼 수 있기를 기대해본다.