방송 환경에서 바이노럴은 여전히 유효한가?
by 이무제

많은 사람들이 레가시 미디어의 종말을 이야기한다. 실제로 많은 부분에서 유튜브 등의 인터넷 회선을 이용한 스트리밍 플랫폼이 일반적인 공중파 및 케이블 TV의 점유율을 많이 빼앗은 것은 사실이다. 하지만 방송은 방송만의 영역이 있다. 넉넉한 예산, 그리고 잘 훈련된 프로페셔널 방송인들, 오랫동안 구축된 시스템과 노하우는 레가시 미디어만이 해낼 수 있는 영역이 여전히 있음을 말한다.
최근들어 논의되고 있는 ‘방송 환경에서의 3D 오디오 전송’도 같은 맥락에서 생각할 수 있다. 3D Audio는 어쩔 수 없이 많은 비용과 시간, 인력이 든다. 많은 유튜브 제작자들이 사운드 전담 인력조차 제대로 편성하지 못하는 상황에서 방송사는 전문화 및 차별화된 콘텐츠의 퀄리티를 통해 방송에 대한 몰입도를 높일 수 있다.
하지만 현실적으로 생각해본다면 3D 오디오의 방송 전달은 상당히 어려운 과제다. 우선 방송 청취자의 환경을 생각해보아야 하는데, 제대로 된 스테레오 스피커는 커녕 좁은 대역대의 조악한 모노 스피커를 사용하는 경우가 대다수다. 그리고 대다수의 방송 플랫폼은 스테레오를 기반으로 하고 있기에 3D 오디오에서 필요한 멀티채널 전송과 고음질을 실현하려면 고성능 코덱과 더욱 넓은 대역폭이 필수다. 다행히 우리나라의 경우 일찌감치 3D 오디오 스트리밍에 대해 표준화를 해놓아서 MPEG-H라는 규격으로 일치시켰다. 다만 아쉽게도 MPEG-H는 콘텐츠 제작 및 배포에 있어서 전 세계에서 널리 사용되는 규격은 아닌지라 아직은 보급이 지지부진하다.
이런 상황에서 주목받는 것이 바로 오래된 바이노럴(Binaural) 기술이다. 기존의 스테레오 플랫폼을 그대로 활용할 수 있는 이 기술은 최근들어 이어폰 및 헤드폰 사용자가 급격히 늘면서 저렴한 비용과 적은 노력으로 수준높은 3D 오디오를 간편하게 제공할 수 있는 방식으로 재조명받고 있다.
방송에서의 바이노럴 오디오
바이노럴 오디오는 헤드폰 청취자에게 실제 세계에서 소리가 우리 귀에 도달하는 방식을 정확하게 재현하여 3D 공간에 대한 현실적인 느낌을 전달한다. 바이노럴이라는 용어는 양쪽 귀에서 포착되는 음향 신호가 직접 표현되고 재생되어 자연스러운 공간적 청각 과정을 불러일으킬 수 있기에 두 개의(bi) 귀(aural)라는 뜻으로 이름붙여졌다.
이처럼 귀가 소리를 감지하는 능력 중 특히 방향과 거리를 감지하는 능력에 주목하기 때문에 복잡한 3D 사운드 스케이프를 2채널 오디오 신호로 표현할 수 있다. 헤드폰 및 이어폰은 바이노럴 사운드를 재생하는 데 가장 많이 사용되는데, 귀의 음압을 독립적으로 제어하는 것이 더 쉽기 때문이다. 물론 특별한 프로세싱(크로스토크 제거 기술)을 통하여 스피커에서 재생하는 기술도 존재한다.
헤드폰 및 이어폰 사용은 최근 몇 년 동안 빠르게 증가했다. 헤드폰이나 이어폰을 사용하면 일반 스테레오 청취시 종종 음원이 청취자의 머리 속에 있는 것 같은 느낌을 준다. 이는 방송사로 하여금 헤드폰 청취 경험을 개선하도록 동기를 부여했다. 바이노럴 오디오는 새로운 장비가 필요 없이 많은 청취자에게 더욱 몰입감 있는 3D 오디오를 제공하기 때문에 기존 방송사들에게 매력적인 옵션이다. 기존 스테레오 인프라도 배포에 사용할 수 있기 때문이다.


바이노럴 녹음
바이노럴 오디오 제작은 바이노럴 녹음 기술에서 유래한 것으로, 실제 사운드 스케이프를 인간 청취자의 귀나 더미헤드에 마이크를 꽂아 포착한다. 바이노럴 마이크의 개발은 1930년대 초에 시작되었으며, 이는 스테레오 녹음 기술과 같은 시기였다. 방송사는 1962년 초에 스테레오 전송을 했지만, 최초의 바이노럴 방송 프로그램이 등장한 것은 1973년이 되어서였다. Demolition은 Radio in the American Sector(RIAS) 방송국에서 제작한 바이노럴 오디오 연극으로, 그해 베를린에서 열린 국제 방송 박람회(IFA)에서 선보였다. 당시 새로 출시된 Neumann KU80이 제작에 사용되었으며, 바이노럴 녹음을 위해 의도적으로 설계된 최초의 상업용 마이크였습니다. 이 연극은 여러 독일 방송국에서 방송되었고 대중과 언론 모두로부터 큰 호평을 받았습니다.
BBC의 초기 바이노럴 프로덕션은 더미헤드 마이크를 사용하지 않고 대신 Perspex 디스크를 방벽으로 사용하여 귀 너비만큼 간격을 둔 매칭된 무지향성 마이크 페어를 사용했다. 스튜디오 테스트에서 이는 KU80 마이크와 비슷한 효과를 낸 것으로 나타났지만 실용성과 비용 측면에서 더욱 선호되었다고 한다.
1970년대와 1980년대 초에는 바이노럴의 전성시대라고 할만했다. 당시 유럽 전역에서 수백 개의 바이노럴 라디오 프로그램들이 제작되어 방송되었다. 그러나 제작에 있어서 스테레오 방식과 양립이 어려웠고 당시 TV 시청자들은 이어폰이나 헤드폰을 선호하지 않았던데다가 당시의 이어폰과 헤드폰의 음질이 좋지 못했던 탓에 곧 인기는 시들해졌다. 그리고 바이노럴은 역사 속으로 사라지는 듯 했다. 하지만 이 오래된 방식은 지난 10년간의 방송 및 청취 환경의 변화 덕분에 방송 시장에서 빠르게 부활하고 있다.
오늘날에는 더미헤드와 인이어 유형의 다양한 바이노럴 마이크가 시중에 판매되고 있다. 바이노럴 녹음은 여전히 사용되고 있지만 바이노럴 렌더링도 지금은 중요한 도구다. 바이노럴 마이크를 사용하면 환경 음향 및 동적 소스 이동을 포함하여 자연스러운 사운드 장면을 정확하게 녹음할 수 있다. 장면의 복잡성은 녹음 또는 재생 프로세스의 복잡성에 영향을 미치지 않지만 바이노럴 렌더링의 경우는 그렇지 않다. 그러나 바이노럴 녹음의 주요 한계 중 하나는 자연스럽게 발생하는 장면만 캡처할 수 있다는 것이다. 방송에서는 사운드 디자인 및 편집을 통해 실제 생활에 존재하지 않는 사운드 장면을 만들거나 여러 마이크 녹음을 처리 및 믹싱하여 실제 사운드 장면에 미적 변화를 주는 것이 일반적이다.

바이노럴 렌더링
바이노럴은 더미헤드 및 그에 준하는 마이크 기술을 통해 현장의 소리를 인간이 느끼는 것과 최대한 가깝게 포착하는 것이 목표다. 따라서 바이노럴 마이크는 필수 장비일 수 밖에 없다. 이를 바꿔 말하자면 포스트 프로덕션이 필요할 때, 즉 실제로 존재하지 않는 소리나 과장된 사운드 스케이프를 만들어야 할 때는 바이노럴 제작에 있어 큰 장애가 될 수 밖에 없다. 이를 극복하기 위해서는 디지털 프로세싱 및 컴퓨팅 파워의 발달, 그리고 그에 걸맞은 고도의 신호처리 기술이 필요하다.
디지털 신호 처리 기술이 정확한 바이노럴 렌더링을 달성하기 위해 처음 적용된 것은 1980년대 후반이었다. 바이노럴 합성이라고도 하는 바이노럴 렌더링은 오디오 신호를 처리하여 현실적인 청각적 공간적 인상을 제공하고 귀에서 바이노럴 신호를 시뮬레이션하는 것이다.
소스 신호는 원하는 소스 위치에서 귀까지의 음향 전달 함수를 설명하는 필터로 처리되며, 이를 일반적으로 머리 관련 전달 함수(HRTF; Head Related Transfer Function)라고 한다. 가상 장면은 다양한 방향과 거리에서 여러 음원과 환경 음향 효과를 시뮬레이션하여 구성할 수 있다. 바이노럴 렌더링은 실제 음향 장면에 기반하지 않은 청각 장면을 제작할 수 있으므로 창의적인 응용 프로그램 제작에 유용하다. 바이노럴 녹음은 추가 음원의 바이노럴 렌더링으로 보강할 수도 있다.
바이노럴 렌더링은 청취자에게 설득력 있는 공간적 인상을 제공할 수 있지만 방송에 적용하기 위해서는 제약이 따른다. 단기적 접근 방식에서 기존 스테레오 인프라를 사용하여 방송사는 사전 렌더링된 바이노럴 신호를 배포해야 한다. 따라서 렌더링은 청취자의 HRTF에 맞게 개인화될 수 없고, 헤드폰 재생은 적절하게 이퀄라이징될 수 없으며, 청취자의 머리 움직임에 적응할 수도 없다. 이러한 한계에도 불구하고 바이노럴 렌더링은 헤드폰 청취자에게 많은 면에서 스테레오 배포에 비해 이점을 제공한다.
헤드폰 서라운드 사운드
방송에서 바이노럴 렌더링의 초기 응용 프로그램은 5.1 서라운드 사운드 소재를 재활용하는 데 초점을 맞췄다. 이를 헤드폰 서라운드 사운드(HSS)라고 하며 청취자 주변에 가상 라우드스피커를 시뮬레이션하여 작동한다. 이는 중복된 제작 노력 및 투자 없이 헤드폰 청취 경험을 개선할 수 있다는데 잠재력이 있다. 이 방식은 배포 전에 또는 청취자의 수신기 장치에서 로컬로 2채널 바이노럴 신호를 생성하는 데 프로세싱을 적용하여 이뤄진다.
하지만 안타깝게도 다양한 연구에서 HSS 시스템을 평가한 결과 HSS는 스테레오 다운믹스에 비해 청취 경험을 크게 개선하는 데 미미한 효과만 있는 것으로 나타났으며, 많은 시스템에서는 종종 상당히 악화시키는 것으로 나타났다. 그러나 오디오 소재에 따라 성능이 달라지는 경우가 많고 청취자마다 선호도가 다른 것도 사실이다. 이는 HSS와 스테레오 버전 중에서 선택할 수 있는 옵션을 제공하는 것이 유용함을 시사한다.
이에 대해 BBC나 Radio France 등 선진국의 방송사들은 자체적으로 많은 시도를 했으며 웹사이트를 통해 청취자들을 무작위로 모집, 일종의 실험을 진행하기도 했다. 이 경우 1)열성적인 청취자들이 자발적으로 청취실험에 참여했다는 점, 2)청취자가 의식적으로 믹싱 버전을 스스로 선택했다는 사실 때문에 다소 편향될 수 있지만 이중 맹검 테스트 때보다는 확실히 긍정적인 결과가 나와 HSS 바이노럴 청취에 여전히 희망을 갖게끔 한다.
3D 바이노럴 제작
HSS 애플리케이션은 5.1 서라운드의 입력 형식으로 제한된다. 라우드스피커 레이아웃은 수평으로만 구성되고 라우드스피커 배치는 전면 영역 밖에서는 밀도가 희박할 수 밖에 없어서 3D 장면의 설득력 있는 인상을 만들 수 없다. 가상 라우드스피커 렌더링은 3D 레이아웃과 함께 사용할 수 있지만 이 채널 기반 접근 방식은 여전히 사운드 장면의 해상도에 제한을 가한다.
이를 위해 많은 방송사 및 코덱 개발사들은 몇 년간 객체 기반의 렌더링 접근 방식에 주목하여 연구 및 개발을 진행하고 있다. 각 사운드 소스 또는 객체는 가상 라우드스피커 레이아웃을 중간 형식으로 사용하는 대신 자체 바이노럴 필터로 독립적으로 처리된다. 소스는 모든 3D 위치에 렌더링할 수 있으며 가상 음향 환경을 포함한 가장 적합한 렌더링 매개변수는 각 장면과 사운드 소스에 대해 선택할 수 있다. 이 접근 방식은 배포 전 렌더링을 적용하지만 실은 이미 컴퓨터 게임 및 가상 현실 시스템에서 사용하는 방식과 유사하다. 단, 이러한 시스템은 청취 순간에 로컬로 렌더링하기 때문에 별도의 프로세서나 렌더러와 같은 장비 혹은 소프트웨어가 필수적이다.


후반작업
많은 방송사들은 바이노럴 오디오를 제작하기 위해 다양한 도구와 워크플로우를 실험했다. Radio France는 현재 객체 기반 바이노럴 렌더링을 위해 Spat Revolution이라는 툴을 사용한다. 이 강력한 소프트웨어는 3D 룸 모델링 알고리듬이 특징이다. 또한 디지털 오디오 워크스테이션(DAW)과 통합된 인터페이스를 갖고 있어서 다양한 환경에서 일관된 결과를 기대할 수 있으며 적용 범위도 넓다.
BBC에서는 스테레오 진폭 패닝, HRTF의 고밀도 배열을 사용한 3D 바이노럴 렌더링, 측정된 바이노럴 룸 임펄스 응답(BRIR)을 바탕으로 하여 3D 레이아웃을 통한 가상 라우드스피커 렌더링, 보조 매개변수 3D 리버브를 포함하여 사운드 객체에 대한 다양한 렌더링 옵션을 허용하는 맞춤형 후반작업 시스템을 개발했다. 프로듀서는 언제든지 각 객체에 대해 원하는 렌더링 옵션을 선택할 수 있으며, 종종 다양한 기술을 혼합하여 사용한다. 이들은 IOSONO Spatial Audio Workstation을 사용하여 DAW에서 3D 장면을 작성하고, 렌더링 소프트웨어를 제어하기 위해 OSC(Open Sound Control)을 활용한다.
다른 방송사도 객체 기반 바이노럴 드라마 작품을 제작했다. 예를 들어 독일에서WDR은 쾰른 응용과학대학교와 협력하여 SoundScape Renderer 소프트웨어를 사용했고 BR은 IRT와 협력하여 맞춤형 객체 기반 바이노럴 렌더링 시스템을 사용했다. 뿐만 아니라 최근 몇 년 동안, 후반 작업에서 3D 바이노럴 패닝을 제공하는 다양한 도구가 출시되었다.

라이브 프로덕션
많은 방송사들은 라이브 음악 공연의 3D 바이노럴 믹스를 제작하여 더 큰 현장감과 몰입감을 제공하는 데 관심을 보이고 있다. 그러나 라이브 프로덕션 시나리오는 도구의 효율성과 시스템의 견고성과 안정성에 대한 요구 사항이 급격히 증가한다. 음악 소스는 사운드 퀄리티와 관련하여 특히 민감하다.
스테레오 믹스는 메인 방송에 사용되므로 우선 순위가 높으므로 사운드 엔지니어가 객체 기반 바이노럴 버전을 효율적으로 동시에 제작할 수 있도록 워크플로가 각 방송사들은 자체적으로 새로운 워크플로우를 개발하고 있다. 그 중 많은 사례를 보자면, 스테레오 믹스에 사용된 각 마이크 신호는 게인, 딜레이, 이퀄라이제이션 및 다이나믹스 처리가 적용된 후 믹싱 콘솔에서 바이노럴 렌더링 시스템으로 공급된다. 이를 통해 공연 중 믹스 엔지니어가 변경한 다이나믹 레벨이 바이노럴 믹스에서도 유지된다. 이 시나리오를 기초로 몇 가지 렌더링 소프트웨어 및 툴들이 설계되었으며 여기에는 공간화, 추가적인 딜레이 및 게인을 각 사운드 객체 및 그룹에 적용할 수 있도록 했으며 터치스크린을 통한 실시간 조작 인터페이스를 제공하기도 한다.
클래식 공연의 경우 ORTF-3D 혹은 여타 다른 다양한 방법의 마이크 어레이 기법을 사용하여 3D 분위기의 느낌을 포착한다. 이 방식은 종종 스테레오 버전에서 사용되는 인공적인 추가 잔향도 믹스하여 스테레오 믹스에서와 같이 좀 더 과장된 공간감을 시도하기도 한다.
ORTF-3D와 같은 마이크 어레이는 더미헤드 레코딩에 대한 대안을 제공한다. 3D 사운드 장면을 포착한 다음 후처리하여 바이노럴 신호를 생성할 수 있으며 3D 라우드스피커 어레이에서 재생하는 데에도 적합하기 때문이다. 3D 마이크 어레이의 특성과 품질은 방송 제작 연구를 위해서 최근 뜨겁게 연구되고 있는 분야다.

방송에서 바이노럴 오디오의 과제
많은 방송 프로그램이 현재 바이노럴 오디오를 사용하여 제작되었지만, 주류가 되기 위해서는 여전히 산적한 과제들이 남아 있다. 3D 오디오는 제작이 더 복잡하고, 추가 교육과 경험이 필요하다. 방송사는 직원을 위한 교육 과정을 개발했지만, 바이노럴 제작의 양이 증가함에 따라 고품질 출력을 유지하는데 있어서 어려움을 겪는다. 어떤 곳에서는 바이노럴 제작을 위한 추가 소프트웨어 툴의 설치만으로도 가능하지만 여전히 많은 스튜디오는 바이노를 제작 및 방송을 위해 상당한 비용과 시간이 투입된다. 여기에는 다중 마이크 어레이나 더미헤드와 같은 새로운 녹음 장비들도 포함된다.
라이브이든 후반 제작이든, 바이노럴 제작의 과제 중 하나는 노력과 인력이 중복되어 투입되어야 한다는 현실이다. 스테레오 방송은 여전히 스피커 환경에서 재생된다는 것을 전제로 제작되어야 한다. 여전히 많은 사람들이 이 버전으로 청취할 것이기 때문에 우선순위를 가져갈 수 밖에 없다. 바이노럴은 아직은 여전히 옵션이 될 수 밖에 없다.
또 다른 과제는 용어와 개념의 전파다. 바이노럴은 청취자에게 그다지 의미 있는 용어가 아니다. 몰입형 또는 3D 사운드와 같은 다른 용어가 사용되고 있지만, 청취자들이 올바르게 3D 오디오의 특성을 이해하고 그것에 제공하는 바를 잘 알아서 선택할 수 있도록 제작 측에서의 일관성 및 사용자 측에서의 저변 확대가 필요하다.
남아 있는 큰 의문은 헤드폰이나 이어폰의 청취 경험이 바이노럴 오디오로 인해 진정으로 개선되는지의 여부다. 청취 테스트에서 바이노럴과 스테레오를 이중 맹검 테스트로 비교하면 어느 하나가 절대적으로 우위인 결과나 나오지는 않으며 여전히 스테레오에 대한 선호도가 의미있게 나타난다. 물론 청취자가 3D와 스테레오 버전 중 선택하는 것이라는 ‘테스트의 과제’를 알고 있다면 바이노럴의 선호도는 상당히 높아진다. 최근 BBC의 연구에 따르면 청취자는 바이노럴 청취 경험의 공간적 측면 및 이것이 존재감이나 사실감, 포위감 등에 미칠 수 있는 이점을 높이 평가한다. 프로페셔널 사운드 엔지니어의 입장에서는 바이노럴 믹스에서의 음색 문제가 심각하게 다가오는 것도 문제다.
이러한 여러가지 한계가 있음에도 헤드폰과 이어폰, 그리고 일부 스테레오 환경에서 바이노럴은 여전히 가장 합리적인 가격과 노력으로 가장 빠르게, 기존 플랫폼을 이용하여 3D 오디오를 현실적으로 달성할 수 있는 방법이다. 따라서 앞으로 업계의 더욱 많은 관심과 노력이 촉구된다.
방송 환경에서 바이노럴은 여전히 유효한가?
by 이무제
많은 사람들이 레가시 미디어의 종말을 이야기한다. 실제로 많은 부분에서 유튜브 등의 인터넷 회선을 이용한 스트리밍 플랫폼이 일반적인 공중파 및 케이블 TV의 점유율을 많이 빼앗은 것은 사실이다. 하지만 방송은 방송만의 영역이 있다. 넉넉한 예산, 그리고 잘 훈련된 프로페셔널 방송인들, 오랫동안 구축된 시스템과 노하우는 레가시 미디어만이 해낼 수 있는 영역이 여전히 있음을 말한다.
최근들어 논의되고 있는 ‘방송 환경에서의 3D 오디오 전송’도 같은 맥락에서 생각할 수 있다. 3D Audio는 어쩔 수 없이 많은 비용과 시간, 인력이 든다. 많은 유튜브 제작자들이 사운드 전담 인력조차 제대로 편성하지 못하는 상황에서 방송사는 전문화 및 차별화된 콘텐츠의 퀄리티를 통해 방송에 대한 몰입도를 높일 수 있다.
하지만 현실적으로 생각해본다면 3D 오디오의 방송 전달은 상당히 어려운 과제다. 우선 방송 청취자의 환경을 생각해보아야 하는데, 제대로 된 스테레오 스피커는 커녕 좁은 대역대의 조악한 모노 스피커를 사용하는 경우가 대다수다. 그리고 대다수의 방송 플랫폼은 스테레오를 기반으로 하고 있기에 3D 오디오에서 필요한 멀티채널 전송과 고음질을 실현하려면 고성능 코덱과 더욱 넓은 대역폭이 필수다. 다행히 우리나라의 경우 일찌감치 3D 오디오 스트리밍에 대해 표준화를 해놓아서 MPEG-H라는 규격으로 일치시켰다. 다만 아쉽게도 MPEG-H는 콘텐츠 제작 및 배포에 있어서 전 세계에서 널리 사용되는 규격은 아닌지라 아직은 보급이 지지부진하다.
이런 상황에서 주목받는 것이 바로 오래된 바이노럴(Binaural) 기술이다. 기존의 스테레오 플랫폼을 그대로 활용할 수 있는 이 기술은 최근들어 이어폰 및 헤드폰 사용자가 급격히 늘면서 저렴한 비용과 적은 노력으로 수준높은 3D 오디오를 간편하게 제공할 수 있는 방식으로 재조명받고 있다.
방송에서의 바이노럴 오디오
바이노럴 오디오는 헤드폰 청취자에게 실제 세계에서 소리가 우리 귀에 도달하는 방식을 정확하게 재현하여 3D 공간에 대한 현실적인 느낌을 전달한다. 바이노럴이라는 용어는 양쪽 귀에서 포착되는 음향 신호가 직접 표현되고 재생되어 자연스러운 공간적 청각 과정을 불러일으킬 수 있기에 두 개의(bi) 귀(aural)라는 뜻으로 이름붙여졌다.
이처럼 귀가 소리를 감지하는 능력 중 특히 방향과 거리를 감지하는 능력에 주목하기 때문에 복잡한 3D 사운드 스케이프를 2채널 오디오 신호로 표현할 수 있다. 헤드폰 및 이어폰은 바이노럴 사운드를 재생하는 데 가장 많이 사용되는데, 귀의 음압을 독립적으로 제어하는 것이 더 쉽기 때문이다. 물론 특별한 프로세싱(크로스토크 제거 기술)을 통하여 스피커에서 재생하는 기술도 존재한다.
헤드폰 및 이어폰 사용은 최근 몇 년 동안 빠르게 증가했다. 헤드폰이나 이어폰을 사용하면 일반 스테레오 청취시 종종 음원이 청취자의 머리 속에 있는 것 같은 느낌을 준다. 이는 방송사로 하여금 헤드폰 청취 경험을 개선하도록 동기를 부여했다. 바이노럴 오디오는 새로운 장비가 필요 없이 많은 청취자에게 더욱 몰입감 있는 3D 오디오를 제공하기 때문에 기존 방송사들에게 매력적인 옵션이다. 기존 스테레오 인프라도 배포에 사용할 수 있기 때문이다.
바이노럴 녹음
바이노럴 오디오 제작은 바이노럴 녹음 기술에서 유래한 것으로, 실제 사운드 스케이프를 인간 청취자의 귀나 더미헤드에 마이크를 꽂아 포착한다. 바이노럴 마이크의 개발은 1930년대 초에 시작되었으며, 이는 스테레오 녹음 기술과 같은 시기였다. 방송사는 1962년 초에 스테레오 전송을 했지만, 최초의 바이노럴 방송 프로그램이 등장한 것은 1973년이 되어서였다. Demolition은 Radio in the American Sector(RIAS) 방송국에서 제작한 바이노럴 오디오 연극으로, 그해 베를린에서 열린 국제 방송 박람회(IFA)에서 선보였다. 당시 새로 출시된 Neumann KU80이 제작에 사용되었으며, 바이노럴 녹음을 위해 의도적으로 설계된 최초의 상업용 마이크였습니다. 이 연극은 여러 독일 방송국에서 방송되었고 대중과 언론 모두로부터 큰 호평을 받았습니다.
BBC의 초기 바이노럴 프로덕션은 더미헤드 마이크를 사용하지 않고 대신 Perspex 디스크를 방벽으로 사용하여 귀 너비만큼 간격을 둔 매칭된 무지향성 마이크 페어를 사용했다. 스튜디오 테스트에서 이는 KU80 마이크와 비슷한 효과를 낸 것으로 나타났지만 실용성과 비용 측면에서 더욱 선호되었다고 한다.
1970년대와 1980년대 초에는 바이노럴의 전성시대라고 할만했다. 당시 유럽 전역에서 수백 개의 바이노럴 라디오 프로그램들이 제작되어 방송되었다. 그러나 제작에 있어서 스테레오 방식과 양립이 어려웠고 당시 TV 시청자들은 이어폰이나 헤드폰을 선호하지 않았던데다가 당시의 이어폰과 헤드폰의 음질이 좋지 못했던 탓에 곧 인기는 시들해졌다. 그리고 바이노럴은 역사 속으로 사라지는 듯 했다. 하지만 이 오래된 방식은 지난 10년간의 방송 및 청취 환경의 변화 덕분에 방송 시장에서 빠르게 부활하고 있다.
오늘날에는 더미헤드와 인이어 유형의 다양한 바이노럴 마이크가 시중에 판매되고 있다. 바이노럴 녹음은 여전히 사용되고 있지만 바이노럴 렌더링도 지금은 중요한 도구다. 바이노럴 마이크를 사용하면 환경 음향 및 동적 소스 이동을 포함하여 자연스러운 사운드 장면을 정확하게 녹음할 수 있다. 장면의 복잡성은 녹음 또는 재생 프로세스의 복잡성에 영향을 미치지 않지만 바이노럴 렌더링의 경우는 그렇지 않다. 그러나 바이노럴 녹음의 주요 한계 중 하나는 자연스럽게 발생하는 장면만 캡처할 수 있다는 것이다. 방송에서는 사운드 디자인 및 편집을 통해 실제 생활에 존재하지 않는 사운드 장면을 만들거나 여러 마이크 녹음을 처리 및 믹싱하여 실제 사운드 장면에 미적 변화를 주는 것이 일반적이다.
바이노럴 렌더링
바이노럴은 더미헤드 및 그에 준하는 마이크 기술을 통해 현장의 소리를 인간이 느끼는 것과 최대한 가깝게 포착하는 것이 목표다. 따라서 바이노럴 마이크는 필수 장비일 수 밖에 없다. 이를 바꿔 말하자면 포스트 프로덕션이 필요할 때, 즉 실제로 존재하지 않는 소리나 과장된 사운드 스케이프를 만들어야 할 때는 바이노럴 제작에 있어 큰 장애가 될 수 밖에 없다. 이를 극복하기 위해서는 디지털 프로세싱 및 컴퓨팅 파워의 발달, 그리고 그에 걸맞은 고도의 신호처리 기술이 필요하다.
디지털 신호 처리 기술이 정확한 바이노럴 렌더링을 달성하기 위해 처음 적용된 것은 1980년대 후반이었다. 바이노럴 합성이라고도 하는 바이노럴 렌더링은 오디오 신호를 처리하여 현실적인 청각적 공간적 인상을 제공하고 귀에서 바이노럴 신호를 시뮬레이션하는 것이다.
소스 신호는 원하는 소스 위치에서 귀까지의 음향 전달 함수를 설명하는 필터로 처리되며, 이를 일반적으로 머리 관련 전달 함수(HRTF; Head Related Transfer Function)라고 한다. 가상 장면은 다양한 방향과 거리에서 여러 음원과 환경 음향 효과를 시뮬레이션하여 구성할 수 있다. 바이노럴 렌더링은 실제 음향 장면에 기반하지 않은 청각 장면을 제작할 수 있으므로 창의적인 응용 프로그램 제작에 유용하다. 바이노럴 녹음은 추가 음원의 바이노럴 렌더링으로 보강할 수도 있다.
바이노럴 렌더링은 청취자에게 설득력 있는 공간적 인상을 제공할 수 있지만 방송에 적용하기 위해서는 제약이 따른다. 단기적 접근 방식에서 기존 스테레오 인프라를 사용하여 방송사는 사전 렌더링된 바이노럴 신호를 배포해야 한다. 따라서 렌더링은 청취자의 HRTF에 맞게 개인화될 수 없고, 헤드폰 재생은 적절하게 이퀄라이징될 수 없으며, 청취자의 머리 움직임에 적응할 수도 없다. 이러한 한계에도 불구하고 바이노럴 렌더링은 헤드폰 청취자에게 많은 면에서 스테레오 배포에 비해 이점을 제공한다.
헤드폰 서라운드 사운드
방송에서 바이노럴 렌더링의 초기 응용 프로그램은 5.1 서라운드 사운드 소재를 재활용하는 데 초점을 맞췄다. 이를 헤드폰 서라운드 사운드(HSS)라고 하며 청취자 주변에 가상 라우드스피커를 시뮬레이션하여 작동한다. 이는 중복된 제작 노력 및 투자 없이 헤드폰 청취 경험을 개선할 수 있다는데 잠재력이 있다. 이 방식은 배포 전에 또는 청취자의 수신기 장치에서 로컬로 2채널 바이노럴 신호를 생성하는 데 프로세싱을 적용하여 이뤄진다.
하지만 안타깝게도 다양한 연구에서 HSS 시스템을 평가한 결과 HSS는 스테레오 다운믹스에 비해 청취 경험을 크게 개선하는 데 미미한 효과만 있는 것으로 나타났으며, 많은 시스템에서는 종종 상당히 악화시키는 것으로 나타났다. 그러나 오디오 소재에 따라 성능이 달라지는 경우가 많고 청취자마다 선호도가 다른 것도 사실이다. 이는 HSS와 스테레오 버전 중에서 선택할 수 있는 옵션을 제공하는 것이 유용함을 시사한다.
이에 대해 BBC나 Radio France 등 선진국의 방송사들은 자체적으로 많은 시도를 했으며 웹사이트를 통해 청취자들을 무작위로 모집, 일종의 실험을 진행하기도 했다. 이 경우 1)열성적인 청취자들이 자발적으로 청취실험에 참여했다는 점, 2)청취자가 의식적으로 믹싱 버전을 스스로 선택했다는 사실 때문에 다소 편향될 수 있지만 이중 맹검 테스트 때보다는 확실히 긍정적인 결과가 나와 HSS 바이노럴 청취에 여전히 희망을 갖게끔 한다.
3D 바이노럴 제작
HSS 애플리케이션은 5.1 서라운드의 입력 형식으로 제한된다. 라우드스피커 레이아웃은 수평으로만 구성되고 라우드스피커 배치는 전면 영역 밖에서는 밀도가 희박할 수 밖에 없어서 3D 장면의 설득력 있는 인상을 만들 수 없다. 가상 라우드스피커 렌더링은 3D 레이아웃과 함께 사용할 수 있지만 이 채널 기반 접근 방식은 여전히 사운드 장면의 해상도에 제한을 가한다.
이를 위해 많은 방송사 및 코덱 개발사들은 몇 년간 객체 기반의 렌더링 접근 방식에 주목하여 연구 및 개발을 진행하고 있다. 각 사운드 소스 또는 객체는 가상 라우드스피커 레이아웃을 중간 형식으로 사용하는 대신 자체 바이노럴 필터로 독립적으로 처리된다. 소스는 모든 3D 위치에 렌더링할 수 있으며 가상 음향 환경을 포함한 가장 적합한 렌더링 매개변수는 각 장면과 사운드 소스에 대해 선택할 수 있다. 이 접근 방식은 배포 전 렌더링을 적용하지만 실은 이미 컴퓨터 게임 및 가상 현실 시스템에서 사용하는 방식과 유사하다. 단, 이러한 시스템은 청취 순간에 로컬로 렌더링하기 때문에 별도의 프로세서나 렌더러와 같은 장비 혹은 소프트웨어가 필수적이다.
후반작업
많은 방송사들은 바이노럴 오디오를 제작하기 위해 다양한 도구와 워크플로우를 실험했다. Radio France는 현재 객체 기반 바이노럴 렌더링을 위해 Spat Revolution이라는 툴을 사용한다. 이 강력한 소프트웨어는 3D 룸 모델링 알고리듬이 특징이다. 또한 디지털 오디오 워크스테이션(DAW)과 통합된 인터페이스를 갖고 있어서 다양한 환경에서 일관된 결과를 기대할 수 있으며 적용 범위도 넓다.
BBC에서는 스테레오 진폭 패닝, HRTF의 고밀도 배열을 사용한 3D 바이노럴 렌더링, 측정된 바이노럴 룸 임펄스 응답(BRIR)을 바탕으로 하여 3D 레이아웃을 통한 가상 라우드스피커 렌더링, 보조 매개변수 3D 리버브를 포함하여 사운드 객체에 대한 다양한 렌더링 옵션을 허용하는 맞춤형 후반작업 시스템을 개발했다. 프로듀서는 언제든지 각 객체에 대해 원하는 렌더링 옵션을 선택할 수 있으며, 종종 다양한 기술을 혼합하여 사용한다. 이들은 IOSONO Spatial Audio Workstation을 사용하여 DAW에서 3D 장면을 작성하고, 렌더링 소프트웨어를 제어하기 위해 OSC(Open Sound Control)을 활용한다.
다른 방송사도 객체 기반 바이노럴 드라마 작품을 제작했다. 예를 들어 독일에서WDR은 쾰른 응용과학대학교와 협력하여 SoundScape Renderer 소프트웨어를 사용했고 BR은 IRT와 협력하여 맞춤형 객체 기반 바이노럴 렌더링 시스템을 사용했다. 뿐만 아니라 최근 몇 년 동안, 후반 작업에서 3D 바이노럴 패닝을 제공하는 다양한 도구가 출시되었다.
라이브 프로덕션
많은 방송사들은 라이브 음악 공연의 3D 바이노럴 믹스를 제작하여 더 큰 현장감과 몰입감을 제공하는 데 관심을 보이고 있다. 그러나 라이브 프로덕션 시나리오는 도구의 효율성과 시스템의 견고성과 안정성에 대한 요구 사항이 급격히 증가한다. 음악 소스는 사운드 퀄리티와 관련하여 특히 민감하다.
스테레오 믹스는 메인 방송에 사용되므로 우선 순위가 높으므로 사운드 엔지니어가 객체 기반 바이노럴 버전을 효율적으로 동시에 제작할 수 있도록 워크플로가 각 방송사들은 자체적으로 새로운 워크플로우를 개발하고 있다. 그 중 많은 사례를 보자면, 스테레오 믹스에 사용된 각 마이크 신호는 게인, 딜레이, 이퀄라이제이션 및 다이나믹스 처리가 적용된 후 믹싱 콘솔에서 바이노럴 렌더링 시스템으로 공급된다. 이를 통해 공연 중 믹스 엔지니어가 변경한 다이나믹 레벨이 바이노럴 믹스에서도 유지된다. 이 시나리오를 기초로 몇 가지 렌더링 소프트웨어 및 툴들이 설계되었으며 여기에는 공간화, 추가적인 딜레이 및 게인을 각 사운드 객체 및 그룹에 적용할 수 있도록 했으며 터치스크린을 통한 실시간 조작 인터페이스를 제공하기도 한다.
클래식 공연의 경우 ORTF-3D 혹은 여타 다른 다양한 방법의 마이크 어레이 기법을 사용하여 3D 분위기의 느낌을 포착한다. 이 방식은 종종 스테레오 버전에서 사용되는 인공적인 추가 잔향도 믹스하여 스테레오 믹스에서와 같이 좀 더 과장된 공간감을 시도하기도 한다.
ORTF-3D와 같은 마이크 어레이는 더미헤드 레코딩에 대한 대안을 제공한다. 3D 사운드 장면을 포착한 다음 후처리하여 바이노럴 신호를 생성할 수 있으며 3D 라우드스피커 어레이에서 재생하는 데에도 적합하기 때문이다. 3D 마이크 어레이의 특성과 품질은 방송 제작 연구를 위해서 최근 뜨겁게 연구되고 있는 분야다.
방송에서 바이노럴 오디오의 과제
많은 방송 프로그램이 현재 바이노럴 오디오를 사용하여 제작되었지만, 주류가 되기 위해서는 여전히 산적한 과제들이 남아 있다. 3D 오디오는 제작이 더 복잡하고, 추가 교육과 경험이 필요하다. 방송사는 직원을 위한 교육 과정을 개발했지만, 바이노럴 제작의 양이 증가함에 따라 고품질 출력을 유지하는데 있어서 어려움을 겪는다. 어떤 곳에서는 바이노럴 제작을 위한 추가 소프트웨어 툴의 설치만으로도 가능하지만 여전히 많은 스튜디오는 바이노를 제작 및 방송을 위해 상당한 비용과 시간이 투입된다. 여기에는 다중 마이크 어레이나 더미헤드와 같은 새로운 녹음 장비들도 포함된다.
라이브이든 후반 제작이든, 바이노럴 제작의 과제 중 하나는 노력과 인력이 중복되어 투입되어야 한다는 현실이다. 스테레오 방송은 여전히 스피커 환경에서 재생된다는 것을 전제로 제작되어야 한다. 여전히 많은 사람들이 이 버전으로 청취할 것이기 때문에 우선순위를 가져갈 수 밖에 없다. 바이노럴은 아직은 여전히 옵션이 될 수 밖에 없다.
또 다른 과제는 용어와 개념의 전파다. 바이노럴은 청취자에게 그다지 의미 있는 용어가 아니다. 몰입형 또는 3D 사운드와 같은 다른 용어가 사용되고 있지만, 청취자들이 올바르게 3D 오디오의 특성을 이해하고 그것에 제공하는 바를 잘 알아서 선택할 수 있도록 제작 측에서의 일관성 및 사용자 측에서의 저변 확대가 필요하다.
남아 있는 큰 의문은 헤드폰이나 이어폰의 청취 경험이 바이노럴 오디오로 인해 진정으로 개선되는지의 여부다. 청취 테스트에서 바이노럴과 스테레오를 이중 맹검 테스트로 비교하면 어느 하나가 절대적으로 우위인 결과나 나오지는 않으며 여전히 스테레오에 대한 선호도가 의미있게 나타난다. 물론 청취자가 3D와 스테레오 버전 중 선택하는 것이라는 ‘테스트의 과제’를 알고 있다면 바이노럴의 선호도는 상당히 높아진다. 최근 BBC의 연구에 따르면 청취자는 바이노럴 청취 경험의 공간적 측면 및 이것이 존재감이나 사실감, 포위감 등에 미칠 수 있는 이점을 높이 평가한다. 프로페셔널 사운드 엔지니어의 입장에서는 바이노럴 믹스에서의 음색 문제가 심각하게 다가오는 것도 문제다.
이러한 여러가지 한계가 있음에도 헤드폰과 이어폰, 그리고 일부 스테레오 환경에서 바이노럴은 여전히 가장 합리적인 가격과 노력으로 가장 빠르게, 기존 플랫폼을 이용하여 3D 오디오를 현실적으로 달성할 수 있는 방법이다. 따라서 앞으로 업계의 더욱 많은 관심과 노력이 촉구된다.