
최근 AI 음악 생성 서비스 수노(Suno)를 많이들 사용한다.
얼마 전에는 AI 작곡 세미나에도 다녀왔다. AI가 만들어내는 탑라인이나 트랙 메이킹, 남녀 보컬 전환 기능은 정말 놀랍다. 하지만 내가 가장 꽂힌 부분은 의외로 가사 전달력이었다.
한글 가사를 넣어도, 영어 가사를 넣어도, 심지어 한글과 영어가 뒤섞인 케이팝 스타일의 가사를 넣어도 멜로디와의 밀착력이 상당히 좋다. 때로는 다소 직설적이고 어색한 문장을 넣어도 자연스럽게 들린다. 이른바 '항마력'이 딸리는 가사조차 꽤 그럴듯하게 들린다.

처음에는 기술 발전에 감탄했다. 그런데 여러 번 결과물을 듣다 보니 다른 생각이 들었다. AI의 가창은 마치 최소 1년 이상은 노래를 배운 레슨생처럼 들린다. 음정이나 리듬만의 문제가 아니었다. 무엇보다 발음이 자연스럽게 연결되어 있었다.
여기서 문득 보컬 레슨 현장이 떠올랐다.
노래를 처음 배우는 레슨생들에게 의외로 오래 걸리는 부분이 있다. 발음이다. 정확히 말하면 발음의 흐름이다.
음정도 맞고 박자의 기본 틀도 맞는데 어딘가 어색하다. 박자는 맞는데 세련되지 않다. 노래를 듣고 있으면 음과 음이 따로 놀고, 단어와 단어가 끊어진다. 마치 좋은 재료로 요리를 했는데 칼질이 거친 느낌이라고 할까.
나는 이것을 발음의 플로우(flow)라고 부른다.
특히 한국어는 음절 단위가 비교적 분명한 분절음으로 되어있다. 글자의 모양도 초성, 중성, 종성이 하나의 블록처럼 모여 있어 말할 때도 음절을 또렷하게 구분하는 경향이 있다. 발음할 때 종성, 즉 받침이 빨리 붙으면 더욱 그렇다. 반면 영어는 단어와 단어가 연음으로 이어지며 흘러간다. 마치 글씨를 가로로 풀어 쓰듯 말이다.
노래에서는 음절의 경계를 적절히 연결하는 기술이 필요하다. 같은 문장을 불러도 숙련된 가수는 하나의 흐름으로 들리고, 초보자는 음절이 하나씩 끊기는 느낌이 난다. 그래서 우리는 무의식적으로 그 노래를 '세련됐다', '능숙하다'고 느낀다.

흥미로운 것은 AI가 바로 그 지점을 매우 잘 구현한다는 점이다.
물론 AI는 사랑을 해본 적도 없고 이별을 경험한 적도 없다. 설렘도 모르고 상실감도 모른다. 감정을 느끼지 못한다. 그런데도 노래의 감정이나 메시지는 생각보다 자연스럽게 전달된다.
이 지점을 생각해보게 된다.
보컬 레슨을 하다 보면 발음에 대해 이야기할 때 흔히 감정을 강조하게 된다. 감정을 담아라. 진심을 담아라. 틀린 말은 아니다. 하지만 감정을 느끼는 것과 감정을 전달하는 것은 조금 다른 문제일 수 있다. 아무리 깊은 감정을 품고 불러도 그것이 듣는 사람에게 전달되지 않으면 소통은 완성되지 않는다. 결국 감정은 말의 맥락을 타고 전달된다. 그리고 그 과정에서 발음의 연결은 생각보다 중요한 역할을 한다.
AI의 노래를 들으며 새삼 깨닫게 되었다. 우리는 평소 말을 할 때 ARS 안내 음성처럼 한 음절씩 끊어 이야기하지 않는다. 단어와 단어를 연결하고, 문장을 하나의 흐름으로 만들어 전달한다. 노래도 비슷하다.
노래를 처음 배우는 사람들은 음정과 박자에 집중한다. 물론 중요하다. 하지만 어느 정도 맞추고 나면 그 다음 단계에서 필요한 것은 연결이다. 음과 음의 연결. 단어와 단어의 연결. 그리고 의미와 의미의 연결.
AI는 수많은 사람의 노래 데이터로 학습을 한다. 그 관찰자 시점으로 학습한 AI를 보며 가장 기본적인 사실을 다시 떠올리게 된다.
우리가 노래에서 듣는 것은 단순한 음절의 나열이 아니라, 맥락과 흐름이라는 사실을.

<저작권자 © 스타뉴스, 무단전재 및 재배포 금지>




