[제목]
최적성 이론을 활용한 강건한 한국어 통합 G2P 프레임워크 설계 및 분석
[요약]
한국어는 복잡한 음운 변동 규칙과 문맥 의존적 발음 현상으로 인해 문자-발음 변환(Grapheme-to-Phoneme, G2P)이 어려운 언어이다. 특히 실세계 텍스트는 한글, 숫자, 영어, 특수기호 등이 혼재된 code-mixing 환경이지만, 기존 연구들은 대부분 순수 한글 중심의 제한된 환경에서 수행되었으며, 규칙 기반 방법론의 유지보수 한계와 딥러닝 방법론의 해석 가능성 부족이라는 문제를 안고 있었다. 본 연구는 실세계 환경에서 강건하게 작동하는 한국어 문장 단위 통합 G2P 프레임워크를 제안한다.
제안 시스템은 비한글 전처리 모듈과 한국어 발음 생성 모듈을 단일 파이프라인으로 통합하여 code-mixed 텍스트를 일관되게 처리한다. 발음 생성 모듈은 koCharELECTRA 기반 Non-Autoregressive(NAR) Transformer 구조를 사용하며, Positional Attention 메커니즘을 통해 한국어의 위치 의존적 음운 변동을 효과적으로 모델링한다. 또한 최적성 이론(Optimality Theory)을 적용하여 딥러닝 모델의 출력을 해석하고, 한국어 표준 발음법에 기반한 명시적 음운 제약을 통해 발음 후보를 재순위화함으로써 데이터 기반 학습과 언어학적 지식을 결합한다.
실제 AI 스피커 발화 데이터를 사용한 실험에서 제안 시스템은 기존 방법들과 비교하여 경쟁력 있는 성능을 보였으며, 특히 code-mixing 환경에서 안정적인 처리 능력을 확인했다. NAR 기반 접근법을 통해 AR 모델 대비 빠른 처리 속도를 달성하여 실시간 TTS 적용 가능성을 확보했다. 본 연구는 실세계 복잡성을 반영한 한국어 G2P 평가 환경을 제시하고, 음운론 이론과 딥러닝 기술의 결합 가능성을 탐구한다.