화자 수 설정
영상에 등장하는 사람 수를 지정합니다. 받아쓰기 결과의 화자 분리 정확도에 직접 영향을 주는 설정이라, 시작 전에 정확히 입력하는 게 좋습니다.

화자 수가 의미하는 것
videoPlus는 받아쓰기 과정에서 오디오를 분석해 누가 어떤 단어를 말했는지 자동으로 구분합니다. 이때 미리 지정한 화자 수가 분리 알고리즘의 기준이 됩니다.
- 화자 수를 정확히 지정하면 → 더 정확한 화자 분리
- 실제와 다르게 지정하면 → 화자가 섞이거나 한 화자가 여러 명으로 잘못 인식될 수 있음
받아쓰기가 끝나면 각 화자는 A, B, C 같은 라벨로 표시됩니다. 이름은 나중에 화자 관리에서 바꿀 수 있습니다.
1명일 때
혼자 말하는 영상이라면 화자 수를 1로 설정하세요.
- VLOG, 강의, 1인 진행 콘텐츠
- 짧은 인사말이나 안내 영상
- 보이스오버
화자 분리 과정이 단순해져서 받아쓰기 속도가 가장 빠릅니다.
여러 명일 때 (최대 6명)
대화·인터뷰 영상이라면 등장하는 사람 수를 2~6 중에서 정확히 입력하세요.
- 2명 — 1:1 인터뷰, 대담
- 3~4명 — 패널 토론, 좌담회
- 5~6명 — 회의, 다인 인터뷰
정확한 인원이 가장 중요합니다
실제 화자 수보다 적게 입력하면 두 명의 음성이 한 화자로 합쳐질 수 있고, 많이 입력하면 한 사람이 여러 화자로 나뉘어 라벨이 자주 바뀝니다. 잘 모르겠다면 실제 인원과 가장 가까운 수로 시작한 뒤, 받아쓰기 결과를 보고 다시 시도하세요.
트랙이 화자별로 나뉘어 있다면
오디오 트랙 선택에서 화자별 트랙을 모두 선택하면 트랙 정보가 화자 분리에 함께 활용됩니다. 트랙 분리가 잘 된 영상은 화자 수가 약간 부정확해도 라벨이 안정적으로 잡힙니다.
