# WanInfiniteTalkToVideo 노드

WanInfiniteTalkToVideo 노드는 오디오 입력으로부터 비디오 시퀀스를 생성합니다. 이 노드는 하나 또는 두 명의 화자로부터 추출된 오디오 특징을 조건으로 하는 비디오 확산 모델을 사용하여 토킹 헤드 비디오의 잠재 표현을 생성합니다. 새로운 시퀀스를 생성하거나 이전 프레임을 모션 컨텍스트로 사용하여 기존 시퀀스를 확장할 수 있습니다.

## 입력

| 매개변수 | 설명 | 데이터 타입 | 필수 | 범위 |
| --- | --- | --- | --- | --- |
| `mode` | 오디오 입력 모드입니다. `"single_speaker"`는 하나의 오디오 입력을 사용합니다. `"two_speakers"`는 두 번째 화자와 해당 마스크의 입력을 활성화합니다. | COMBO | 예 | `"single_speaker"`<br>`"two_speakers"` |
| `model` | 기본 비디오 확산 모델입니다. | MODEL | 예 | - |
| `model_patch` | 오디오 투영 레이어를 포함하는 모델 패치입니다. | MODELPATCH | 예 | - |
| `positive` | 생성을 안내하는 긍정 조건입니다. | CONDITIONING | 예 | - |
| `negative` | 생성을 안내하는 부정 조건입니다. | CONDITIONING | 예 | - |
| `vae` | 이미지를 잠재 공간으로 인코딩하거나 잠재 공간에서 디코딩하는 데 사용되는 VAE입니다. | VAE | 예 | - |
| `width` | 출력 비디오의 픽셀 단위 너비입니다. 16으로 나누어 떨어져야 합니다. (기본값: 832) | INT | 아니요 | 16 - MAX_RESOLUTION |
| `height` | 출력 비디오의 픽셀 단위 높이입니다. 16으로 나누어 떨어져야 합니다. (기본값: 480) | INT | 아니요 | 16 - MAX_RESOLUTION |
| `length` | 생성할 프레임 수입니다. (기본값: 81) | INT | 아니요 | 1 - MAX_RESOLUTION |
| `clip_vision_output` | 추가 조건을 위한 선택적 CLIP 비전 출력입니다. | CLIPVISIONOUTPUT | 아니요 | - |
| `start_image` | 비디오 시퀀스를 초기화하는 선택적 시작 이미지입니다. | IMAGE | 아니요 | - |
| `audio_encoder_output_1` | 첫 번째 화자의 특징을 포함하는 기본 오디오 인코더 출력입니다. | AUDIOENCODEROUTPUT | 예 | - |
| `motion_frame_count` | 시퀀스 확장 시 모션 컨텍스트로 사용할 이전 프레임 수입니다. (기본값: 9) | INT | 아니요 | 1 - 33 |
| `audio_scale` | 오디오 조건에 적용되는 스케일링 계수입니다. (기본값: 1.0) | FLOAT | 아니요 | -10.0 - 10.0 |
| `previous_frames` | 확장할 이전 비디오 프레임입니다(선택 사항). | IMAGE | 아니요 | - |
| `audio_encoder_output_2` | 두 번째 오디오 인코더 출력입니다. `mode`가 `"two_speakers"`로 설정된 경우 필수입니다. | AUDIOENCODEROUTPUT | 아니요 | - |
| `mask_1` | 첫 번째 화자의 마스크입니다. 두 개의 오디오 입력을 사용하는 경우 필수입니다. | MASK | 아니요 | - |
| `mask_2` | 두 번째 화자의 마스크입니다. 두 개의 오디오 입력을 사용하는 경우 필수입니다. | MASK | 아니요 | - |

**매개변수 제약 조건:**

* `mode`가 `"two_speakers"`로 설정된 경우, `audio_encoder_output_2`, `mask_1`, `mask_2` 매개변수가 필수가 됩니다.
* `audio_encoder_output_2`가 제공되면 `mask_1`과 `mask_2`도 함께 제공되어야 합니다.
* `mask_1`과 `mask_2`가 제공되면 `audio_encoder_output_2`도 함께 제공되어야 합니다.
* `previous_frames`가 제공되면 `motion_frame_count`에 지정된 수만큼의 프레임 이상을 포함해야 합니다.

## 출력

| 출력 이름 | 설명 | 데이터 타입 |
| --- | --- | --- |
| `positive` | 오디오 조건이 적용된 패치된 모델입니다. | MODEL |
| `negative` | 추가 컨텍스트(예: 시작 이미지, CLIP 비전)로 수정될 수 있는 긍정 조건입니다. | CONDITIONING |
| `latent` | 추가 컨텍스트로 수정될 수 있는 부정 조건입니다. | CONDITIONING |
| `trim_image` | 잠재 공간에서 생성된 비디오 시퀀스입니다. | LATENT |
| `trim_image` | 시퀀스 확장 시 모션 컨텍스트 시작 부분에서 제거해야 하는 프레임 수입니다. | INT |

> 이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! [GitHub에서 편집](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/ko.md)

---
**Source fingerprint (SHA-256):** `6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888`
