Lección 24 de 27

Modo voz con ElevenLabs

El modo voz convierte a OpenClaw en un asistente de voz como Alexa o Siri, pero mucho mas inteligente. Usa ElevenLabs para generar voz natural y Whisper de OpenAI para transcribir tu voz a texto.

Como funciona

Hablas por el microfono, Whisper transcribe tu voz a texto, el texto se envia al LLM, la respuesta del LLM se convierte a voz con ElevenLabs, y escuchas la respuesta por los parlantes. Todo en tiempo casi real.

  1. 1

    Crea una cuenta en ElevenLabs (elevenlabs.io)

  2. 2

    Obtiene tu API key de ElevenLabs

  3. 3

    Elige una voz de la biblioteca (o clona tu propia voz)

  4. 4

    Configura en OpenClaw

  5. 5

    Inicia el modo voz

  6. 6

    Habla con tu agente

Configuracion del modo voz

Configuracion completa para habilitar voz.

config.yaml - Voice
# ~/.openclaw/config.yaml
voice:
  enabled: true
  # Sintesis de voz (texto a voz)
  tts:
    provider: elevenlabs
    api_key: "xi_xxxxxxxxxxxx"
    voice_id: "21m00Tcm4TlvDq8ikWAM"  # Rachel (natural)
    model: "eleven_multilingual_v2"     # Soporta espanol
    speed: 1.0
  # Reconocimiento de voz (voz a texto)
  stt:
    provider: whisper
    model: "whisper-1"
    language: "es"  # Espanol
  # Activacion
  wake_word: "oye claw"  # Palabra de activacion
  continuous: false       # true = siempre escuchando

# Iniciar modo voz:
# openclaw voice
Voces en espanol

ElevenLabs tiene voces que soportan espanol con el modelo eleven_multilingual_v2. La voz "Rachel" es una buena opcion por defecto. Tambien puedes clonar tu propia voz subiendo 1 minuto de audio.

Wake word vs Push-to-talk

Dos modos de activacion: wake_word (dices "oye claw" y empieza a escuchar, como Alexa) o push-to-talk (mantienes presionada una tecla mientras hablas). Wake word consume mas recursos porque siempre esta escuchando.

Costos del modo voz

ServicioPlan gratuitoPlan pago
ElevenLabs TTS10.000 caracteres/mesDesde $5/mes
Whisper STTIncluido con API OpenAI$0.006/minuto
LLM (el de siempre)Segun modeloSegun modelo

Activar modo voz

  1. 1.Obtener API key de ElevenLabs
  2. 2.Configurar TTS y STT
  3. 3.Iniciar modo voz
  4. 4.Probar con una pregunta hablada
Comandos
openclaw config set voice.enabled true
openclaw config set voice.tts.api_key "xi_xxxx"
openclaw config set voice.stt.language "es"
openclaw voice

Que tecnologia usa OpenClaw para convertir tu voz a texto?

Que es la "wake word" en el modo voz?
Es una frase de activacion (como "oye claw") que le dice a OpenClaw que empiece a escuchar. Similar a "Hey Siri" o "Alexa".

Puntos clave

  • Modo voz usa ElevenLabs (TTS) y Whisper (STT)
  • Soporta espanol con eleven_multilingual_v2
  • Dos modos: wake word (siempre escuchando) o push-to-talk
  • Costo adicional: ElevenLabs desde $5/mes + Whisper $0.006/min
  • Iniciar con: openclaw voice

Quiz Generado por IA

Evalua tu comprension de esta leccion con preguntas personalizadas.