Lección 17 de 17

Optimización de Costos y Eficiencia

Entender los Costos

Pricing por Modelo (2025)

GPT-4 Turbo:
- Input: $10/1M tokens
- Output: $30/1M tokens
Claude 3.5 Sonnet:
- Input: $3/1M tokens
- Output: $15/1M tokens
Gemini 2.0 Flash:
- Input: $0.075/1M tokens
- Output: $0.30/1M tokens
1000 palabras ≈ 1333 tokens

Estrategias de Reducción

1. Eliminar Verbosidad

❌ (150 tokens)
"Me gustaría que por favor pudieras analizar cuidadosamente los siguientes datos y proporcionarme un análisis detallado..."
✅ (20 tokens)
"Analiza estos datos:
[datos]"

2. Usar Modelos Apropiados

Tarea simple (clasificación): → Gemini Flash ($)
Tarea media (escritura): → Claude Sonnet ($$)
Tarea compleja (razonamiento): → GPT-4 Turbo ($$$)

3. Prompt Caching

Algunos modelos cachean partes del prompt, reduciendo costos en prompts repetitivos.

Estructura para cache:
[Instrucciones largas que no cambian] ← Se cachean
[Input específico que cambia] ← Costo normal

4. Limitar Output

Añade: "Máximo 200 palabras" o "Respuesta concisa"
vs prompt abierto que puede generar 2000 palabras

Eficiencia en Tokens

Técnicas

  • Usar abbreviaturas consistentes
  • Delimitadores cortos (### vs =========)
  • JSON sobre prosa para datos estructurados
  • Ejemplos concisos en Few-Shot

Ejemplo Optimización

❌ Versión verbose (500 tokens)
"Quiero que actúes como un experto analista de datos con amplia experiencia en el sector retail y e-commerce..."
✅ Versión optimizada (200 tokens)
"Rol: Analista retail data
Expertise: E-commerce analytics
Tarea: Analiza dataset sales
Output: Top 3 insights + tabla metrics clave"

Balancear Costo vs Calidad

No siempre el prompt más barato es el óptimo.

Escenario A: Prompt barato que requiere 5 iteraciones
Costo total: $0.05 × 5 = $0.25
Escenario B: Prompt detallado que funciona first time
Costo: $0.15 × 1 = $0.15
→ B es más barato Y eficiente en tiempo

Monitoreo de Uso

  • Trackea tokens consumidos por proyecto
  • Identifica prompts más costosos
  • Optimiza los de uso frecuente primero
  • Set alerts para prevenir over-spending

Optimización no es siempre usar menos tokens, sino obtener mejor resultado por token gastado. A veces un prompt 2x más largo reduce iteraciones 5x.