Lección 17 de 17
Optimización de Costos y Eficiencia
Entender los Costos
Pricing por Modelo (2025)
GPT-4 Turbo: - Input: $10/1M tokens - Output: $30/1M tokens Claude 3.5 Sonnet: - Input: $3/1M tokens - Output: $15/1M tokens Gemini 2.0 Flash: - Input: $0.075/1M tokens - Output: $0.30/1M tokens 1000 palabras ≈ 1333 tokens
Estrategias de Reducción
1. Eliminar Verbosidad
❌ (150 tokens) "Me gustaría que por favor pudieras analizar cuidadosamente los siguientes datos y proporcionarme un análisis detallado..." ✅ (20 tokens) "Analiza estos datos: [datos]"
2. Usar Modelos Apropiados
Tarea simple (clasificación): → Gemini Flash ($) Tarea media (escritura): → Claude Sonnet ($$) Tarea compleja (razonamiento): → GPT-4 Turbo ($$$)
3. Prompt Caching
Algunos modelos cachean partes del prompt, reduciendo costos en prompts repetitivos.
Estructura para cache: [Instrucciones largas que no cambian] ← Se cachean [Input específico que cambia] ← Costo normal
4. Limitar Output
Añade: "Máximo 200 palabras" o "Respuesta concisa" vs prompt abierto que puede generar 2000 palabras
Eficiencia en Tokens
Técnicas
- Usar abbreviaturas consistentes
- Delimitadores cortos (### vs =========)
- JSON sobre prosa para datos estructurados
- Ejemplos concisos en Few-Shot
Ejemplo Optimización
❌ Versión verbose (500 tokens) "Quiero que actúes como un experto analista de datos con amplia experiencia en el sector retail y e-commerce..." ✅ Versión optimizada (200 tokens) "Rol: Analista retail data Expertise: E-commerce analytics Tarea: Analiza dataset sales Output: Top 3 insights + tabla metrics clave"
Balancear Costo vs Calidad
No siempre el prompt más barato es el óptimo.
Escenario A: Prompt barato que requiere 5 iteraciones Costo total: $0.05 × 5 = $0.25 Escenario B: Prompt detallado que funciona first time Costo: $0.15 × 1 = $0.15 → B es más barato Y eficiente en tiempo
Monitoreo de Uso
- Trackea tokens consumidos por proyecto
- Identifica prompts más costosos
- Optimiza los de uso frecuente primero
- Set alerts para prevenir over-spending
Optimización no es siempre usar menos tokens, sino obtener mejor resultado por token gastado. A veces un prompt 2x más largo reduce iteraciones 5x.