Los Agentes de Voz con IA de Aircall pueden aprender directamente de tu contenido público para ofrecer respuestas precisas, coherentes y alineadas con la marca durante las llamadas de los clientes. Esto es posible gracias a las Fuentes de Conocimiento, que permiten que tu Agente de IA consulte información fiable en tiempo real. Este artículo explica qué es una base de conocimientos, cómo beneficia a tu Agente de IA y las limitaciones actuales que debes tener en cuenta.
¿Qué es una base de conocimientos?
Una base de conocimientos es una biblioteca centralizada de información sobre tu empresa, como productos, servicios y preguntas frecuentes. Ayuda a garantizar que la información sea fácil de encontrar, de consultar y de entender para tus Agentes de IA.
Aircall utiliza el contenido que proporcionas, por ejemplo páginas web públicas, para construir una base de conocimientos en la que tus Agentes de IA pueden confiar durante las conversaciones con los clientes.
Cómo ayudan las fuentes de conocimiento a tus Agentes de IA
Una vez que tu contenido se añade como Fuente de Conocimiento, tu Agente de IA puede:
- Responder a preguntas comunes utilizando información precisa y aprobada por la marca
- Mantener mensajes coherentes en todas las llamadas
- Reducir respuestas manuales repetitivas
- Consultar tu contenido al instante durante las interacciones con los clientes
Esto garantiza que quienes llaman reciban respuestas precisas y útiles basadas directamente en tu propia información publicada.
Tipos de contenido admitidos
Puedes añadir nuevas Fuentes de Conocimiento de las siguientes formas:
- Bloque de contenido: Pega cualquier texto sin formato del que quieras que el agente aprenda
- Página web: Añade una única URL pública
- Sitio web: Añade un dominio público principal, con subpáginas opcionales
- Fuentes existentes: Reutiliza o actualiza contenido que ya has añadido
Nota: Todo el contenido añadido como Fuente de Conocimiento debe estar disponible públicamente.
Limitaciones actuales
Para garantizar los mejores resultados, ten en cuenta las siguientes limitaciones.
Páginas protegidas o que requieren autenticación
Las Fuentes de Conocimiento no pueden extraer contenido de:
- Páginas que requieren inicio de sesión
- Áreas protegidas por contraseña
- Portales internos o paneles de control
- Páginas tras muros de pago
Solo se admiten URLs públicas.
Contenido solo en imágenes
Si la información importante aparece únicamente como imágenes, como texto incrustado en imágenes, diagramas o capturas de pantalla, es posible que el Agente de IA no pueda leerla ni utilizarla.
Carga de documentos aún no admitida
Actualmente no puedes cargar archivos como:
- PDFs
- Documentos Word
- Hojas de cálculo
Importante: Está previsto admitir la carga de documentos en una versión futura.
Gestión de preguntas frecuentes y rastreo web en tu Base de Conocimientos
Tus preguntas frecuentes existentes y el contenido web recién añadido pueden funcionar juntos sin problemas en tu Base de Conocimientos. Este artículo explica cómo se gestionan las preguntas frecuentes, cómo funciona el rastreo web, cómo se procesa el contenido y qué límites se aplican a tu Agente de Voz con IA.
¿Qué ocurre con mis preguntas frecuentes existentes?
No necesitas eliminar ni modificar tus preguntas frecuentes actuales. Tus preguntas frecuentes actuales se guardan automáticamente como FAQ de [Nombre del Agente], y tu Agente de Voz con IA las sigue utilizando como fuente de conocimiento. Puedes combinar varios tipos de fuentes de conocimiento, incluyendo:
- Entradas de preguntas frecuentes o de texto libre
- URLs individuales
- Sitios web rastreados
Todas las fuentes de conocimiento se tratan por igual. Actualmente no existe priorización ni ponderación entre diferentes fuentes.
Cómo funciona el rastreo web
Cuando añades una URL de sitio web a tu Base de Conocimientos, Aircall procesa automáticamente:
- La página que proporcionas
- Las páginas a las que enlaza
- Las páginas a las que enlazan esas páginas
Esto solo se aplica si las URLs comparten el mismo prefijo.
Profundidad de rastreo
Rastreamos:
- La página proporcionada
- Hasta dos niveles más en profundidad
- Solo si las URLs comparten el mismo prefijo
Ejemplo
Si añades: https://website.com/depth1/
También podemos rastrear:
https://website.com/depth1/depth2https://website.com/depth1/depth2/depth3
No rastrearemos secciones no relacionadas como:
https://website.com/bloghttps://website.com/contact
Esto garantiza que solo se incluyan las secciones relevantes de tu sitio web.
Cómo se extrae y limpia el contenido
Todo el contenido web pasa por un procesamiento en varias etapas para garantizar un conocimiento de alta calidad.
| Categoría | Detalles | Propósito / Impacto |
|---|---|---|
| Qué se elimina |
| Elimina elementos no esenciales y potencialmente inseguros para garantizar que solo se procese contenido relevante y limpio. |
| Qué se mantiene |
| Conserva contenido estructurado y significativo que contribuye a una recuperación precisa del conocimiento. |
| Por qué es importante |
| Garantiza respuestas de mayor calidad, mejor rendimiento y mayor fiabilidad del Agente de Voz con IA. |
Tiempos de procesamiento esperados
El tiempo de procesamiento depende del tamaño del rastreo.
- De 1 a 10 páginas suelen procesarse en menos de un minuto
- Secciones de tamaño medio pueden tardar de 5 a 10 minutos
- Rastreos grandes a nivel raíz pueden tardar hasta 30 minutos
Si añades una URL de nivel superior como https://website.com/, pueden procesarse muchas páginas enlazadas. Puedes supervisar el progreso utilizando el indicador de estado del documento.
Límites de caracteres explicados
Ventana de contexto del Agente de Voz
Tu Agente de Voz con IA tiene una ventana de contexto de trabajo total de 120.000 caracteres. Esto incluye:
- Contenido web rastreado
- Entradas de preguntas frecuentes y texto libre
- Todas las fuentes de conocimiento combinadas
Si el contenido total supera los 120.000 caracteres, se aplica una resumización automática antes de que el Agente de Voz utilice el contenido.
Importante: El límite de 120.000 caracteres es una limitación técnica necesaria para garantizar el rendimiento y la fiabilidad del sistema.
Mejores prácticas para la ingesta de sitios web
| Tema | Recomendación | Detalles / Ejemplos |
|---|---|---|
| Empieza con URLs específicas | Añade páginas precisas y enlazadas en profundidad en lugar de dominios raíz | En lugar de https://website.com/, utiliza una página concreta como https://website.com/help/article-name. Cuanto más profundo sea el camino de la URL, más específico será el rastreo. |
| Amplía gradualmente | Sube un nivel de directorio cada vez si necesitas mayor cobertura | Por ejemplo, pasa de https://website.com/help/article-name a https://website.com/help/. Evita añadir la URL raíz a menos que realmente necesites contenido de todo el sitio. |
| Evita el rastreo excesivo | No empieces con URLs a nivel raíz salvo que sea necesario | Las URLs a nivel raíz pueden capturar cientos de páginas, aumentar el tiempo de procesamiento, activar la resumización e introducir contenido irrelevante. |
| Utiliza páginas de conocimiento estructuradas | Prioriza páginas bien organizadas y centradas en el contenido | Las fuentes que mejor funcionan incluyen centros de ayuda, hubs de documentación, secciones de preguntas frecuentes y artículos estructurados con encabezados claros. |
| Evita tipos de contenido no adecuados | Excluye páginas que sean dinámicas, restringidas o no estructuradas | Evita páginas que requieran inicio de sesión, páginas de resultados de búsqueda, contenido dinámico o basado en formularios, feeds de noticias y páginas con muchos medios. |
| Revisa tras el rastreo | Valida los resultados una vez finalizado el procesamiento | Comprueba la vista previa del documento para asegurarte de que se capturaron las páginas correctas, no se añadieron URLs duplicadas y el contenido está bien estructurado. Puedes actualizar el contenido web más adelante si la página de origen se modifica. |
Nota: Cuándo no rastrear: considera usar preguntas frecuentes manuales o entrada de texto si el contenido cambia con frecuencia:
• como noticias o datos en tiempo real;
• las páginas requieren autenticación;
• el sitio web es principalmente de vídeos o imágenes;
• o el contenido no está estructurado.