Los Agentes de Voz con IA de Aircall pueden aprender directamente de tu contenido público para ofrecer respuestas precisas, coherentes y alineadas con la marca durante las llamadas de los clientes. Esto es posible gracias a las Fuentes de Conocimiento, que permiten que tu Agente de IA consulte información fiable en tiempo real. Este artículo explica qué es una base de conocimientos, cómo beneficia a tu Agente de IA y las limitaciones actuales que debes tener en cuenta.

¿Qué es una base de conocimientos?

Una base de conocimientos es una biblioteca centralizada de información sobre tu empresa, como productos, servicios y preguntas frecuentes. Ayuda a garantizar que la información sea fácil de encontrar, de consultar y de entender para tus Agentes de IA.

Aircall utiliza el contenido que proporcionas, por ejemplo páginas web públicas, para construir una base de conocimientos en la que tus Agentes de IA pueden confiar durante las conversaciones con los clientes.

Cómo ayudan las fuentes de conocimiento a tus Agentes de IA

Una vez que tu contenido se añade como Fuente de Conocimiento, tu Agente de IA puede:

  • Responder a preguntas comunes utilizando información precisa y aprobada por la marca
  • Mantener mensajes coherentes en todas las llamadas
  • Reducir respuestas manuales repetitivas
  • Consultar tu contenido al instante durante las interacciones con los clientes

Esto garantiza que quienes llaman reciban respuestas precisas y útiles basadas directamente en tu propia información publicada.

Tipos de contenido admitidos

Puedes añadir nuevas Fuentes de Conocimiento de las siguientes formas:

  • Bloque de contenido: Pega cualquier texto sin formato del que quieras que el agente aprenda
  • Página web: Añade una única URL pública
  • Sitio web: Añade un dominio público principal, con subpáginas opcionales
  • Fuentes existentes: Reutiliza o actualiza contenido que ya has añadido

Screenshot 2025-12-16 at 09.41.45.png

Nota: Todo el contenido añadido como Fuente de Conocimiento debe estar disponible públicamente.

Limitaciones actuales

Para garantizar los mejores resultados, ten en cuenta las siguientes limitaciones.

Páginas protegidas o que requieren autenticación

Las Fuentes de Conocimiento no pueden extraer contenido de:

  • Páginas que requieren inicio de sesión
  • Áreas protegidas por contraseña
  • Portales internos o paneles de control
  • Páginas tras muros de pago

Solo se admiten URLs públicas.

Contenido solo en imágenes

Si la información importante aparece únicamente como imágenes, como texto incrustado en imágenes, diagramas o capturas de pantalla, es posible que el Agente de IA no pueda leerla ni utilizarla.

Carga de documentos aún no admitida

Actualmente no puedes cargar archivos como:

  • PDFs
  • Documentos Word
  • Hojas de cálculo
Importante: Está previsto admitir la carga de documentos en una versión futura.

Gestión de preguntas frecuentes y rastreo web en tu Base de Conocimientos

Tus preguntas frecuentes existentes y el contenido web recién añadido pueden funcionar juntos sin problemas en tu Base de Conocimientos. Este artículo explica cómo se gestionan las preguntas frecuentes, cómo funciona el rastreo web, cómo se procesa el contenido y qué límites se aplican a tu Agente de Voz con IA.

¿Qué ocurre con mis preguntas frecuentes existentes?

No necesitas eliminar ni modificar tus preguntas frecuentes actuales. Tus preguntas frecuentes actuales se guardan automáticamente como FAQ de [Nombre del Agente], y tu Agente de Voz con IA las sigue utilizando como fuente de conocimiento. Puedes combinar varios tipos de fuentes de conocimiento, incluyendo:

  • Entradas de preguntas frecuentes o de texto libre
  • URLs individuales
  • Sitios web rastreados

Todas las fuentes de conocimiento se tratan por igual. Actualmente no existe priorización ni ponderación entre diferentes fuentes.

Cómo funciona el rastreo web

Cuando añades una URL de sitio web a tu Base de Conocimientos, Aircall procesa automáticamente:

  • La página que proporcionas
  • Las páginas a las que enlaza
  • Las páginas a las que enlazan esas páginas

Esto solo se aplica si las URLs comparten el mismo prefijo.

Profundidad de rastreo

Rastreamos:

  • La página proporcionada
  • Hasta dos niveles más en profundidad
  • Solo si las URLs comparten el mismo prefijo

Ejemplo

Si añades: https://website.com/depth1/

También podemos rastrear:

  • https://website.com/depth1/depth2
  • https://website.com/depth1/depth2/depth3

No rastrearemos secciones no relacionadas como:

  • https://website.com/blog
  • https://website.com/contact

Esto garantiza que solo se incluyan las secciones relevantes de tu sitio web.

Cómo se extrae y limpia el contenido

Todo el contenido web pasa por un procesamiento en varias etapas para garantizar un conocimiento de alta calidad.

CategoríaDetallesPropósito / Impacto
Qué se elimina
  • Menús de navegación
  • Encabezados y pies de página
  • Banners de cookies
  • Botones “Volver arriba”
  • Anuncios
  • Imágenes y vídeos
  • Imágenes codificadas en Base64
  • Scripts y código malicioso
  • Ruido de formato y HTML redundante
Elimina elementos no esenciales y potencialmente inseguros para garantizar que solo se procese contenido relevante y limpio.
Qué se mantiene
  • Encabezados
  • Párrafos
  • Listas
  • Contenido estructurado de artículos
Conserva contenido estructurado y significativo que contribuye a una recuperación precisa del conocimiento.
Por qué es importante
  • Mejora la precisión de las respuestas
  • Evita que el contenido irrelevante afecte a las respuestas
  • Reduce el procesamiento innecesario
  • Mejora la seguridad
  • Ayuda a la IA a recuperar información relevante de forma más eficaz
Garantiza respuestas de mayor calidad, mejor rendimiento y mayor fiabilidad del Agente de Voz con IA.

Tiempos de procesamiento esperados

El tiempo de procesamiento depende del tamaño del rastreo.

  • De 1 a 10 páginas suelen procesarse en menos de un minuto
  • Secciones de tamaño medio pueden tardar de 5 a 10 minutos
  • Rastreos grandes a nivel raíz pueden tardar hasta 30 minutos

Si añades una URL de nivel superior como https://website.com/, pueden procesarse muchas páginas enlazadas. Puedes supervisar el progreso utilizando el indicador de estado del documento.

Límites de caracteres explicados

Ventana de contexto del Agente de Voz

Tu Agente de Voz con IA tiene una ventana de contexto de trabajo total de 120.000 caracteres. Esto incluye:

  • Contenido web rastreado
  • Entradas de preguntas frecuentes y texto libre
  • Todas las fuentes de conocimiento combinadas

Si el contenido total supera los 120.000 caracteres, se aplica una resumización automática antes de que el Agente de Voz utilice el contenido.

Importante: El límite de 120.000 caracteres es una limitación técnica necesaria para garantizar el rendimiento y la fiabilidad del sistema.

Mejores prácticas para la ingesta de sitios web

TemaRecomendaciónDetalles / Ejemplos
Empieza con URLs específicasAñade páginas precisas y enlazadas en profundidad en lugar de dominios raízEn lugar de https://website.com/, utiliza una página concreta como https://website.com/help/article-name. Cuanto más profundo sea el camino de la URL, más específico será el rastreo.
Amplía gradualmenteSube un nivel de directorio cada vez si necesitas mayor coberturaPor ejemplo, pasa de https://website.com/help/article-name a https://website.com/help/. Evita añadir la URL raíz a menos que realmente necesites contenido de todo el sitio.
Evita el rastreo excesivoNo empieces con URLs a nivel raíz salvo que sea necesarioLas URLs a nivel raíz pueden capturar cientos de páginas, aumentar el tiempo de procesamiento, activar la resumización e introducir contenido irrelevante.
Utiliza páginas de conocimiento estructuradasPrioriza páginas bien organizadas y centradas en el contenidoLas fuentes que mejor funcionan incluyen centros de ayuda, hubs de documentación, secciones de preguntas frecuentes y artículos estructurados con encabezados claros.
Evita tipos de contenido no adecuadosExcluye páginas que sean dinámicas, restringidas o no estructuradasEvita páginas que requieran inicio de sesión, páginas de resultados de búsqueda, contenido dinámico o basado en formularios, feeds de noticias y páginas con muchos medios.
Revisa tras el rastreoValida los resultados una vez finalizado el procesamientoComprueba la vista previa del documento para asegurarte de que se capturaron las páginas correctas, no se añadieron URLs duplicadas y el contenido está bien estructurado. Puedes actualizar el contenido web más adelante si la página de origen se modifica.
Nota: Cuándo no rastrear: considera usar preguntas frecuentes manuales o entrada de texto si el contenido cambia con frecuencia:

• como noticias o datos en tiempo real;
• las páginas requieren autenticación;
• el sitio web es principalmente de vídeos o imágenes;
• o el contenido no está estructurado.