Voz sobre IP (VoIP)

La comunicación vocal ha sido fundamental para la interacción humana desde tiempos inmemoriales. A lo largo de la historia, hemos buscado formas de transmitir la voz a distancia. Desde los primitivos sistemas de mensajería hasta la invención del teléfono en el siglo XIX, la tecnología ha jugado un papel crucial en la evolución de la comunicación vocal.

Con la llegada de la era digital, la voz comenzó a transformarse en señales eléctricas que podían ser transmitidas a través de cables y ondas de radio. Sin embargo, no fue hasta la década de 1990 cuando la Voz sobre Protocolo de Internet (VoIP) revolucionó la forma en que nos comunicamos, permitiendo la transmisión de voz a través de redes IP.

Equipos y Componentes

La VoIP requiere una serie de equipos y componentes para funcionar correctamente:

∘ Teléfonos IP: Dispositivos que se conectan a la red IP y permiten realizar llamadas VoIP.
∘ Adaptadores ATA (Analog Telephone Adapters): Permiten conectar teléfonos analógicos tradicionales a la red IP.
∘ Gateways VoIP: Dispositivos que convierten las señales de voz entre redes IP y redes telefónicas tradicionales (PSTN).
∘ Servidores VoIP: Equipos que gestionan las llamadas VoIP, incluyendo la señalización, el enrutamiento y la facturación.
∘ Codecs: Algoritmos que codifican y decodifican las señales de voz para su transmisión a través de la red IP.

PBX

Antes, la comunicación telefónica mediante una PBX (Private Branch Exchange) funcionaba conectando teléfonos internos a una central privada, que a su vez enlazaba con la red pública mediante líneas troncales. Los teléfonos usaban cables de par trenzado con dos hilos: Tip (T) y Ring (R). La señal analógica tenía una amplitud de aproximadamente -48V en reposo y fluctuaba entre -3V y -12V durante la conversación. Cada canal de voz ocupaba 4 kHz de ancho de banda, con una modulación basada en pulsos o tonos DTMF. Desde la PBX, la señal se enviaba a la central telefónica pública mediante E1 (2.048 Mbps, 32 canales de 64 Kbps cada uno) o líneas analógicas con señalización de corriente de bucle.

La PSTN conectaba las PBX empresariales mediante líneas troncales, que podían ser analógicas (FXO/FXS) o digitales (ISDN, PRI, BRI). En la central telefónica, los conmutadores dirigían las llamadas según la numeración y la señalización empleada, como SS7 (Signaling System 7) en redes modernas.

En la telefonía analógica y digital tradicional, se necesitaba un canal físico dedicado para cada comunicación. En los primeros sistemas de telefonía, cada llamada requería un par de cables de cobre (tip y ring) conectados a una central telefónica o PBX (Private Branch Exchange), lo que limitaba el número de llamadas simultáneas según la cantidad de líneas disponibles.

La conmutación de circuitos, utilizada en la Red Telefónica Pública Conmutada (PSTN), establecía un canal dedicado entre los interlocutores durante toda la duración de la llamada. Esto significaba que mientras la comunicación estaba activa, el ancho de banda del canal (generalmente 64 kbps en telefonía digital con PCM) quedaba reservado para esa llamada, sin posibilidad de compartirlo con otras conexiones hasta que la llamada finalizara.

VoIP eliminó esta restricción al digitalizar la voz y transmitirla en paquetes de datos a través de redes IP, lo que permite compartir un mismo canal para múltiples llamadas y otros tipos de tráfico, optimizando así el uso del ancho de banda disponible.

Enlaces E1

En VoIP, los enlaces E1 se utilizan principalmente con Gateways VoIP, dispositivos que convierten la señal de telefonía digital (TDM) en paquetes de datos IP para que pueda ser transportada por redes VoIP. Estos gateways pueden estar conectados a una PBX tradicional o directamente a la red pública PSTN.

Funcionamiento

Estructura del E1:

∘ Un E1 tiene 2.048 Mbps de ancho de banda y se divide en 32 canales de 64 kbps cada uno.
∘ Canales de voz: 30 canales (timeslots 1-15 y 17-31) se usan para llamadas de voz.
∘ Canal de señalización: 1 canal (TS16) para señalización, si se usa R2 o ISDN PRI.

Esto significa que el TS16 lleva información sobre el estado de las llamadas (descolgado, marcado, etc.) para los otros canales.

∘ Canal de sincronización: 1 canal (TS0) para sincronización.

Conversión a VoIP:

∘ El gateway VoIP toma las señales digitales del E1 y las convierte en paquetes de voz (RTP).
∘ Usa protocolos como SIP o H.323 para señalización y control de llamadas.
∘ La compresión de audio puede usar códecs como G.711, G.729 o Opus.

Interoperabilidad:

∘ Un PBX tradicional usa un E1 para conectar con una PSTN, pero al integrar un Gateway VoIP, puede comunicarse con redes IP sin cambiar toda su infraestructura.
∘ En empresas, un PBX IP puede conectarse a una red PSTN mediante un E1 SIP Gateway, permitiendo llamadas a teléfonos convencionales.

El T1 es un estándar de telecomunicaciones norteamericano que ofrece 24 canales de voz. Aunque su uso principal se concentra en Norteamérica, también ha tenido presencia en México, aunque en menor medida en comparación con el estándar europeo E1.

Conceptos Técnicos

Paquetización

La paquetización en VoIP consiste en convertir la señal de voz analógica en datos digitales, dividirla en paquetes y transmitirlos sobre una red IP. Este proceso ocurre en varias etapas:

Muestreo: En VoIP, la voz analógica se convierte en datos digitales mediante Pulse Code Modulation (PCM). Para esto, se realiza un muestreo de la señal a una frecuencia de 8 kHz (8000 muestras por segundo). Esto se debe a que el oído humano puede percibir frecuencias en un rango de 20 Hz a 20 kHz, pero el habla humana está mayormente contenida entre 300 Hz y 3400 Hz, por lo que no es necesario muestrear frecuencias superiores para una comunicación clara.

Según el teorema de Nyquist, para reconstruir una señal analógica sin pérdida de información, debe muestrearse al doble de la frecuencia máxima contenida en la señal. Como la voz telefónica estándar se limita a 3400 Hz, el muestreo mínimo requerido es de 6800 Hz. En telefonía digital y VoIP, este valor se redondea a 8000 Hz (8 kHz) para simplificar el procesamiento y garantizar la compatibilidad con el estándar G.711, el cual es ampliamente utilizado en sistemas de comunicación digital.

Cuantización: Después del muestreo, la señal de voz pasa por un proceso de cuantización, donde los valores analógicos muestreados se convierten en bits. En VoIP, normalmente se utiliza una cuantización de 8 bits por muestra, lo que genera una tasa de 64 Kbps por canal cuando se emplea el códec G.711. Este códec proporciona una calidad de audio equivalente a la telefonía tradicional (PSTN), ya que no aplica compresión y mantiene la fidelidad de la voz. Sin embargo, su alto consumo de ancho de banda puede ser una limitación en redes con capacidad restringida.
Compresión (Opcional): Para optimizar el uso del ancho de banda, se pueden emplear códecs con compresión con pérdida, como G.729 (8 Kbps) o Opus, que reducen significativamente el tamaño de los datos transmitidos. Aunque estos códecs permiten enviar más llamadas simultáneas con el mismo ancho de banda, la compresión puede afectar la calidad del audio, especialmente en redes congestionadas o con alta latencia. En condiciones normales, los usuarios pueden notar una leve diferencia en la claridad y naturalidad de la voz, pero en escenarios de baja calidad de conexión, la pérdida de datos puede hacer que la comunicación sea menos inteligible. Si se dispone de suficiente capacidad de transmisión, utilizar un códec sin compresión como G.711 es ideal para mantener una mejor calidad de voz, mientras que en redes con limitaciones, los códecs comprimidos pueden ser la mejor opción para equilibrar calidad y eficiencia.
Encapsulación: Los datos de voz se agrupan en paquetes que contienen:

∘ Encabezados (headers): Información de control para el enrutamiento. Se encapsula dentro de RTP (Real-time Transport Protocol) y luego en UDP o TCP.
∘ Carga útil (payload): La información de voz digitalizada.

Protocolos de Señalización

Los protocolos de señalización en VoIP se encargan de establecer, mantener y finalizar llamadas. Los más comunes son:

SIP (Session Initiation Protocol): Protocolo basado en texto que usa el modelo cliente-servidor y permite establecer sesiones de voz y video.
H.323: Un protocolo más antiguo basado en ITU-T, con funciones similares a SIP, pero más complejo.
MGCP (Media Gateway Control Protocol): Protocolo para controlar puertas de enlace de medios en VoIP.
RTSP (Real Time Streaming Protocol): Se usa en streaming, pero también puede aparecer en algunos sistemas VoIP.

Estos protocolos funcionan en la capa de aplicación del modelo OSI y utilizan mensajes como:

⦿ INVITE: Para iniciar una llamada en SIP.
⦿ BYE: Para finalizar la llamada.
⦿ ACK: Para confirmar la recepción de respuestas.

El Session Initiation Protocol (SIP) es un protocolo de señalización utilizado en VoIP para establecer, modificar y finalizar sesiones de comunicación en tiempo real, como llamadas de voz y video. SIP es un protocolo basado en texto que opera en la capa de aplicación del modelo OSI y utiliza los métodos INVITE, ACK, BYE, REGISTER, CANCEL, entre otros, para gestionar las sesiones.

Cuando un usuario inicia una llamada SIP, su dispositivo (User Agent) envía un mensaje INVITE al servidor SIP, que puede ser un Proxy o un Registrador. Este servidor localiza al destinatario y retransmite la solicitud. Si el receptor acepta la llamada, responde con un 200 OK, y el remitente confirma con un ACK, estableciendo la sesión. Durante la llamada, SIP no transporta la voz, sino que trabaja junto con RTP (Real-time Transport Protocol), que maneja la transmisión de audio y video. Al finalizar la conversación, un mensaje BYE cierra la sesión.

SIP permite flexibilidad en redes VoIP, soportando movilidad y características avanzadas como transferencia de llamadas y conferencias. Funciona sobre UDP (habitualmente en el puerto 5060) o TCP/TLS (para seguridad en el puerto 5061), garantizando comunicación eficiente y segura en entornos empresariales y de telecomunicaciones.

Calidad de Servicio (QoS)

Priorización del tráfico:

∘ DSCP (Differentiated Services Code Point): Marca los paquetes con valores como EF (Expedited Forwarding) para tráfico de voz.
∘ 802.1p (CoS - Class of Service): Define prioridades en redes Ethernet.

Control de congestión:

∘ Traffic shaping: Regula la tasa de envío de paquetes.
∘ Políticas de encolado: Se usan colas como PQ (Priority Queuing) o LLQ (Low Latency Queuing) para priorizar voz sobre otros datos.

Minimización de latencia y jitter:

∘ La latencia aceptable para VoIP es menos de 150 ms (ITU-T G.114).
∘ Se usan buffers adaptativos para reducir el jitter (variación en el tiempo de llegada de los paquetes).

Ancho de Banda

El ancho de banda necesario para VoIP depende del códec utilizado y del overhead de los protocolos de red:

Códec	Tasa de Bits	Ancho de Banda Real (con RTP/UDP/IP)
G.711	64 Kbps	80-90 Kbps
G.729	8 Kbps	24-30 Kbps
Opus	Variable (6-510 Kbps)	Depende de la configuración

Factores que afectan el ancho de banda:

∘ Overhead de la red: Cada paquete tiene encabezados RTP (12B), UDP (8B) e IP (20B), lo que agrega consumo adicional.
∘ Tamaño de los paquetes: Mayor tamaño reduce overhead, pero aumenta latencia.
∘ Número de llamadas simultáneas: Se debe calcular el ancho de banda total requerido.

Formato de numeración

El estándar E.164 define el formato de numeración para redes públicas de telefonía y VoIP. Se usa para identificar números de teléfono de manera única en todo el mundo.

El formato del número E.164 puede tener hasta 15 dígitos.

Incluye:

∘ Código de país (CC) (1 a 3 dígitos).
∘ Código de área o de red (National Destination Code - NDC).
∘ Número de suscriptor (SN).

Ejemplo de número E.164: +1 212 555 1234

+1 → Código de país (EE.UU.)
212 → Código de área (Nueva York)
5551234 → Número de abonado

En VoIP, los servidores SIP y los sistemas de enrutamiento pueden usar números en formato E.164 para enrutar llamadas entre redes VoIP y PSTN.

Funcionamiento

El funcionamiento de la VoIP se puede resumir en los siguientes pasos:

El usuario realiza una llamada: El teléfono IP, adaptador ATA o gateway VoIP envía una solicitud de llamada al servidor VoIP.
El servidor VoIP establece la llamada: El servidor VoIP utiliza protocolos de señalización como SIP para establecer la llamada entre los dos usuarios.
La voz se transmite a través de la red IP: La voz se divide en paquetes de datos que se transmiten a través de la red IP utilizando RTP.
La voz se reconstruye en el destino: Los paquetes de voz se reconstruyen en el destino y se convierten en señales de voz analógicas.

DSP

Un Procesador Digital de Señales (DSP) es un componente electrónico especializado diseñado para manipular señales de voz en formato digital. En el contexto de VoIP, los DSPs son fundamentales para el procesamiento y la optimización de las comunicaciones de voz a través de redes IP. Su función principal es transformar la voz analógica en datos digitales que pueden ser transmitidos por internet, y viceversa, convirtiendo los datos digitales recibidos en sonido audible.

Los DSPs desempeñan un papel crucial en la mejora de la calidad de las llamadas VoIP. Utilizan algoritmos complejos para reducir el ruido de fondo, eliminar el eco y ajustar automáticamente el volumen, lo que garantiza una comunicación clara y sin interrupciones. Además, los DSPs son responsables de la codificación y decodificación de la voz, utilizando códecs como G.711, G.729 y Opus para comprimir y descomprimir los datos de audio. Esta capacidad de compresión es esencial para optimizar el uso del ancho de banda, permitiendo que más llamadas se realicen simultáneamente sin sacrificar la calidad del sonido.

Además de la mejora de la calidad de la voz y la optimización del ancho de banda, los DSPs también juegan un papel importante en el manejo del jitter. El jitter se refiere a la variación en el tiempo de llegada de los paquetes de voz, lo que puede causar interrupciones y distorsiones en la comunicación. Los DSPs implementan buffers que almacenan temporalmente los paquetes de voz, compensando las variaciones en el tiempo de llegada y garantizando una reproducción de audio fluida y sin cortes. En resumen, los DSPs son componentes esenciales en la tecnología VoIP, actuando como "traductores" y "optimizadores" de la voz para asegurar comunicaciones eficientes y de alta calidad a través de internet.

RTP

El Protocolo de Transporte en Tiempo Real (RTP, Real-time Transport Protocol) es el protocolo utilizado en VoIP para la transmisión de datos en tiempo real, como la voz y el video. Su función principal es entregar los paquetes de audio y video con la menor latencia posible, asegurando una comunicación fluida. RTP trabaja sobre el protocolo UDP (User Datagram Protocol) en lugar de TCP, ya que UDP no requiere confirmación de recepción de los paquetes, evitando retrasos innecesarios.

Funcionamiento

Cuando un usuario habla en una llamada VoIP, la señal de voz se muestrea, cuantiza y codifica en pequeños fragmentos de datos. Estos datos se dividen en paquetes RTP, los cuales incluyen:

Cabecera RTP: Contiene información esencial como el número de secuencia (para reordenar paquetes), la marca de tiempo (para sincronización) y el tipo de carga útil (códec utilizado).
Carga útil (Payload): Es el contenido de audio o video codificado.

Estos paquetes son enviados a través de la red IP, y al llegar al destino, se reconstruye la señal de voz usando la información de la cabecera para corregir desorden, jitter y pérdidas parciales de paquetes.

RTP por sí solo no garantiza la calidad de la transmisión. Para mejorarla, suele combinarse con:

RTCP (Real-time Transport Control Protocol): Permite monitorear la calidad de la transmisión (latencia, jitter, pérdida de paquetes).
QoS (Quality of Service): Prioriza el tráfico de voz sobre otros datos en la red para minimizar retrasos y cortes.

Header

El header de RTP tiene 12 bytes y contiene varios campos esenciales para la correcta transmisión de datos en tiempo real. Version (2 bits) indica la versión del protocolo, usualmente 2. Padding (1 bit) señala si hay bytes adicionales de relleno al final del paquete. Extension (1 bit) indica si hay un encabezado extendido. CSRC Count (4 bits) define cuántos identificadores de fuentes de contribución están presentes. Marker (1 bit) puede señalar eventos especiales, como el inicio de una nueva unidad de datos. Payload Type (7 bits) especifica el códec de audio o video usado (por ejemplo, G.711, Opus). Sequence Number (16 bits) ayuda a reordenar los paquetes y detectar pérdidas. Timestamp (32 bits) marca el tiempo de muestreo para sincronizar la reproducción. SSRC (32 bits) identifica la fuente de la transmisión. CSRC List (0-15 entradas de 32 bits) identifica fuentes de contribución en sesiones de conferencia. Estos campos permiten que RTP garantice la entrega ordenada y sincronizada de audio y video en VoIP y otras aplicaciones en tiempo real.

Características

La tecnología VoIP presenta múltiples ventajas en comparación con la telefonía tradicional. Una de sus principales ventajas es el menor costo, ya que las llamadas VoIP suelen ser más económicas debido a la reducción en tarifas de larga distancia y el uso de Internet en lugar de líneas telefónicas dedicadas. Además, VoIP ofrece una mayor flexibilidad, permitiendo a los usuarios realizar llamadas desde cualquier ubicación con conexión a Internet, sin depender de una infraestructura física específica. Otra característica destacada es la inclusión de funciones avanzadas como correo de voz, conferencias y llamadas en espera, que amplían las capacidades de comunicación. Asimismo, VoIP permite la integración con otras aplicaciones empresariales como CRM y plataformas de mensajería instantánea, facilitando la gestión centralizada de la comunicación.

Sin embargo, VoIP también enfrenta ciertos desafíos. La calidad de la voz puede verse afectada por problemas técnicos como latencia, jitter y pérdida de paquetes, lo que puede degradar la experiencia del usuario. La seguridad es otro aspecto crítico, ya que las llamadas VoIP pueden ser vulnerables a ataques como la interceptación de datos y los ataques de denegación de servicio (DoS), requiriendo medidas de protección como cifrado y firewalls especializados. Además, VoIP depende completamente de la estabilidad y velocidad de la conexión a Internet, lo que significa que interrupciones en la red pueden afectar la capacidad de realizar llamadas de manera confiable.

Automatización de llamadas

Las operaciones automáticas dentro de las llamadas VoIP se realizan mediante la combinación de protocolos de señalización, servidores de aplicaciones y sistemas de respuesta interactiva, lo que permite funciones avanzadas como enrutamiento inteligente, desvío de llamadas, menús de voz y reconocimiento de voz.

El protocolo SIP (Session Initiation Protocol) es el encargado de gestionar el establecimiento y control de llamadas en VoIP. Cuando una llamada se origina, SIP coordina la sesión y, dependiendo de la configuración del servidor y sus reglas de enrutamiento, la llamada puede ser dirigida automáticamente a un agente, a otro número o a un sistema IVR.

Los sistemas IVR (Interactive Voice Response) permiten la automatización de respuestas sin intervención humana. A través de tonos DTMF (Dual-Tone Multi-Frequency) o reconocimiento de voz, los usuarios pueden interactuar con un menú preconfigurado para acceder a información o realizar acciones como consultas de saldo, generación de tickets o autenticaciones, mejorando la eficiencia en la gestión de llamadas.

En escenarios empresariales, plataformas como Asterisk, FreeSWITCH o BroadSoft permiten la creación de flujos automáticos de llamadas. Estas plataformas pueden integrarse con bases de datos y sistemas CRM mediante APIs RESTful o SIP Trunks, lo que habilita funciones como el enrutamiento dinámico basado en la identidad del usuario, la programación de llamadas según horarios de atención o la asignación de llamadas en función de la disponibilidad de los agentes.

El avance de la inteligencia artificial ha permitido el desarrollo de bots de voz que reemplazan los IVR tradicionales. Tecnologías como Google Dialogflow o Amazon Lex permiten que los asistentes de voz interpreten el lenguaje natural y automatizan respuestas sin depender de opciones numéricas, proporcionando una experiencia más fluida e intuitiva para los usuarios.

Call Manager

El Call Manager es un software de gestión de llamadas utilizado en entornos VoIP para centralizar el control de comunicaciones dentro de una red. Su función principal es gestionar el establecimiento, mantenimiento y terminación de llamadas, asegurando la correcta comunicación entre dispositivos como teléfonos IP, gateways y servidores de medios.

En el caso de Cisco Unified Communications Manager (CUCM), este actúa como un PBX basado en IP, ofreciendo características avanzadas como el enrutamiento de llamadas, integración con sistemas de correo de voz, conferencias, control de ancho de banda y soporte para múltiples protocolos de señalización como SIP, SCCP, H.323 y MGCP.

El Call Manager también administra políticas de calidad de servicio (QoS), asegurando que las llamadas de voz tengan prioridad sobre otros tipos de tráfico en la red. Además, permite la integración con soluciones de mensajería unificada, videollamadas y aplicaciones de colaboración empresarial, facilitando la automatización de procesos y mejorando la eficiencia en la comunicación corporativa.

En grandes empresas y operadores de telecomunicaciones, los Call Managers como Cisco Unified Communications Manager (CUCM), Asterisk, FreeSWITCH o BroadSoft son comunes, ya que centralizan la gestión de llamadas, políticas de QoS, y ofrecen integración con otros sistemas empresariales como CRM y IVR.

Los Call Managers suelen contar con una base de datos interna o externa para almacenar y gestionar información clave sobre la infraestructura de comunicaciones. Uno de los principales datos que se almacenan son los usuarios y sus extensiones, donde se guarda la configuración de cada usuario, su número de extensión, permisos y grupos de llamadas. Además, se administran las reglas de enrutamiento, que definen la lógica de cómo se dirigen las llamadas dentro de la red VoIP, estableciendo prioridades y condiciones específicas para su correcta gestión.

Otro aspecto fundamental es el almacenamiento de los registros de llamadas, conocidos como Call Detail Records (CDR), que contienen información detallada sobre las llamadas realizadas, incluyendo el número de origen, el destino, la duración y los costos asociados. También se mantiene la configuración de los dispositivos conectados a la red, como teléfonos IP y gateways, lo que permite su correcta administración y monitoreo. Finalmente, la base de datos del Call Manager puede contener información relacionada con la seguridad y autenticación, almacenando credenciales cifradas y políticas de acceso para usuarios y dispositivos VoIP, asegurando así un entorno de comunicación seguro y eficiente.

En sistemas como Cisco Unified Communications Manager (CUCM), se usa una base de datos Informix para almacenar esta información, mientras que plataformas como Asterisk pueden usar MySQL, PostgreSQL o SQLite según la configuración. Esta base de datos permite que el Call Manager administre llamadas de manera eficiente y brinde funcionalidades avanzadas como reportes, monitoreo y control de calidad de servicio (QoS).

Cisco Unity Connection

Cisco Unity Connection es una plataforma de mensajería unificada que ofrece servicios de correo de voz, integración con correo electrónico y funcionalidades avanzadas de comunicación dentro de un entorno empresarial. Su objetivo principal es proporcionar una gestión eficiente de los mensajes de voz con capacidades de accesibilidad desde distintos dispositivos y redes.

Funcionamiento

Cisco Unity Connection opera como un servidor de mensajería unificada que se integra con los sistemas de telefonía IP, como Cisco Unified Communications Manager (CUCM), utilizando protocolos como SIP y SCCP. Cuando un usuario no responde una llamada, el sistema redirige la comunicación al servidor de Unity Connection, donde el mensaje de voz se graba y se almacena en su base de datos. Dependiendo de la configuración, el usuario puede acceder a sus mensajes desde un teléfono IP, un cliente de correo electrónico (mediante IMAP o Exchange) o una interfaz web.

El sistema también soporta la conversión de voz a texto (SpeechView), lo que permite a los usuarios recibir transcripciones de sus mensajes de voz por correo electrónico. Además, Unity Connection puede integrarse con directorios corporativos para autenticación y gestión centralizada de usuarios.

Prestaciones

∘ Correo de voz avanzado: Permite el almacenamiento y gestión de mensajes de voz con acceso a través de múltiples dispositivos.
∘ Integración con correo electrónico: Puede sincronizar mensajes de voz con plataformas como Microsoft Exchange y Office 365, permitiendo a los usuarios recibir y gestionar sus mensajes desde su bandeja de entrada.
∘ Accesibilidad multiplataforma: Los mensajes pueden ser consultados desde teléfonos IP, aplicaciones móviles, interfaces web o clientes de correo electrónico.
∘ Conversión de voz a texto (SpeechView): Transcribe los mensajes de voz y los envía por correo electrónico para su lectura.
∘ Soporte para IVR y respuestas automáticas: Permite configurar menús interactivos y flujos de llamadas para automatizar la comunicación dentro de una empresa.
∘ Mensajería unificada: Consolida los mensajes de voz y notificaciones en un solo sistema accesible desde diferentes medios.
∘ Alta disponibilidad y redundancia: Puede configurarse en entornos de alta disponibilidad para garantizar la continuidad del servicio en caso de fallos.
∘ Seguridad y autenticación: Soporta cifrado, autenticación de usuarios mediante directorios LDAP y control de acceso basado en roles.

Cisco Unity Connection es una solución avanzada para la gestión de mensajes de voz en entornos corporativos, diseñada para optimizar la comunicación y la productividad mediante una experiencia centralizada y flexible.

Para empresas que requieren comunicación en tiempo real con funciones de mensajería instantánea, Cisco ofrece opciones como Cisco Jabber y Cisco Webex, que permiten chats, presencia y colaboración en equipo. Estos pueden integrarse con Unity Connection, facilitando la recepción de notificaciones de correo de voz dentro de un entorno unificado de comunicación.

Configuración

El proceso de inicio de un teléfono VoIP generalmente comienza con la alimentación a través de PoE (Power over Ethernet), lo que le permite recibir energía directamente del cable UTP. Una vez encendido, el teléfono carga su firmware, el software interno que controla su funcionamiento. Es común que el teléfono detecte la VLAN (Red Local Virtual) en la que está configurado, utilizando protocolos como LLDP o CDP para obtener esta información de los equipos de capa 2. La VLAN es crucial para separar el tráfico de voz del tráfico de datos en la red, garantizando la calidad de las llamadas.

A continuación, el teléfono envía una solicitud DHCP (Protocolo de Configuración Dinámica de Host) para obtener una dirección IP, máscara de subred, puerta de enlace y servidores DNS. Una vez que tiene una dirección IP, utiliza TFTP (Protocolo de Transferencia de Archivos Trivial) para descargar su archivo de configuración. Este archivo contiene parámetros específicos del teléfono, como la dirección del Call Manager, números de extensión y otras configuraciones. Con la información del Call Manager, el teléfono se conecta y se registra, lo que le permite al Call Manager gestionar sus llamadas.

Durante una llamada, la voz se digitaliza, se empaqueta en paquetes RTP (Protocolo de Transporte en Tiempo Real) y se transmite a través de la red IP. Se utilizan códecs para codificar y decodificar la voz, lo que afecta la calidad de la voz y el ancho de banda utilizado. Además, se utilizan protocolos de señalización como SIP (Protocolo de Inicio de Sesión) para establecer, mantener y finalizar las llamadas. Es fundamental implementar QoS (Calidad de Servicio) en la red para priorizar el tráfico de voz y garantizar una buena calidad de las llamadas.

En entornos de red modernos, la implementación de una VLAN de voz es esencial para garantizar una comunicación clara, priorizada y segura para el tráfico de telefonía IP (VoIP). Al segmentar el tráfico de voz en una VLAN dedicada, se mejora la calidad del servicio (QoS), se reduce la latencia y se minimizan las interferencias con otros tipos de tráfico de datos.

A continuación, se detallan los pasos necesarios para implementar correctamente una VLAN de voz.

❍ Switch 0

C:\Windows\system32\cmd.exe

Switch (config)# vlan 50
Switch (config-vlan)# name Voice
Switch (config-vlan)# vlan 10
Switch (config-vlan)# name Data
Switch (config-vlan)# exit

Switch (config)# interface f0/2
Switch (if-config)# switchport mode access
Switch (if-config)# switchport access vlan 10
Switch (if-config)# switchport voice vlan 50
Switch (if-config)# spanning-tree portfast   ! Habilita PortFast para evitar retardos en el arranque

Switch (config)# interface f0/3
Switch (if-config)# switchport mode access
Switch (if-config)# switchport access vlan 10
Switch (if-config)# switchport voice vlan 50
Switch (if-config)# spanning-tree portfast   ! Habilita PortFast para evitar retardos en el arranque

Switch (config)# interface f0/1
Switch (if-config)# switchport trunk native vlan 10
Switch (if-config)# switchport trunk encapsulation dot1q
Switch (if-config)# switchport mode trunk

❍ Router 0

C:\Windows\system32\cmd.exe

Router (config)# ip dhcp excluded-address 10.10.0.1 10.10.0.10
Router (config)# ip dhcp excluded-address 10.50.0.1 10.50.0.10
Router (config)# ip dhcp pool DATA
Router (dhcp-config)# network 10.10.0.0 255.255.255.0
Router (dhcp-config)# default-router 10.10.0.1
Router (dhcp-config)# dns-server 10.10.0.1
Router (dhcp-config)# exit
Router (config)# ip dhcp pool VOICE
Router (dhcp-config)# network 10.50.0.0 255.255.255.0
Router (dhcp-config)# default-router 10.50.0.1
Router (dhcp-config)# dns-server 10.50.0.1
Router (dhcp-config)# option 150 ip 10.50.0.1
Router (dhcp-config)# exit

Router (config)# interface f0/0.10
Router (config-subif)# encapsulation dot1q 10
Router (config-subif)# ip address 10.10.0.1 255.255.255.0
Router (config-subif)# no shutdown
Router (config-subif)# exit

Router (config)# interface f0/0.50
Router (config-subif)# encapsulation dot1q 50
Router (config-subif)# ip address 10.50.0.1 255.255.255.0
Router (config-subif)# no shutdown
Router (config-subif)# exit

Router (config)# tftp-server flash:/P0030702T023.loads alias P0030702T023.loads
Router (config)# tftp-server flash:/P0030702T023.bin alias P0030702T023.bin
Router (config)# tftp-server flash:/P0030702T023.sbn alias P0030702T023.sbn
Router (config)# tftp-server flash:/P0030702T023.sb2 alias P0030702T023.sb2

Router (config)# telephony-service
Router (config-telephony)# max-ephones 24   ! Número de telefonos IP soportados
Router (config-telephony)# max-dn 48    ! Número de extensiones soportadas
Router (config-telephony)# load 7960 P0030702T023 ! Carga el firmware del teléfono IP 7960
Router (config-telephony)# ip source-address 10.50.0.1 port 2000 ! Dirección IP del router para el tráfico de voz
Router(config-telephony)# auto assign 1 to 3 ! Asigna automáticamente las extensiones a los teléfonos IP
Router(config-telephony)# keepalive 100 ! Mantiene la conexión activa con los teléfonos IP
Router (config-telephony)# create cnf-files    ! Crea los archivos de configuración para los teléfonos IP
Router (config-telephony)# end
Router # show telephony-service tftp-bindings ! Verifica que los archivos de configuración se hayan creado correctamente
Router # show dhcp binding ! Verifica que los teléfonos IP hayan recibido una dirección IP
Router # show ephone ! Verifica que los teléfonos IP estén registrados correctamente

Router # configure terminal
Router (config)# ephone-dn 1
Router (config-ephone-dn)# number 1001
Router (config-ephone-dn)# exit

Router (config)# ephone-dn 2 dual-line ! Configura una línea dual para el teléfono
Router (config-ephone-dn)#  number 1002
Router (config-ephone-dn)# exit

Router (config)# ephone 1
Router (config-ephone)# mac-address 00E0.FB12.3456 ! Dirección MAC del teléfono IP
Router (config-ephone)# button 1:1 ! Asocia la extensión 1001 al botón 1 del teléfono
Router (config-ephone)# exit

Router (config)# ephone 2
Router (config-ephone)# mac-address 00E0.FB12.3457 ! Dirección MAC del teléfono IP
Router (config-ephone)# button 1:2 ! Asocia la extensión 1002 al botón 2 del teléfono
Router (config-ephone)# end
Router # show ephone
Router # copy running-config startup-config ! Guarda la configuración en la memoria NVRAM

Verificar archivos en la memoria flash (configuración del TFTP):

❍ NTP

El protocolo NTP (Network Time Protocol) es esencial para sincronizar la hora en routers, switches y otros dispositivos de red, lo que facilita la correlación de logs, seguridad (como certificados digitales) y operaciones de red.

C:\Windows\system32\cmd.exe

Router # configure terminal
Router (config)# ntp server 0.pool.ntp.org  
Router (config)# ntp server 1.pool.ntp.org  
Router (config)# clock timezone CST -6      ! Hora estándar de Ciudad de México (UTC-6)
Router (config)# clock summer-time CDT recurring  ! Horario de verano (UTC-5)
Router (config)# end
Router # show ntp associations

Ajustar la hora manualmente (si no hay NTP disponible):

❍ Cisco Call Manager

Cisco Call Manager (ahora Cisco Unified Communications Manager o CUCM) es una plataforma de gestión de llamadas IP que permite administrar teléfonos IP, gateways y otros dispositivos VoIP. Para que un usuario pueda conectarse a través de la GUI, es necesario configurarlo correctamente en CUCM.

C:\Windows\system32\cmd.exe

Router # configure terminal
Router (config)# interface f0/0
Router (config-if)# ip address 10.10.0.1 255.255.255.0
Router (config-if)# no shutdown
Router (config-if)# exit

Router (config)# username paco privilige 15 secret Cisco1234
Router (config)# ip http server
Router (config)# ip http secure-server
Router (config)# line vty 0 4
Router (config)# login local
Router (config)# transport telnet ssh

Router (config)# telephony-service
Router (config-telephony)# ?    ! Este comando muestra la lista de comandos disponibles
Router (config-telephony)# end
Router # show ephone    ! Este comando muestra información sobre los teléfonos IP (ephones) registrados