sábado, 17 de noviembre de 2012



 EL CODEC DE VIDEOCONFERENCIA
La palabra codec significa Codificador/Decodificador. El codec codifica las entradas de audio, vídeo y datos del usuario, y las combina o multiplexa para su transmisión en forma de una cadena digital de datos a una sala de videoconferencia remota. Cuando el codec recibe las cadenas de datos digitales provenientes del punto remoto, separa o demultiplexa el audio, el vídeo y los datos de información del usuario, y decodifica la información de tal manera que puede ser vista, escuchada ó dirigida hacia un dispositivo periférico de salida situado en la sala de conferencia local.
Este ha sido el rol dominante de un codec desde la década de los ochenta y continúa siendo su responsabilidad primordial en la mayoría de los sistemas de videoconferencia de hoy.
El sistema de distribución de vídeo se ha movido hacia dentro del codec, junto con el sistema de control central, mezclador de audio, amplificador y cancelador de eco. Así mismo, las cámaras, micrófonos, bocinas y paneles de control continúan estando fuera del codec, pero se conectan directamente a él.
Ante toda esta gama de posibilidades que intervienen en el diseño de un codec, es necesario asegurar la compatibilidad hacia los equipos de otros fabricantes, compatibilidad que debe de considerarse también cuando se desee adquirir un equipo de videoconferencia.
Durante este capítulo, se describirá solamente al codec de vídeo, componente principal del codec de videoconferencia, que se encuentra definido por la recomendación H.261 ó PX64.
 EL ESTÁNDAR H.320 UNA INTRODUCCION A PX64.
En Diciembre de 1990, la CCITT finalizó una serie de cinco recomendaciones (H.261, H.221, H.242, H.230 y H.320), las cuales definen en conjunto a una terminal audiovisual para proveer los servicios de vídeo teleconferencia (VTC) y videotelefonía (VT), sobre la Red Digital de Servicios Integrados (ISDN). Debido a que el bloque básico de construcción de ISDN es un canal básico operando a 64 Kbps , el término genérico "PX64 Kbps" se refiere a la operación de estas terminales con valores integrales de P con un máximo de 30 kbps. (los valores de P de mayor interés son 1, 2, 6, 12, 24 y 30 kbps).
La recomendación de CCITT H.320 define la relación entre las cinco recomendaciones como se muestra en la figura 5-1. Entre las funciones de la recomendación H.320 se encuentran la definición de las fases del establecimiento de una llamada en un teléfono visual y la definición de 16 tipos diferentes de terminales audiovisuales y de sus respectivos modos de operación.
Figura 5-1 Estándar H.320
 EL ESTÁNDAR H.261.
Si la señal estándar de vídeo fuera digitalizada empleando el método común PCM (Modulación por codificación de pulsos) de 8 bits, se requeriría de un ancho de banda de aproximadamente 90 Mbps para su transmisión.
Las tecnologías de videocompresión se emplean para reducir este valor a los valores primarios (1.544 Mbps y 2.048 Mbps), o a valores básicos (64 Kbps o múltiplos de estos como 384 Kbps). La función de compresión es ejecutada por un vídeo codec (COdificador, DECodificador), H.261 es recomendada para los codecs de videoconferencia.
La figura 5-2 es el diagrama a bloques de un codec de vídeo como lo define la recomendación H.261.
Figura 5-2 Diagrama a bloques de un codec de vídeo.
 Componentes principales de Vídeo Codec según el estándar H.261.
 Codificador Fuente: El corazón del sistema es el codificador fuente el cual comprime el vídeo que se introduce evitando las redundancias inherentes de la señal de TV.El codificador fuente opera sobre imágenes basadas en un formato intermedio común (CIF) que emplean 625 líneas y 50 Hz de velocidad de cuadros. Surgió después un segundo formato denominado QCIF (un cuarto de CIF). Los parámetros de CIF y QCIF se definen en la tabla 5-1.
Tabla 5-1 Parámetros CIF y QCIF.
El formato QCIF, que emplea la mitad de la resolución espacial del formato CIF en direcciones vertical y horizontal, es el formato principal para H.261. El formato CIF es opcional. Esta anticipado que QCIF será empleado para aplicaciones de videoteléfono donde imágenes de cabeza y hombros son envíados, mientras que el formato CIF será utilizado para videoconferencias donde diversas personas deberán ser vistas en una sala de conferencia. Para el estándar H.261 se adoptó un método de compresión de vídeo híbrido, el cual incorpora principalmente una técnica de predicción dentro de las imágenes para evitar redundancias temporales y la codificación de la transformada para reducir la redundancia espacial. El decodificador cuenta con la capacidad de compensar el movimiento.
 Estructura de la imagen: En el proceso de codificación, que se realiza dentro del codificador fuente, cada imagen es dividida en grupos de bloques (GOB), la imagen CIF es dividida en 12 GOB mientras que la imagen QCIF es dividida en solo 3 GOB. Cada GOB es entonces dividido en 33 macrobloques, (ver la figura 5-3). El encabezado del macrobloque define la localización del macrobloque dentro del GOB, el tipo de codificación ha ser ejecutada, los vectores de movimiento posibles y cuáles bloques dentro de los macrobloques serán codificados. Existen dos tipos básicos de codificación: intra e inter. En la codificación intra, la codificación es ejecutada sin referencia a las imágenes previas. Cada macrobloque deberá ser ocasionalmente intracodificado, para controlar la acumulación de error de acoplamiento en la transformada inversa. El tipo de codificación más común es el inter, en el cual solamente la diferencia entre la imagen previa y la actual es codificada. Por supuesto para áreas de imagen sin movimiento, el macrobloque no tiene que ser codificado del todo. Cada macrobloque es dividido a su vez en seis bloques (ilustrado en la figura 5-3). Cuatro de los bloques representan la luminancia o brillantez (Y), mientras que los otros dos representan las diferencias de color de rojo y azul (Cr y Cb respectivamente). Cada bloque mide 8 X 8 pixeles, así que puede verse que la resolución de color es la mitad de la resolución de la luminancia en ambas dimensiones. Cada bloque típicamente tiene energía esparcida en todos sus elementos.
Figura 5-3 Subdivisiones en un GOB y en un macrobloque.
 El Multiplexor de Video: El multiplexor combina los datos comprimidos con otro tipo de información que indica los modos alternos de operación. El multiplexor esta dimensionado en una estructura jerárquica con cuatro capas: la capa de imagen, capa de grupo de bloques (GOB), Macrobloques (MB) y Bloques.
Un diagrama de sintaxis del codificador multiplexor de video se muestra en la figura5-4.
Figura 5-4 Diagrama de sintaxis para el codificador multiplexor de vídeo.
Capa de Macrobloques: Cada GOB es dividido en 33 macrobloques. Un macrobloque relaciona a 16 pixeles por 16 líneas de Y (luminancia) y a 8 pixeles por 8 líneas para los componentes de crominancia rojo y azul.
 Buffer de Transmisión: Un buffer de transmisión es empleado para suavizar los cambios en las variaciones de la velocidad de transmisión del codificador fuente para adaptarlo a un canal de comunicaciones con velocidades variables.
 Codificador de Transmisión: El codificador de transmisión incluye funciones de control de error para preparar la señal para el enlace de datos.
Cuando se opera con CIF el número de bits creados al codificar cualquier imagen sencilla no deberá exceder 256 Kbits. K = 1024. Cuando se opera con QCIF el número de bits creados por la codificación de cualquier imagen sencilla no deberá exceder 64 K bits. La contabilidad de bits no incluye los bits de corrección de error, Indicador de llenado (Fi), bits de llenado o información de corrección de error de paridad.
Los datos de vídeo deberán ser provistos en cada ciclo de reloj válido. Esto puede asegurarse por el uso de el bit indicador de llenado (Fi) ó el llenado subsecuente de bits con valor 1 en el bloque de corrección de error, o también mediante el relleno de MBA o ambos.
 Retardo en la codificación del vídeo.
Esta característica esta incluida en la recomendación debido a que el retardo en el codificador y decodificador de vídeo necesita ser conocido para permitir la compensación en el retardo cuando H.261 es utilizada para formar parte de un servicio convencional. Esto permitirá mantener la sincronización de los labios.
 Corrección de errores para la señal de vídeo codificada.
La cadena de bit transmitida contiene un código de corrección de errores de trama, el cual consiste de una multitrama de 8 tramas, cada trama comprende un bit de trama , 1 bit de indicador de llenado (Fi), 492 bits de datos codificados (ó llenados todos con 1s) y 18 bits de paridad. El patrón de alineación de la trama es:
(S1S2S3S4S5S6S7S8) = (00011011)
El indicador de llenado (Fi) puede ser puesto en cero por un codificador. En este caso, solamente los 492 bits de llenado (todos con valor 1) mas los bits de paridad son enviados y no son transmitidos los datos codificados.
ESTÁNDARES RELACIONADOS CON H.261.
 Estándar H.221: Estructura de la trama de comunicaciones para un canal de 64 a 1920 Kbps en teleservicios audiovisuales.
El propósito de esta recomendación es definir la estructura de la trama de comunicaciones para los teleservicios audiovisuales en un canal de 64 Kbps múltiple ó sencillo ó canales de 1.536 Kbps y 1.920 Kbps los cuales hacen el mejor uso de las propiedades y características de los algoritmos de codificación de audio y vídeo, de la estructura de trama de comunicaciones y de las recomendaciones existentes. Ofrece las siguientes ventajas:
  • Es simple, económica y flexible. Puede ser implementada en un simple microprocesador utilizando principios de hardware bien conocidos.
  • Es un procedimiento síncrono. El tiempo exacto de cambio de configuración es el mismo en el receptor y en el transmisor. Las configuraciones pueden ser cambiadas en intervalos de 20 milisegundos.
  • No necesita de enlace de retorno para la transmisión de la señal audiovisual, debido a que una configuración esta señalizada por códigos que se transmiten repetidamente.
  • Es muy segura en caso de transmisión de errores, debido a que el código que controla al multiplexor esta protegido por un doble código de corrección de errores.
  • Permite las sincronización de múltiples conexiones a 64 o 384 Kbps y el control del multiplexado de audio, vídeo, datos y otras señales dentro de la estructura de la multiconexión sincronizada en el caso de servicios multimedia como el de videoconferencia.
Esta recomendación provee de la subdivisión dinámica o de un uso total de un canal de transmisión de 64 a 1.920 Kbps dentro de velocidades más bajas utilizadas para audio, vídeo, datos y propósitos telemáticos. Un canal simple de 64 Kbps está estructurado dentro de octetos transmitidos a 8 Khz. La posición de cada bit del octeto puede ser considerada como un subcanal de 8 Kbps. El octavo subcanal es denominado el canal de servicio (SC), el cual contiene las dos partes críticas enlistadas a continuación:
 FAS (Señal de alineación de la trama): Este código de 8 bits es utilizado para situar los 80 octetos de información en un canal B (64 Kbps).
 BAS (Señal de control de velocidad de transmisión de los bits): Este código de 8 bits describe la habilidad de una terminal de estructurar la capacidad de un canal o canales múltiples sincronizados de varias maneras, y dirigir un receptor para demultiplexar y hacer uso de las señales constituyentes es esa estructura. Esta señal es utilizada también para control y señalización.
La cadena de bits de vídeo es transportada en tramas de datos. Cada trama corresponde a un canal B de 64 Kbps en ISDN. Se muestran dos tramas. Una para la porción de audio de la conferencia y otra para la porción de vídeo. En cada uno de ellas, hay 8 bits de señal de alineación de la trama (FAS) que permiten la sincronización de la trama y la señalización de baja velocidad del gasto de la línea de comunicación. Hay también una señal de 8 bits de control de la velocidad (BAS) que define cómo es que están divididos los canales y subcanales H.221 y qué tipo de servicio es utilizado en cada sección. Por ejemplo un código BAS es utilizado para indicar "estándar de vídeo, recomendación H.261", mientras que otro podría indicar que dos canales B están asignados a este servicio. Los códigos BAS pueden cambiar de trama a trama para indicar protocolos complejos o cambios de modo de operación.
 Estándar H.242: Sistema para el establecimiento de la comunicación entre dos terminales audiovisuales usando canales digitales de mas de 2 Mbps.
La recomendación H.242 define el protocolo detallado de comunicación y los procedimientos que son empleados por las terminales H.320. Los principales tópicos cubiertos por esta recomendación se listan a continuación:
  • Secuencias básicas para la utilización de los canales de transmisión.
  • Modos de operación, de inicialización, modo dinámico de cambio y modo de recuperación forzada para condiciones de falla.
  • Consideraciones de red: llamado a conexión, desconexión y llamado a transferencia.
  • Procedimiento para la activación y desactivación de los canales de datos.
  • Procedimiento para la operación de terminales en redes restringidas.
Estándar H.230: Control síncrono de trama e indicadores de señales para sistemas audiovisuales. Los servicios audiovisuales digitales son provistos por un sistema de transmisión en el cual, las señales relevantes son multiplexadas dentro de un patrón digital. Además de la información de audio, vídeo, datos de usuario, estas señales incluyen información utilizada para el funcionamiento adecuado del sistema. La información adicional ha sido llamada de "control e indicación" (C&I) para reflejar el hecho de que mientras algunos bits están genuinamente para el "control", causando un estado de cambio en algún otro lado en el mismo sistema, otros proveen de las indicaciones para los usuarios como para el funcionamiento del sistema.
La recomendación H.230 tiene dos elementos primarios. El primero, define a los símbolos C&I relacionados al vídeo, audio, mantenimiento y multipunto. Segundo, contiene la tabla de códigos de escape BAS los cuales especifican las circunstancias bajo las cuales algunas funciones C&I son prioritarias y otras opcionales.
 CODIFICACIÓN DE AUDIO.
Los códigos BAS de H.221 son utilizados para la señalización de una amplia gama de modos de codificación de audio posibles. Los modos más prominentes se definen en las recomendaciones G.711 y G.722. La recomendación G.711 (Modulación por código de pulsos de frecuencias de la voz) es utilizada para la voz y es muestreada a 8.000 muestras/segundo y codificada a 8 bits /muestra para una velocidad de 64 Kbps.
La recomendación G.722 (Codificación de audio de 7 khz con 64 Kbps) describe las características de un sistema de codificación de audio (50 a 7 000 Hz) el cual puede ser utilizado en una gran variedad de aplicaciones de voz de una mayor calidad. El sistema de codificación utiliza la modulación adaptativa diferencial de la subbanda para pulsos codificados (SB-ADPCM) para una velocidad de 64 Kbps, En la técnica SB-ADPCM utilizada, la banda de frecuencia es dividida dentro de dos subbandas (mayor y menor) y las señales en cada subbanda son codificadas utilizando ADPCM. El sistema tiene tres modos básicos de operación correspondientes a las velocidades de transmisión utilizadas para la codificación de audio de 7 khz: 64, 56 y 48 Kbps.
G.728 es una nueva recomendación utilizada para la transmisión de voz de buena calidad a 16 Kbps.
 MULTIPUNTO: Hasta ahora, no existe un estándar para la operación multipunto de las terminales H.320/Px64. Sin embargo se esta trabajando en dos recomendaciones para cubrir este rubro.
  • AV.231 Unidad de control multipunto para los servicios audiovisuales.
  • AV.243 Sistema para el establecimiento de comunicación entre tres o más terminales audiovisuales usando canales digitales arriba de 2 Mbps.
 PRIVACÍA: Se encuentra trabajando activamente en la recomendación para proveer la privacía de la transmisión entre las terminales audiovisuales. Un sistema de privacía consiste de dos partes; el mecanismo de confidencialidad o proceso de descripción para los datos, y el subsistema de administración de las claves.
  • H.233 Documento que describe a los sistemas de confidencialidad para los servicios audiovisuales. Este documento describe la parte de confidencialidad de un sistema de privacía apropiado para su utilización en servicios audiovisuales de banda angosta conforme a las recomendaciones H.221, H.230 y H.242. Aún cuando se requiere de un algoritmo de descripción, para este sistema de privacía, ningún algoritmo esta indicado.
  • H.KEY Documento sobre el sistema de autenticidad y administración de las claves de descripción para los servicios audiovisuales. Este documento describe la autenticidad y los métodos de administración de las claves para un sistema de privacía apropiado para ser utilizado en servicios audiovisuales de banda angosta que cumplan con las recomendaciones H.221, H.230 y H.242. La privacía es alcanzada por el uso de claves secretas, las claves son cargadas dentro de la parte de confidencialidad del sistema de privacía y controlan la manera en la cual los datos son transmitidos. Si una tercera parte gana acceso a las claves que están siendo utilizadas, entonces el sistema de privacía no será seguro.
 RED DIGITAL DE SERVICIOS INTEGRADOS, (ISDN).
La Red Digital de Servicios Integrados (ISDN), esta dividida en dos partes: de banda angosta (N-ISDN) y de banda ancha (B-ISDN). N -ISDN opera a velocidades iguales o menores que las velocidades primarias (por ejemplo 1.544 mbps), mientras que la B-ISDN opera a velocidades por encima de las velocidades primarias.
 Red Digital de Servicios Integrados de Banda Angosta, (N-ISDN).
ISDN es una evolución de la Red Digital Integrada (RDI) telefónica a la cual se agregan nuevas funciones y características para proporcionar nuevos servicios. De acuerdo a la recomendación ITU-T(sector de estandarización en Telecomunicaciones de la Unión Internacional de Telecomunicaciones), la principal característica del concepto de ISDN es el soporte de un amplio rango de aplicaciones sobre la misma red. ISDN se desarrolló para proporcionar un conector de acceso universal a una variedad de servicios ofrecidos dentro de la red pública evitando así el tener diferentes conexiones a diferentes tipos de redes (red pública telefónica conmutada, líneas telefónicas privadas analógicas y digitales, telex y redes de conmutación de paquetes).
ISDN debe ser capaz de ofrecer servicios de fax, teletex (una forma de correo electrónico para uso doméstico y de negocios), videotex (acceso interactivo a bases de datos), telemetría, alarmas, etc. En su acceso básico destinado para uso doméstico y de pequeños negocios, ISDN proporciona una interfaz digital con dos canales B que trabajan en modo de circuitos a 64 Kbps para transmisión de voz o datos, y un canal D de 16 Kbps para transmitir principalmente información de control y señalización, ofreciendo entonces una capacidad total de 144 Kbps. Los canales B y D se transmiten en tramas síncronas de 48 bits, que incluyen información de control. Para empresas que necesitan mayor capacidad de transmisión, ISDN proporciona en su acceso primario 23 canales B y un canal D a 64 Kbps (23B+D); esta elección de canales permite transportar una trama del acceso primario en un enlace T1 de 1.544 Mbps. En el estándar europeo se utiliza un enlace E1 a 2.048 Mbps para transportar 30 canales B y uno D (30B+D). El acceso primario permite el agrupamiento de canales B para formar canales de mayor velocidad:H0 (384 Kbps), H11 (1536 Kbps) y H12 (1920 Kbps).
 Red Digital de Servicios Integrados de Banda Ancha (B-ISDN).
La Red Digital de Servicios Integrados de Banda Ancha (Broadband- ISDN) es una extensión de ISDN en servicios y velocidades, cuyo objetivo es transportar de manera integral voz, datos y video en la misma red. La recomendación I.211 del ITU-T agrupa a los servicios que puede ofrecer B-ISDN en dos tipos: interactivos, en los que el intercambio de información, entre dos usuarios o entre un usuario y un prestador de servicios es bidireccional y, de distribución, en los que el intercambio de información es primordialmente unidireccional, de un prestador de servicios a los usuarios. Los servicios interactivos incluyen los servicios convencionales, de mensajería y de recuperación de información, mientras que los servicios de distribución se subdividen en servicios de difusión , en los que el usuario no tiene control sobre la presentación de la información que recibe, y servicios cíclicos, que permiten al usuario acceder a la información de manera selectiva. Como ejemplos posibles proporcionados por B-ISDN podemos citar: videotelefonía, videoconferencia de banda ancha, vigilancia por vídeo, interconexión de redes locales, telefax de alta velocidad, transferencia de archivos voluminosos, correo electrónico con vídeo, vídeotex de banda ancha, educación a distancia, acceso a bibliotecas, televisión de alta definición, y periódicos electrónicos entre otros.
La necesidad de tener canales cuya velocidad de transmisión varíe de acuerdo al tráfico implica que, aunque algunos servicios (voz y vídeo) necesitan ancho de banda garantizado, otros podrían implantarse usando recursos multiplexados estadísticamente para no desperdiciar ancho de banda. En B- ISDN se conoce a los aspectos de conmutación y multiplexaje utilizados en la red como el modo de transferencia.
B-ISDN utiliza un modo de transferencia asíncrono (ATM) a diferencia de N-ISDN, el cual utiliza el modo de transferencia síncrono (STM). STM aunque funciona muy bien para servicios que requieren de canales de velocidades fijas, no es eficiente para soportar los servicios por ráfagas de B-ISDN. STM tiene problemas para manejar una mezcla dinámica de servicios que utilizan una variedad de canales de velocidades diferentes debido a que su estructura es muy rígida. Mientras que ISDN utiliza canales de velocidades fijas, B-ISDN utiliza canales de velocidades variables. B-ISDN se encuentra aún en estudio, y se encuentran realizando experimentos pilotos en Japón , Australia y muchos países europeos, con el propósito de establecer en un futuro cercano redes públicas de telecomunicaciones que ofrezcan los servicios mencionados y más.
 ESTÁNDARES ISO PARA ALMACENAMIENTO Y RECUPERACIÓN AUDIOVISUAL.
 El Estándar MPEG (Grupo de Expertos en Imágenes en Movimiento).
La organización de estándares ISO ha establecido un grupo de trabajo, conocido como MPEG (Grupo de expertos en imagen en movimiento), para desarrollar tres estándares para la codificación de las señales audiovisuales para su almacenamiento en medios digitales. Las velocidades para los tres estándares (MPEG1, MPEG2, MPEG3) son de 1.5, 10 y 40 mbps respectivamente. El estándar MPEG1 tiene tres partes o capas, (Sistemas, vídeo, audio) los cuales son especificados brevemente a continuación.
  • Capa de sistemas: Una cadena de bit ISO está construida en dos capas, la capa externa es la capa de sistema y la capa interna denominada capa de compresión. La capa de sistema provee las funciones necesarias para el uso de una o más cadenas de bits comprimidas en un sistema. Las partes de vídeo y audio de esta especificación definen la capa de codificación de compresión para los datos de audio y vídeo. La codificación de otro tipo de datos no esta definida por la especificación, pero son soportadas por la capa de sistema, permitiendo que otros tipos de datos sean adheridos a la compresión del sistema. La capa de sistema soporta cuatro funciones básicas: la sincronización de múltiples cadenas comprimidas durante la reproducción, el entrelazado de múltiples cadenas comprimidas en una sola cadena, la inicialización del buffer para la reproducción inicial y la identificación de la hora.
  • Codificación de vídeo: El estándar MPEG especifica la representación codificada de vídeo para medios de almacenamiento digital y especifica el proceso de decodificación. La representación soporta la velocidad normal de reproducción así como también la función especial de acceso aleatorio, reproducción rápida, reproducción hacia atrás normal, procedimientos de pausa y congelamiento de imagen. Este estándar internacional es compatible con los formatos de televisión de 525 y 625 líneas y provee la facilidad de utilización con monitores de computadoras personales y estaciones de trabajo. Este estándar internacional es aplicable primeramente a los medios de almacenamiento digital que soporten una velocidad de transmisión de más de 1.5 Mbps tales como el Compact Disc, cintas digitales de audio y discos duros magnéticos. El almacenamiento digital puede ser conectado directamente al decodificador o a través de vías de comunicación como lo son los bus, LAN o enlaces de telecomunicaciones. Este estándar internacional esta destinado a formatos de vídeo no interlazado de 288 líneas de 352 pixeles aproximadamente y con velocidades de imagen de alrededor de 24 a 30 Hz.
  • Codificación de audio: Este estándar especifica la representación codificada de audio de alta calidad para medios de almacenamiento y el método para la decodificación de señales de audio de alta calidad. Es compatible con los formatos corrientes(Compact disc y cinta digital de audio) para el almacenamiento y reproducción de audio. Esta representación soporta velocidades normales de reproducción. Este estándar esta hecho para aplicaciones a medios de almacenamiento digitales a una velocidad total de 1.5 mbps para las cadenas de audio y vídeo, como el CD, DAT y discos duros magnéticos. El medio de almacenamiento digital puede ser conectado directamente al decodificador, ó vía otro medio tal como líneas de comunicación y la capa de sistemas MPEG. Este estándar fue creado para velocidades de muestreo de 32 khz, 44 khz, 48 khz y 16 bit PCM entrada /salida a el codificador/decodificador.
 El estándar JPEG (Grupo Unidos de Expertos en Fotografía).
El grupo unido de expertos en fotografía (JPEG) en un grupo de trabajo ISO/CCITT que tiene como fin el desarrollo de un estándar internacional, ("Compresión y codificación digital de imágenes fijas en escala de grises o a color") para propósito general. El propósito de el algoritmo estándar es el de dar soporte a una amplia variedad de servicios de comunicaciones a través de imágenes. Esta estructura de reporte dual tiene como objetivo asegurar que ISO maneje un mismo estándar de compresión de imágenes.
El equipo de estándar JPEG especifica dos clases de procesos de codificación y decodificación: procesos con pérdidas y procesos sin pérdidas. Aquellos procesos que están basados en la transformada discreta del coseno (DCT) son llamados lossy, los cuales permiten que se logre una compresión substancial produciendo una imagen reconstruida con alta fidelidad visual a la imagen fuente del codificador. El proceso más simple de codificación basado en la transformada discreta del coseno (DCT) es referido a ésta como el proceso secuencial de línea base. Este proceso provee de la capacidad mínima para llevar a cabo diversas aplicaciones.
Existen procesos adicionales basados en DCT los cuales extienden el proceso secuencial de línea base a una más amplia gama de aplicaciones. En cualquier ambiente de aplicación que utilice procesos de decodificación DCT extendidos, la decodificación base es requerida para dotar de la capacidad de decodificación de default. El segundo proceso de decodificación no esta basado en DCT y es provisto para satisfacer las necesidades de las aplicaciones que requieren compresión lossless, (por ejemplo imágenes de rayos X). Los procesos de codificación y decodificación lossless son utilizados independientemente de cualquiera de los procesos que utilizan DCT.
  • El sistema de línea base: El sistema de línea base es el nombre dado a la capacidad más simple de codificación/decodificación propuesta por el estándar JPEG. Consiste en la cuantización uniforme y codificación. El sistema de línea base provee una reconstrucción secuencial solamente. El sistema de línea base codifica una imagen en un paso línea por línea. Típicamente el proceso inicia en la parte superior de la imagen y termina en la parte más baja; permitiendo que la imagen recreada sea reconstruida en una base de línea por línea. Una ventaja es que solamente una pequeña parte de la imagen esta siendo almacenada temporalmente en cualquier momento dado. La idea es que una copia con pequeñas diferencias no muy perceptibles de la original, es casi tan buena como una copia exacta de la original para la mayoría de los propósitos. Si no se requieren copias exactas, una mayor compresión puede ser alcanzada, la cual se traduce como bajos tiempos de transmisión.
  • Sistema extendido: Sistema extendido es el nombre dado a una serie de capacidades adicionales no provistas por el sistema de línea base. Cada serie esta pensada para trabajar en conjunto con, o ser construida a partir de los componentes internos de el sistema de línea base, con el objetivo de extender sus modos de operación. Estas capacidades opcionales, las cuales incluyen codificación aritmética, reconstrucción progresiva y "codificación sin pérdidas progresiva", y otros, puede ser implementada individualmente o en combinaciones apropiadas.
La codificación aritmética es una alternativa opcional, "moderna" Debido a que el método de codificación aritmética elegido se adapta a los valores de los parámetros de la imagen, generalmente provee de un 5 a un 10 por ciento de mejor compresión que el método Huffman elegido por JPEG. Este beneficio es compensado por el incremento en la complejidad del sistema.
La reconstrucción progresiva, la alternativa a la reconstrucción secuencial, es específicamente útil cuando se utilizan bases de datos de imágenes con canales de comunicación de poco ancho de banda. Para la codificación progresiva: primero, una imagen "tosca" es enviada, entonces los refinamientos son enviados, mejorando la calidad de la imagen "tosca" hasta que la calidad deseada es lograda. Este proceso es llevado a cabo por aplicaciones como las bases de datos de imágenes con resoluciones múltiples y de diversos requerimientos de calidad, congelamiento de cuadro en videoconferencias, fotovideotex para velocidades bajas.
La codificación sin pérdidas progresiva se refiere al método de compresión el cual opera en conjunto con la reconstrucción progresiva. En este modo de operación la etapa final de la reconstrucción progresiva resulta en una imagen recibida la cual es bit por bit idéntica a la original.
 El estándar JBIG (Grupo Unidos para imágenes bi-nivel).
En 1988, un grupo de expertos fue formado para establecer un estándar internacional para la codificación de imágenes bi-nivel. El JBIG (Grupo unido para imágenes bi-nivel), JBIG ha desarrollado un documento titulado "Estándar de compresión progresiva para imágenes bi-nivel", el cual define un método para la compresión de imágenes bi-nivel ( esto es, una imagen en blanco y negro). Debido a que el método se adapta a una amplia gama de características de imágenes, es una técnica de codificación muy robusta.
El estándar JBIG opera tanto en el modo secuencial como en el modo progresivo. Cuando se decodifica una imagen codificada progresivamente, una imagen de baja resolución con respecto a la original esta disponible primero, la imagen va aumentando su resolución conforme mas datos son decodificados. La codificación progresiva presenta dos beneficios, la primera es que una misma base de datos de imágenes puede servir a diferentes dispositivos de salida con resoluciones distintas cada uno. Solamente aquella información en el archivo imágenes comprimidas que permita la reconstrucción a la resolución del dispositivo de salida en particular necesita ser enviado y decodificado.
El otro beneficio de la codificación progresiva es que provee subjetivamente de imágenes superiores (en un monitor) sobre enlaces de comunicación de velocidades baja o medias. Una imagen de baja resolución es rápidamente transmitida y desplegada, con el mejoramiento de la resolución que se desee enseguida. Cada etapa de mejoramiento de la resolución se construye en la imagen ya disponible. La codificación progresiva lo hace fácil para el usuario para el reconocimiento rápido de la imagen siendo desplegada, lo cual hace posible que el usuario pueda interrumpir la transmisión de una imagen indeseada.

No hay comentarios:

Publicar un comentario