Facebook Twitter RSS Reset

MP3 vs FLAC: la batalla definitiva (y más)

MP3 vs FLAC: la batalla definitiva (y más)
MP3 vs FLAC: la batalla definitiva (y más)

MP3 vs FLAC: la batalla definitiva (y más)
lossy

Introducción

¡Hola taringueros! Acá les traigo mi nuevo post. Probablemente muchos (casi seguro que todos) ya estén cansado de leer posts de esta clase: audio lossy vs audio lossless, pero más allá de algunos explicativos y justificaciones breves se concluye que los formatos lossless (como WAV, AIFF y FLAC) son mejores porque mantienen la integridad completa del archivo de audio, no alteran ninguna característica del original conservando toda la información. Los defensores de los formatos lossy (como MP3, AAC y OGG) dicen que si la codificación es buena, la pérdida de información (que en el audio se aprecia como pérdida de calidad) es mínima e imperceptible para el oído humano. La misma confrontación sucede con los CD y los vinilos: soporte analógico vs soporte digital, pero no me voy a poner de hablar de eso ahora (quizás en un furuto post, porque el tema pinta lindo).

Lo que pretendo en este post es volcarles toda esta información de modo consistente, de una forma que nunca antes nadie lo explicó (o al menos yo no lo vi) para que finalmente desterremos mitos y concluyamos si los formatos lossy valen o no la pena y apreciar qué es lo que se pierde cuando se codifica a los formatos lossy más populares.

¡Arranquemos nomás!

lossless

¿Qué método vamos a usar?



El método que vamos a usar se llama inversión de fase. Seguro que muchos la conocen y se dieron cuenta de cómo la voy a utilizar a lo largo del post, probablemente otros sepan lo que es pero no saben cómo voy a sacar provecho de esta técnica y la gran mayoría seguro es la primera vez que escucha el término; pero los dos últimos que no se preocupen que les voy a explicar con detalle y con un ejemplo bien simple qué es la inversión de fase y cómo la vamos a aplicar en esta batalla final entre lossless y lossy.

Supongamos que tenemos una onda sinusoide simple, un tono puro y uniforme, como el tono del teléfono antes de marcar. Si generamos (o abrimos un archivo con) una onda sinusoide en algún editor de audio, la waveform se vería más o menos así:

compresion

MP3 vs FLAC: la batalla definitiva (y más)
Waveform de una onda sinusoide de 60 Hz. en Sound Forge. Tamaño completo: click acá.

mp3 vs ogg vs aac

Para poder explicar bien y que se vea cómo es el tema de la inversión de fase, vamos a necesitar ampliar un poco la imagen para que la onda no esté tan “apretada” y podamos distinguir más fácilmente alguna de sus partes:

mp3 vs flac

MP3 vs FLAC: la batalla definitiva (y más)
Waveform de la misma onda anterior, ampliada. Tamaño completo: click acá.

free lossless audio codec

Hablemos un poquito de esta onda (espero no se aburran, pero es fundamental para entender qué es la inversión de fase). Partiendo desde la izquierda de la imagen, vemos que la onda comienza desde la línea de equilibrio y sube hasta llegar a un máximo. Luego comienza a bajar, atraviesa nuevamente la línea de equilibrio y llega hasta un mínimo. Finalmente vuelve a subir y llega otra vez a la línea de equilibrio. Esto se repite nueve veces y media en la imagen ampliada y determina el ciclo de la onda.

Lo que nos interesa de esto es conocer e identificar que cada vez que la onda llega a un punto máximo se forma un pico o cresta, y cada vez que llega a un punto mínimo describe un valle. Además es importante destacar que, en este caso, la onda es idéntica porque se trata de una sinusoide simple, por lo tanto cada pico y cada valle tienen la misma potencia (en física se lo llama amplitud) pero con distinta polaridad, ya que una va hacia arriba y la otra va hacia abajo. Es como decir, por ejemplo, que el -3 y el +3 tienen el mismo valor absoluto (o sea, 3) pero tienen distinto signo. Si esto lo traducimos al sonido, los picos comprimen el aire y los valles lo descomprimen (imagínense un bombo siendo golpeado en cámara lenta: el parche vibra subiendo y bajando, comprimiendo y descomprimiendo el aire que se encuentra por encima y debajo del parche, generando el sonido).

Ahora a uno de esos canales (el de abajo) vamos a aplicarle el proceso de inversión de fase. Luego de la inversión, la waveform se ve así:

MP3 vs FLAC: la batalla definitiva (y más)

MP3 vs FLAC: la batalla definitiva (y más)
Waveform de la misma onda anterior, con una fase invertida. Tamaño completo: click acá.

musica

Fíjense que la onda ahora sigue siendo igual pero como si estuviese reflejada en un espejo: las crestas ahora son valles y los valles ahora son crestas. ¿Qué consecuencias trae esto al sonido? Recordemos que en la sinusoide original los dos canales eran idénticos y cada valle y cresta coincidían y tenían la misma potencia, pero ahora como se invirtió la fase en una de ellas no coincide valle con valle o cresta con cresta, sino que coinciden valle con cresta y cresta con valle.

Miren lo que sucede cuando mezclamos los canales:

lossy

MP3 vs FLAC: la batalla definitiva (y más)
La waveform desapareció por supresión a causa de la inversión de fase. Tamaño completo: click acá.

compresion

No es brujería ni mucho menos, la cosa es bastante fácil de entender: como las crestas y los valles tienen el mismo valor pero invertido, al combinarse se suprimen, convirtiéndose en silencio. Con el ejemplo que dimos recién, si sumamos +3 y -3 el resultado es cero (matemáticamente: (+3) + (-3) = 0). Esta técnica es usada por muchos auriculares modernos profesionales para aislar el sonido indeseado del exterior: el auricular tiene un micrófono que capta el sonido externo y genera una fase invertida para ese sonido, suprimiéndolo, de modo tal que el oyente escuche sólo la música y no el ruido externo. Si te querés comprar unos auriculares así, esa característica se llama cancelación activa.

vinilo

¿Cómo vamos a usar la inversión de fase?



Como ya sabemos, cuando un audio lossless es convertido a lossy se pierde información. Al perderse información la waveform cambia y si aplicamos la inversión de fase entre el audio lossless y el audio lossy va a quedar no un silencio porque la onda cambió (los valles y las crestas ya no coinciden perfectamente), sino que va a quedar un sonido remanente que va a ser exactamente lo que se perdió en la conversión.

En la teoría suena muy lógico, pero en la práctica ¿qué tanto se pierde? ¿es apreciable o muy importante ese remanente? Esas respuestas vamos a responderlas aplicandotodo lo recién explicado con un ejemplos prácticos.

Para los ejemplos usé un fragmento de una canción de la que soy coproductor, convertida a tres de los formatos lossy más populares: MP3, AAC y OGG, codificados en máxima calidad y en CBR (salvo en uno de los casos). Para todas las conversiones usé Switch, un excelente programa que recomiendo muchísimo porque codifica muy bien.

La canción lossless en FLAC (usar más de un formato lossless sería inútil, ya que todos conservan la totalidad de la información) es la siguiente (ya se que en YouTube no es lo mismo, pero se van a dar una idea de cómo es la canción para compararlo con las demás conversiones).

¡Ah! Casi me olvidaba. Mientras escuchen la canción modifiquen el volumen hasta escuchar la pista claramente y en detalle, sin aturdirse y sin escucharlo bajo, y no lo muevan hasta el final del post, de ese modo podemos hacer una comparación relativa entre la pista original y los remanentes. Aunque se tienten a subir el volumen no lo hagan, yo les voy a facilitar las pistas normalizadas.