Solución:
Un “tono puro” es un sonido que tiene una función sinusoidal única como perfil de presión. La voz humana no es un tono puro; es una superposición de muchas ondas sinusoidales diferentes con diferentes frecuencias y diferentes amplitudes. Aquí hay una imagen que ilustra cuántas ondas sinusoidales de diferentes frecuencias se pueden combinar para crear una forma de onda más complicada como la voz humana:
(credito de imagen)
Por tanto, una voz humana tiene muchos más parámetros que una sola amplitud y frecuencia. Tiene muchas amplitudes, una para cada una de las muchas frecuencias diferentes (junto con una fase para cada una también). Además, estas amplitudes cambian con el tiempo a medida que la voz humana produce diferentes sonidos.
Esta imagen, por ejemplo, es un “espectrograma” de una voz humana.
(Crédito de la imagen: Por Dvortygirl, Mysid – FFT en línea en baudios; sonido original por Dvortygirl Este archivo se derivó de: En-us-it’s all Greek to me.ogg, CC BY-SA 3.0)
El eje x es el tiempo, el eje y es la frecuencia y la intensidad indica la amplitud de cada componente de frecuencia en cada punto en el tiempo. Un tono puro se mostraría como una sola línea horizontal sólida. Puede ver que la voz humana está formada por muchos componentes de frecuencia de diversas amplitudes.
Esta es la misma razón por la que un violín, un oboe y un piano suenan diferentes incluso cuando tocan “la misma nota”. La terminología musical para el equilibrio específico de diferentes componentes de frecuencia se conoce como “timbre”.
Consulte el artículo de Wikipedia para obtener más información.
Aquí hay una imagen de las formas de onda de tres personas que dicen la palabra “ramen”. Los dos primeros son en realidad la misma persona en diferentes ocasiones, por lo que tienen el mismo tono de voz. La tercera es una mujer que dice la misma palabra “ramen”. He modificado la duración de los clips para que todos ocupen la misma cantidad de tiempo en general.
(haga clic para ampliar).
Si miras muy de cerca, hay un segmento inicial de menos turbulencia (R) transformándose en un segmento con mucha turbulencia (A) transformándose en lo que es esencialmente una frecuencia pura (M) con, en el caso del hombre, un sobretono; seguido de otro parche más áspero (E), seguido de otra nota “más pura” (N), que parece ser muy similar aunque un poco más suave, más alargada y posiblemente con un matiz más alto en cada caso.
Una cosa que es muy notable es que la voz de la mujer sube y baja mucho más, lo que se manifiesta como un tono más alto de su voz.
Otra cosa es esta cosa de la “turbulencia”: esta cosa, y cualquier tipo de “ruido”, son muchas frecuencias diferentes que ocurren a la vez. Su oído en realidad tiene una parte llamada “cóclea” que parece tener pequeños pelos y cada uno tiene una frecuencia de resonancia ligeramente diferente debido a sus diferentes ubicaciones en el órgano, ¡así que diferentes frecuencias hacen vibrar diferentes pelos en sus oídos! Es todo el patrón de cómo estos pelos vibran juntos lo que marca la diferencia entre los sonidos “a” en papá y papá, que son sonidos de vocales muy diferentes (¡al menos en inglés americano!).
En general, entonces no hay dos números puros que distinguen un sonido puro (su frecuencia y amplitud) sino que hay dos funciones de frecuencia que distinguen un sonido puro. La primera función es la amplitud en función de la frecuencia: ¡cualquier sonido puro tendrá un montón de componentes diferentes a diferentes frecuencias! – y el segundo parámetro se llama fase de las diferentes frecuencias. Los dos números solo van a distinguir dos ondas sinusoidales que comienzan en fase, pero muy pocos de los sonidos que escucha son ondas sinusoidales y muy pocos de los sonidos que escucha están perfectamente en fase.
Dado que una fase se representa mejor como un ángulo con formas de onda tan periódicas y cuasi-periódicas, la descripción natural de un sonido es en realidad en términos de una función que asigna a cada frecuencia un 2D matriz de rotación escalada donde el ángulo de rotación es la fase y el factor de escala es la escala; está en 2D porque solo necesitas un ángulo. Estas matrices de rotación escaladas también se conocen como números complejos y esta función se llama sonido Transformada de Fourier, definido como: $$ y[f] = mathcal F_ {t to f} ~ y
Cada voz humana contiene un tono de base diferente, un acento diferente (¡mapeo de palabras con sonidos reales!), Un perfil de fase diferente, algunas opciones diferentes de armónicos. Es un testimonio de lo poderoso que es nuestro cerebro y del tiempo que nos lleva aprender un idioma, ¡que incluso podemos reconocer que dos personas diferentes de diferentes lugares están diciendo la misma palabra! Pero obviamente hay algunos patrones, como las naturalezas “más puras” más simples de los sonidos M y N anteriores, a los que nuestro cerebro puede “aferrarse” para agrupar los sonidos comunes. Entonces no es imposible, es muy difícil.
Como han dicho los demás, un sonido está formado por ondas sinusales de diferentes frecuencias. La afinación que escuchas está determinada por la frecuencia más baja (fundamental). Las otras frecuencias son múltiplos de esa frecuencia de tierra y se denominan armónicos.
Resumiendo lo que se muestra a continuación: la cantidad en la que están presentes los diferentes armónicos, determina el color del sonido y marca la diferencia entre tu voz y la mía, entre un piano y un saxofón.
Como ejemplo, examiné dos a (440 Hz). Uno producido por un diapasón, el otro tocado en un oboe (el habla humana es un poco más compleja, pero cualitativamente, es lo mismo).
A continuación, los dos sonidos grabados se muestran simultáneamente:
Al realizar una transformada de Fourier (mirando qué frecuencias están presentes en el sonido) en el sonido del diapasón, el resultado es el siguiente: una frecuencia es muy dominante: 440 Hz, las otras frecuencias apenas tienen influencia (observe la escala de dB y por lo tanto, escala logarítmica en el eje y).
El mismo análisis sobre el sonido del oboe revela mucho más: varios picos a 440 Hz, 880 Hz, 1320 Hz, … (2x, 3x, 4x, … 440 Hz) Como puede ver, la afinación que escuchas (440 Hz), no es la frecuencia que está más presente en el sonido (a menudo, el primer pico es el más alto, pero el patrón que ves a continuación es lo que le da al oboe su sonido particular). Su audición está entrenada para percibir la serie de picos como un todo y reconocer la frecuencia fundamental como el tono.