Esta página está en construcción: perdonen los errores y temas inacabados.

This page is being developed: I am sorry for errors and unfinished subjects.

Síntesis de habla 6. Interpolación de alófonos.

Dentro de los métodos de síntesis de habla natural modificando el tono, descritos en Síntesis de habla nos centramos ahora en los alófonos descritos en  síntesis
 de habla_5
no se aplican en tramos contiguos sin más porque

el cambio brusco se oye

(una ley fundamental de todo ingeniero de señales).

Esta interpolación, necesaria perceptivamente, se justifica también articulatoriamente, porque todo cambio fonético proviene de una modificación de la configuración del aparato vocal, mandíbulas, lengua, laringe; y estas variaciones llevan tiempo; de modo que se produce una variación gradual de la configuración, y, por tanto, una variación gradual del sonido, el alófono correspondiente.

Esta variación se simula mezclando los sonidos gradualmente, lo que que se justifica también en el cambio o mezcla de configuraciones, Por ejemplo, llevar la vocal desde [a] a [o],  significa pasar por etapas de articulación y sonido intermedios.

Podemos suponer que cada elemento articulatorio viaja linealmente de una situación  a otra, con lo que puede predecirse el sonido intermedio correspondiente. En ese aspecto, en las vocales pasaremos por la shwa o vocal neutra cuando cambiamos de vocales con segundo formante elevado a las mismas, como cambios  desde [i,e] a [o, u]; y no pasaremos si cambiamos dentro de la misma categoría: entre [e, i, a] por un lado y [u, o] por otro.  Veámoslo en el triángulo vocálico de la figura. De Voz para habla y canto traemos el triángulo vocálico.

 
             cerrada    mandíbula  abierta  
       Hz. +))))))))))))))))))))))))))))),
           /                               *
 f   2500  /    i                          * delantera
 o   2000  /              e                *
 r         /                               *
 m         /           neutra              *
 a   1200  /    ü       shwa       a       * lengua
 m         /                               *
 t         /                               *
 e    600  /              o                *
 2    500  /    u                          * trasera
           /                               *
           .222222222222222222222222222222
               300    400   500   600   800   Hz 
                      formante 1
 

TRIANGULO VOCÁLICO. Los Alófonos Vocales del Castellano.

La duración de este trayecto depende, o al menos se ve influida sin duda, por la distancia articulatoria entre ambos alófonos, es decir, por la diferencia de configuración entre ambos. En ese sentido, sería mayor la duración de la transición entre [a] y [u] que entre   [a] y [o].  Y entre  [p] y [k] que entre  [p] y [t]. En ambos casos lengua mandíbula y labios cambian más en los primeros pares que en los segundos. Esto es una hipótesis que deberá ser investigada en análisis y en sístesis.

Tramos sonoros

En los tramos con tono, como hicimos en la versión de SETS (en la que esta se inspira) los tramos de alófonos sonoros diferentes contiguos se interpolan, mezclando ambos en tramos de enlace, de modo que al principio domina el anterior y al final el nuevo.

La interpolación de realiza pues con una suma ponderada de las muestras de ambos alófonos con factor 1 de la antigua al principio o 0 de la nueva; al revés al final del tramo.

Esta duración hay que determinarla: puede llegar como máximo la mitad de la duración del menor de ambos tramos alofónicos hasta 0.

tras implementar una pequeña herramienta en nuestro programa Pea5, interpolamos entre alófonos vocales: en la figura entre [a] e [i]. la señal intermedia, en la figura suena neutra, más que intermedia. aunque así parecen sonar las vocales intermedias. Los alófonos mezclados con fuerte componente de uno de ellos suenan parecidos al más importante. De modo que la vocal, al interpolar, se desnaturaliza hacia lo neutro y llega poco a poco al segundo. No pasan, al parecer por los alófonos intermedios en el triángulo vocálico, pues, en este caso una [e]. Lo probaremos en una muestra

Tramos sordos

En estos casos el método es distinto según el tipo de alófono, correspondiente siempre a una consonante, pues todas las vocales son sonoras.

Dentro de estos tramos sordos distinguimos los continuos de los oclusivos [p, t, k]: mientras estos no admiten (es una hipótesis) interpolación, pues involucran silencio total, los demás sí lo hacen en principio. Es verosímil una transición [sa] por ejemplo, o dos en [aga]. De modo que los oclusivos los insertamos sin más, mientras que los demás, y vocales, lo vamos a interpolar (¿con tramo de enlace diferente?). la presencia de tramos silenciosos en oclusivas puede detectarse automáticamente, automarcándose el alófono..

En realidad sí hay articulación intermedia entre todos los alófonos como vimos, sólo que en los oclusivos, la oclusión quita el sonido y los cambios graduales no se oyen, o no se oyen parte de ellos.

Tipos de tramo

hemos visto pues tres tipos de tramo alofónico, diferentes en sus características perceptivas y también en su tratamiento al unir e interpolar en la síntesis.

1. Tramos sonoros permanentes: vocales, líquidas (con nasales), africadas sonoras.
2. Tramos sordos permanentes: fricativas
3. Tramos únicos: oclusivas

Su tratamiento es también diferente:

T1. Tramos sonoros permanentes:  Se construyen período a período. con igual comienzo.
T2. Tramos sordos permanentes: Se construyen de una vez o con fragmentos con diferente comienzo
T3. Tramos únicos: oclusivas: Se construyen de una vez

Refinemos esta división por tipos específicamente orientados a la síntesis. los ordenamos por sonoridad: y más o menos coincidentes con las categorías fonéticas habituales, con algún desplazamiento. Añadimos mediciones de esos alófonos en habla normal (tranquila y clara9. Esto es relevante sobre todo en los tramos únicos, porque se almacenan sólo 72 ms (con el tramito más relevante en él, generalmente el final de la oclusiva.. Hay que añadir por lo tanmto en estas últimas un silencio de la oclusión hasta llenar el tiempo requerido.

6. Vocales                       [ a, e, i, o, u]                 T1
5. Líquidas y nasales.     [ l, m ,n, ñ]                    T1
4. Africadas                    [ bh, dh, gh]                  T1
3. Fricativas                   [ ph, th, s,  kh]               T2
2. Vibrantes                    [ r, rr]                           T3
1. Oclusivas sonoras      [ b, d, g, y, ll ]               T3
0. Oclusivas sordas        [ p, t, k, ch  ]                 T3        p:140  t:270   t:220

Las transiciones entre estos alófonos han de cuidarse. En concreto es importante su duración en función del tipo. Consideraremos duraciones absolutas (en milisegundos) y relativas (porcentaje de tramos alofónicos contiguos.

  6 V 5 L 4 A 3 F 2 V 1 O1 1 O2
6 50            
5              
4              
3              
2              
1              
0              

Transición entre vocal y nasal

Funciona bien: oiga la transición artificial entre a y n:  (oir a-n-an-síntesis
)

Vea aquí las oclusivas.

 

 


Vuelta al Principio    Última actualización: Thursday, 21 de February de 2013    Visitantes: contador de visitas