Page 36 - Anuario AC/E de cultura digital 2024
P. 36
36
«voz» se distingue claramente de «habla». Por otro lado, siguiendo siempre a Kreiman, la voz como fenómeno fisiológico y físico también se puede definir de una manera más amplia como sinónimo de habla.
En resumen, aunque los términos «voz» y «habla» a veces se usan indiscriminadamente, incluso por los propios científicos, en el análisis de un posible deepfake convendría distinguir las rasgos vocales (esto es, de la voz) de otros fenómenos que caracterizan el habla.
1) Características de la voz
Las características acústicas de la voz que son susceptibles de medición y análisis acústico
en una grabación como la de Batres serían: la frecuencia fundamental (f0) del hablante, la con- figuración espectral y la estructura formántica
de sonidos concretos, así como su amplitud (dB) y tiempo (ms). Los correlatos auditivos de dichas características acústicas son el tono (agudo o grave), el timbre, la intensidad y la duración. El timbre se puede considerar sinónimo de cualidad de voz. Según autores como Kreiman, se refiere a la impresión perceptiva que se produce como re- sultado de una señal acústica, de forma análoga a la distinción entre «frecuencia» (una propiedad física de la vibración) y «tono» (la sensación en el oyente de dicha vibración).
2) Diversos fenómenos del habla
Existen fenómenos del habla lingüísticos, pero también paralingüísticos y extralingüísticos. Los más habituales del segundo tipo en conversacio- nes espontáneas son las risas, las respiraciones audibles o diversos tipos de clics (por ejemplo, un chasquido apicoalveolar). Para caracterizar a un hablante, en fonética forense se puede medir sencillamente la frecuencia de aparición de cada fenómeno (número de casos u ocurrencia). Asi- mismo, y más habitualmente, se pueden analizar acústicamente la mayoría de los fenómenos atendiendo a una o varias de las características
que indicamos en el apartado anterior: tono, timbre, intensidad y/o duración.
Una división habitual que hacemos los fonetistas es aquella que distingue entre los elementos denominados segmentales —vocales y con- sonantes— y otros fenómenos fonéticos que afectan a más de un segmento. Estos se conocen como elementos suprasegmentales o prosódicos (véase, por ejemplo, la página web del fonetista Joaquim Llisterri).23 Los más relevantes para el análisis de esta grabación serían:
• Melodía y entonación.
La representación acústica de la melodía viene dada por la evolución temporal de la f0. Cabría analizar la curva melódica de los distintos enunciados de la grabación, ma- yoritariamente con modalidad enunciativa, salvo la pregunta del final (¿Me confirmas de enterado, porfa?), que sería un enunciado con modalidad interrogativa.
• Pausas.
Existen dos tipos de interrupciones del discurso: las pausas llenas (o sonoras) y las pausas vacías (también llamadas silenciosas). Estas últimas se manifiestan mediante un silencio, de mayor o menor duración. Gene- ralmente se deben a la necesidad de respirar del hablante, pero también pueden tener una función demarcativa o estilística. Las pausas llenas, por su parte, suelen ser pausas de duda y están relacionadas con la planifi- cación del discurso. Se suelen realizar como alargamientos vocálicos, con distintas reali- zaciones según la lengua. En español, lo más habitual es dudar así: «eh» (en transcripción fonética [eː]). En inglés no es raro encontrar también un elemento nasal: «ehm» [əːm]. En el audio de Batres, las pausas vacías son mínimas o muy breves. Tampoco encontra- mos pausas llenas. En cualquier caso, dado
23 https://joaquimllisterri.cat/
PROFUNDIZANDO EN LOS DEEPFAKES: ¿QUÉ HACE HUMANA A UNA VOZ? · EUGENIA SAN SEGUNDO FERNÁNDEZ
Anuario AC/E de cultura digital 2024