Page 37 - Anuario AC/E de cultura digital 2024
P. 37

el canal (audio de WhatsApp) y la brevedad del mensaje (no se trata de un diálogo como tal), no tendría por qué llamar la atención la ausencia de ambos tipos de pausa. Habría que comparar este audio con mensajes similares enviados por el mismo hablante por este mismo medio de comunicación.
• Velocidad de articulación y diversos fenó- menos rítmicos.
Para caracterizar a un hablante, lo más habi- tual es que un fonetista forense mida la ve- locidad de articulación, o número de sílabas por segundo, excluyendo pausas y disfluen- cias. No obstante, existen otros enfoques rítmicos cuantitativos, por ejemplo, aquellos que miden la variabilidad de duración de intervalos vocálicos y consonánticos.
Para un listado más detallado de los paráme- tros fonéticos que podemos analizar en una grabación sospechosa de constituir un deepfake, referimos al lector a la tabla elaborada por
San Segundo (2023a, p. 86), que recoge los posibles parámetros que analizan los fonetistas forenses para comparar las muestras dubitada
e indubitada. Como señala el manual de buenas prácticas de la Red Europea de Institutos de Ciencias Forenses (ENFSI) y recoge también San Segundo (2023a), los parámetros que el experto opta por analizar pueden variar de un peritaje a otro, dependiendo del material disponible en las grabaciones y de qué considere importante cada experto.
Finalmente, existen otros aspectos discursi-
vos —no necesariamente analizados desde un punto de vista acústico— en los que un fone- tista se fija al analizar una grabación de voz.
Por ejemplo, en la grabación dubitada de Martí Batres aparecen las siguientes voces: Oye, ¿no?, eh, porfa. Se trata de unidades lingüísticas que sirven como organizadores del discurso, pueden alcanzar una gran variedad de valores semán- ticos, su distribución es muy versátil y a veces
constituyen lo que coloquialmente conocemos como muletillas. Es habitual en lingüística forense que la elección de unos marcadores frente a otros revele la pertenencia de un hablante a un grupo concreto (sociolecto). Algu- nos de estos marcadores simplemente respon- den a la función fática del lenguaje (marcadores conversacionales de control del contacto con el interlocutor, como ese oye), pero la frecuencia de uso puede ser bastante idiosincrática de un hablante.
En el ámbito de los deepfakes de imagen, un cheapfake sería, por ejemplo, una imagen generada por IA que muestra fallos sustanciales al observarla con mayor detalle.
Si un marcador es habitual en la variedad de español del hablante de la grabación dubitada, no será muy identificativo a nivel individual. Además, suele ser lo primero que calcan los imitadores. Si, por el contrario, una palabra o expresión es poco frecuente en la comunidad de habla a la que pertenece el hablante (variación interlocutor) y este tiende a usarla de manera constante (escasa variación intralocutor), esa palabra o expresión tendrá gran capacidad discriminatoria. Lo mismo ocurre con los rasgos vocales y los fenómenos del habla que hemos descrito anteriormente. La rareza —en el sentido de baja frecuencia de aparición— de cualquier aspecto, segmental o suprasegmental, es clave
a la hora de valorar si un aspecto vocal puede realmente identificar a un hablante. Volviendo al supuesto deepfake de Batres, deberíamos compa- rarlo con alguna muestra de su voz que sepamos, a ciencia cierta, que es suya y analizar cómo ambas grabaciones se asemejan o difieren para los distintos parámetros en los que un fonetista forense se fijaría.
Lo que está claro es que el audio no es un cheap- fake. Atrás han quedado las primeras clonaciones de voz, que sonaban tan artificiales (por ejemplo, por la ausencia de marcadores o pausas realistas y por la presencia de un timbre metálico o una entonación plana). En el ámbito de los deepfakes
ANUARIO AC/E DE CULTURA DIGITAL 2024
 Anuario AC/E de cultura digital 2024
 37


















































































   35   36   37   38   39