Existen pocas aplicaciones creadas con el objetivo de detectar el engaño a través del análisis de la voz del sujeto de forma automática. Ha habido algún intento de automatizar una forma simple de análisis léxico del texto engañoso en un programa llamado Consulta Lingüística y Conteo de Palabras (LIWC), desarrollado en la década de 1990. LIWC calcula el porcentaje de palabras en un texto que cae en una de las 72 categorías diferentes, para capturar emoción “negativa”, grado de autorreferencia e indicadores de complejidad cognitiva, bajo la hipótesis de que los mentirosos exhiben más la emoción negativa y menos las autorreferencias. Utilizando este análisis basado en palabras clave, el programa informa si el contenido del texto responde a un testimonio verídico o falso clasificando a los mentirosos versus los que cuentan la verdad a una tasa de precisión global del 61%.

Por otro lado, existe el análisis de estrés de voz para detectar mentiras. El trabajo sobre Análisis de estrés de voz (VSA) supone que los indicadores de estrés vocal también indican engaño, pero esta hipótesis no se ha respaldado en pruebas experimentales, aunque las características examinadas para el análisis de VSA pueden resultar útiles en combinación con otras caracteristicas. Los enfoques de análisis de estrés de voz (VSA) se basan en indicadores de bajo nivel de estrés, como microtemblores o fluctuaciones vocales, como indicadores indirectos de mentira. Ha habido poca evidencia de que los sistemas VSA puedan discriminar eficazmente el engaño del habla no engañosa, aunque se ha descubierto que dichos sistemas podrían ser herramientas útiles para un examinador experto. Probaron recientemente la utilidad de la inestabilidad frente a otras características como discriminadores para el engaño y encontraron que, aunque la fluctuación de voz no discriminaba, la afinación lo hacía, aunque solo de manera dependiente del hablante. Sin embargo, los sistemas VSA continúan siendo comercializados ampliamente a las agencias de aplicación de la ley como la respuesta a sus problemas de detección de engaño.

Recientemente, ha habido interés en aplicar técnicas de Aprendizaje Automático al problema de la detección del engaño a partir del habla, buscando probar cuáles de las muchas características propuestas en la literatura conductual podrían ser a) objetivamente medibles y b) discriminadores útiles.

Se han realizado estudios utilizando árboles de decisiones capacitados en información léxica para predecir el engaño. Las claves incluyen números de sílabas, palabras, oraciones, oraciones cortas y oraciones ‘simples’; medidas de complejidad de palabras y oraciones; indicadores de especificidad y expresividad; y una medida de “informalidad” basada en errores detectables automáticamente. Los resultados para los árboles de decisión de mejor rendimiento examinados a partir de 20 ejecuciones de validación cruzada en un conjunto de datos muy pequeño muestran una tasa de acierto del 70%. También se ha trabajado para aplicar las tecnologías del habla y las técnicas de aprendizaje automático al lenguaje engañoso a través del programa Columbia-SRI-Colorado (CSC). Este programa fue diseñado para provocar el discurso engañoso y no engañoso dentro del hablante. Las pruebas incluyeron entrevistas con treinta y dos hablantes nativos de inglés americano estándar. Los sujetos realizaron tareas en seis áreas, donde se manipuló la dificultad de las tareas para que los entrevistados obtuvieran puntajes más altos que un perfil artificial en dos áreas, menor en dos e idénticamente en otros dos. Los sujetos recibieron incentivos financieros y de autopresentación para convencer a un entrevistador de que, de hecho, habían realizado lo mismo que el perfil objetivo. Los sujetos fueron instruidos para presionar uno de los dos pedales ocultos del entrevistador después de cada declaración, un pedal de verdad y otro de mentira. Las entrevistas duraron entre 25 y 50 minutos, y comprendieron aproximadamente 15,2 horas de diálogo; produjeron aproximadamente 7 horas de discurso del sujeto. Los datos se registraron utilizando micrófonos en una cabina de sonido y posteriormente se transcribieron ortográficamente. Se crearon varias segmentaciones a partir de los datos: la segmentación implícita de las prensas de pedal, que se corrigió a mano para alinearse con los conjuntos de declaraciones correspondientes; segmentos de palabras, de la alineación automática de la transcripción usando un motor SRI ASR; unidades con forma de oración y etiquetadas; y grupos que se identificaron a partir de alineaciones de palabras ASR más intensidad y pausas, y posteriormente se corrigieron manualmente. Por lo tanto, el estudio consistió en la transcripción léxica, las etiquetas de mentira globales y locales, las segmentaciones y el discurso en sí mismo.

El estudio de este programa ha logrado una precisión del 66,4%, usando una combinación de características acústico-prosódica, léxica y dependiente del hablante y 64,0% utilizando las características acústicas-prosódicas solamente. Por lo tanto, los resultados producidos automáticamente por programas son bastante alentadores, pero no pueden utilizarse como factores inequívocos ni de muy alta fiabilidad.