Si quieres probar el reconocimiento de voz de alta calidad sin comprar nada, buena suerte. Claro, puede pedir prestado el reconocimiento de voz en su teléfono o obligar a algunos asistentes virtuales en una Raspberry Pi a manejar el procesamiento por usted, pero no son buenos para trabajos grandes que no desea vincular a una solución de código cerrado. Presentación de OpenAI Susurro, que afirman es una red neuronal de código abierto que «se acerca a la robustez y precisión de nivel humano en el reconocimiento de voz en inglés». Parece funcionar en al menos algunos otros idiomas también.
Si prueba las demostraciones, encontrará que hablar rápido o con un acento encantador no parece afectar los resultados. La publicación menciona que fue entrenado en 680,000 horas de datos supervisados. Si hablaras tanto con una IA, ¡te llevaría 77 años sin dormir!
Internamente, el habla se divide en fragmentos de 30 segundos que alimentan un espectrograma. Los codificadores procesan el espectrograma y los decodificadores digieren los resultados usando algunas predicciones y otras heurísticas. Alrededor de un tercio de los datos procedían de fuentes que no hablan inglés y luego se tradujeron. Puedes leer el papel sobre cómo el entrenamiento generalizado tiene un rendimiento inferior al de algunos modelos entrenados específicamente en los puntos de referencia estándar, pero creen que Whisper funciona mejor en el habla aleatoria que los puntos de referencia específicos.
El tamaño del modelo en la variación «pequeña» sigue siendo de 39 megabytes, y la variante «grande» es de más de un gigabit y medio. Así que esto probablemente no se ejecutará en tu Arduino en el corto plazo. Sin embargo, si quieres codificar, todo está en GitHubGenericName.
Hay otro soluciones, pero no tan robusto. Si quieres seguir la ruta basada en el asistente, aquí está un poco de inspiración.