Voici comment fonctionne Live Caption d'Android 10

Auteur: Peter Berry
Date De Création: 16 Août 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Voici comment fonctionne Live Caption d'Android 10 - Nouvelles
Voici comment fonctionne Live Caption d'Android 10 - Nouvelles

Contenu


Live Caption est l’une des fonctionnalités les plus intéressantes d’Android à ce jour. Son apprentissage automatique sur appareil lui permet de générer des sous-titres pour les vidéos locales et les clips Web.

Google a publié un article de blog décrivant exactement le fonctionnement de cette fonctionnalité astucieuse. Il comprend en fait trois modèles d'apprentissage automatique sur appareil, pour commencer.

Il existe un modèle de transduction de séquence de réseau neuronal récurrent (RNN-T) pour la reconnaissance de la parole elle-même, mais Google utilise également un réseau de neurones récurrent pour prédire la ponctuation.

Le troisième modèle d'apprentissage automatique intégré au dispositif est un réseau de neurones à convolution (CNN) pour les événements sonores, tels que le chant des oiseaux, les applaudissements de personnes et la musique. Selon Google, ce troisième modèle d’apprentissage automatique est dérivé de son travail sur l’application d’accessibilité Live Transcribe, qui permet de retranscrire des événements vocaux et sonores.


Réduire l'impact de la légende en direct

La société a annoncé avoir pris un certain nombre de mesures pour réduire la consommation de batterie et les exigences de performance de Live Caption.D'une part, le moteur de reconnaissance vocale automatique (ASR) ne fonctionne que lorsque la parole est réellement détectée, par opposition à une exécution en arrière-plan constante.

«Par exemple, lorsque de la musique est détectée et que la parole n’est pas présente dans le flux audio, l’étiquette apparaîtra à l’écran et le modèle ASR sera déchargé. Le modèle ASR n'est chargé dans la mémoire que lorsque la parole est à nouveau présente dans le flux audio », explique Google dans son billet de blog.

Google a également utilisé des techniques telles que l'élagage de connexion neuronale (réduction de la taille du modèle vocal), réduisant la consommation d'énergie de 50% et permettant à Live Caption de fonctionner en continu.


Google explique que les résultats de la reconnaissance vocale sont mis à jour plusieurs fois par seconde au fur et à mesure de la création de la légende, mais que la prédiction de la ponctuation est différente. Le géant de la recherche indique qu'il fournit une prédiction de ponctuation «sur la fin du texte de la dernière phrase reconnue» afin de réduire les besoins en ressources.

Live Caption est maintenant disponible dans la série Google Pixel 4, et Google annonce sa disponibilité "sous peu" sur la série Pixel 3 et d'autres appareils. La société affirme travailler également à la prise en charge d’autres langues et à une meilleure prise en charge du contenu multi-locuteurs.

RAZR connu: D'aprè le brevet, le rapport, le atuce et le coneil de Motorola, nou avon tou que ce era un appareil pliable.Le RAZR pliable, qui a fait l’objet de nombreue rumeur, ira de pair av...

J'ai un petit problème: je change le fond d'écran de mon téléphone pluieur foi par emaine, parfoi même tou le jour. Je ne ai pa pourquoi, mai j’ai jute une certaine hu...

Le Choix Des Éditeurs