VocalNews

Keyword - reconnaissance vocale

Natal va révolutionner le jeu

La nouvelle interface de Microsoft pour sa XBOX 360, au nom de code "Natal" fait beaucoup parler d'elle.

Et pour cause ... il s'agit d'une interface SANS manette puisque c'est le joueur qui devient l'interface unique grâce à la détection des mouvements, la reconnaissance facial et la reconnaissance vocale.

On ne sait pas encore quand elle sera disponible, mais les démos en vidéo sont convaincantes :

IBM franchit la barrière des langues

Les chercheurs d'IBM annoncent une grande avancée dans la traduction automatique, de l'anglais vers 11 langues (chinois, japonais, français, italien, russe, allemand, espagnol, arabe ...)

Ce service baptisé n.Fluent est hébergé afin d'offrir une traduction temps réel sécurisée y compris depuis une application Blackberry.

Ce qui est innovant, c'est que ce logiciel a été développé en mode collaboratif avec quelques 400 000 employés d'IBM au travers de 170 pays et que le système est conçu pour s'enrichir continuellement. A ce jour quelques 40 millions de mots ont été traduits ...

Cette nouvelle façon d'impliquer ses collaborateurs est une intéressante initiative qu'IBM propage sur d'autres segments. Les laboratoires indiens ont ainsi amélioré la reconnaissance vocale de l'hindi, langue majeure.

Il sera intéressant de comparer cette approche à celle de Google qui propose à tous les utilisateurs de son service Translate de proposer aussi une meilleure traduction. Quelle est la plus grande force ? L'immensité des internautes, parfois passifs, ou l'enthousiasme de collaborateurs ?

Après l'indexation, le sous titrage

Google avait déjà commencé à indexer automatiquement les vidéos de Youtube en utilisant son moteur de reconnaissance de la parole, voilà qu'ils vont jusqu'aux sous-titrage !

Et cela simplifie nettement le travail des internautes. Car le sous-titrage est un travail fastidieux, de création des textes, de post synchronisation avec la vidéo ...

Bientôt proposé à grande échelle, cette fonction va ravir nombre d'utilisateurs. A commencer par les malentendants, mais aussi les étrangers, puisque la traduction automatique n'est pas loin. Le service de traduction de Google assurant déjà 51 langues.

Cet outil sera déployé dans les chaînes à vocation éducative. "Nous voulons nous assurer des retours, à la fois des internautes et des propriétaires de contenus, avant de généraliser ce système " explique Ken Harrenstien, ingénieur à Mountain View.

La démo en images :

Google et la navigation

Les services géographiques de Google (Earth, Maps et StreetView) commencent à se décliner en offres GPS et l'arrivée d'une nouvelle mouture d'Android n' est pas pour rien. Google Maps Navigation est donc un système de navigation intégré complet, mis à jour en temps réel, gratuit qui ne va pas faire plaisir aux constructeurs de GPS ...

Il y a tout ce que l'on attend d'un GPS, y compris l'information trafic, les points d'intérêts, la vue satellite ou 3D, la photographie de la rue de destination ... Les cartes sont téléchargées en temps réel, il ne faudra plus y penser à l'avance quand on partira à l'étranger ...

Cette solution bénéficie aussi des travaux menés par Google sur la reconnaissance vocale. Il sera ainsi possible de demander "guides-moi vers les Champs Elysées" ou "restaurant italien".

Et, bien sûr, Google va rentabiliser ce service avec des publicités locales et ciblées !

La démonstration en vidéo (cliquez ici si vous ne voyez pas la vidéo) :

Pour Noël ... Roborover

WowWee, le leader mondial dans le domaine des robots de divertissement, vient d’annoncer la sortie en France de deux nouveaux robots jouets : Roborover et Joebot.

À destination des enfants à partir de 8 ans, ces deux nouveaux produits marquent une évolution notable des technologies utilisées jusqu’à présent dans les jouets : reconnaissance vocale et intelligence artificielle sont au rendez-vous … Roborover, le digne successeur du Tribot qui avait été un grand succès mondial à Noël dernier, est avant tout un compagnon de jeu pour les enfants.
Ce « robot aventurier » se déplace grâce à deux chenilles motorisées indépendantes. La présence de capteurs lui permet de détecter la taille des obstacles et de « décider » de les franchir ou de les contourner. Roborover est donc apte à explorer sont environnement de manière autonome. Le robot parle et réagit à la voix. De plus, le constructeur l’a doté d’une personnalité qui évolue au fil du temps qui prolongera l’intérêt du jouet aux yeux des enfants. Pour finir, ce robot est doté de nombreuses fonctions (projecteurs lumineux, jeux intégrés, télécommande, …) dont un mode spécial « suis-moi », équivalent d’un jeu de cache-cache entre l’enfant et le robot … Il sera vendu autour de 70 $.
La pub en vidéo (si vous ne la voyez pas, cliquez ici ) :
  Le Roborover devrait être vendu autour de 70€.

Toyota et les canadiens

Selon LeSoleil, le constructeur automobile Toyota est un des seuls grands de l'auto à ne pas offrir de système de reconnaissance vocale en langue française. Une situation à laquelle la compagnie promet de remédier, sans être en mesure de dire quand le système sera accessible.

Les automobilistes dont la voiture est munie d'un système de reconnaissance vocale sont de plus en plus nombreux à utiliser la technologie Bluetooth lorsqu'ils sont au volant et qu'ils désirent faire un appel de leur téléphone portable. Les Québécois francophones qui roulent avec une voiture de marque Ford, Chrysler ou General Motors, entre autres, peuvent donner leurs instructions au système dans la langue de Molière, les trois grands constructeurs nord-américains ayant équipé plusieurs de leurs modèles de voitures de systèmes de reconnaissance de la voix bilingues.

Dawn Soulis, porte-parole de Toyota Canada, affirme que la compagnie est consciente du retard qu'elle accuse sur ses concurrents à ce chapitre. Elle soutient que certains modèles de voitures Toyota possèdent déjà le système de reconnaissance vocale en français, mais elle se dit incapable d'en nommer un. «Je n'ai pas l'information sous la main.»

Mme Soulis tient à préciser que Toyota offre de nombreux produits en langue française et elle assure que l'entreprise projette de faire des efforts pour intégrer le système en français dans tous ses modèles. «Notre objectif est d'offrir à tous nos clients les options Bluetooth bilingues pour tous nos produits. En ce moment on est en train de s'assurer que cela est bien le cas.»

Selon Nicole Delorme, porte-parole de l'Office de la langue française, il pourrait être possible de faire pression sur les entreprises qui sont réticentes à implanter des systèmes de reconnaissance de la voix bilingues dans leurs voitures en vertu de l'article 51 de la Charte de la langue française. «Si des plaintes nous étaient acheminées à ce propos, on les regarderait en vertu de l'article 51 qui prévoit que le mode d'emploi d'un produit doit être accessible en français. En théorie. il pourrait y avoir infraction. Mais je ne m'avance pas trop parce que cet article parle de la langue de rédaction d'un produit ou d'un objet. Il y a donc un flou artistique dans ce cas-ci parce qu'il est question d'un système de reconnaissance vocale.»

Dictée vocale sans fil

Philips passe au sans fil et offre une ergonomie améliorée et un design futuriste pour son outil de dictée.

Déjà pré-annoncé courant 2009, Philips annonce la sortie du SpeechMike Air, la version sans fil de l’appareil d’enregistrement audio professionnel le plus vendu dans le monde. Le concept du SpeechMike qui connaît un grand succès, comprend, dans un seul appareil, un microphone de dictée, un haut-parleur, un système de contrôle de dictée et un navigateur PC. En plus d’un grand nombre de nouvelles fonctions, le SpeechMike Air frappe par son design : son boîtier élégant mais robuste, les boutons de contrôle plus grands et sa ligne affinée ont été spécifiquement mis au point pour répondre aux besoins des utilisateurs réguliers de dictée. La qualité d’enregistrement a encore été améliorée, faisant du SpeechMike Air l’appareil de référence dans le domaine de la reconnaissance vocale.

speechmike

Le SpeechMike est compatible avec Dragon Naturally Speaking®, le logiciel leader mondial de la reconnaissance vocale de Nuance : les fonctions clés de ce logiciel peuvent être directement contrôlées par un bouton en utilisant le nouveau logiciel de contrôle Philips Speech Control qui est fourni avec chaque SpeechMike. Grâce à des réglages préinstallés par défaut, le SpeechMike est immédiatement opérationnel. Le logiciel Speech Control permet également d’affecter des fonctions spécifiques aux boutons programmables, ce qui permet à chaque utilisateur de personnaliser l’appareil selon ses préférences.

Le design du SpeechMike Air a été influencé par les résultats des dernières recherches en ergonomie. Les mouvements des utilisateurs pendant une dictée ont été analysés en détail : les boutons les plus importants ont été agrandis et positionnés à portée du pouce pour réduire les mouvements au minimum. La dictée elle-même a encore été simplifiée grâce à la fonction « pousser pour dicter » : les fonctions de démarrage et d’arrêt peuvent être contrôlées par un seul bouton, ce qui permet à l’utilisateur de dicter de façon intuitive.

En plus de l’appareil audio, le système SpeechMike Air intègre la station d’accueil SpeechMike AirPort. Cette station d’accueil se connecte au PC et permet de transférer des données et de recharger le micro. Il intègre également le module de réception SpeechMike AirBridge qui gère les enregistrements provenant de l’appareil de dictée, sans fil avec une portée maximale de 10 mètres. Le module de réception SpeechMike AirBridge peut aussi être utilisé sans être connecté à la station d’accueil. Par exemple, le module AirBridge peut se connecter à un ordinateur portable via son câble USB, ce qui permet à son utilisateur de dicter normalement avec son SpeechMike Air et de bénéficier d’une mobilité totale. Le transfert des données est crypté sans erreurs et s’effectue en Bluetooth via un protocole de transmission de données spécifiquement conçu. Si l’utilisateur dépasse la portée de réception du SpeechMike, l’appareil émet un signal vibratoire.

Le potentiel du SpeechMike Air peut être totalement exploité avec les solutions de gestion de dictée numérique SpeechExec Pro et SpeechExec Enterprise ou en intégration avec les systèmes spécifiques sectoriels, par exemple dans le médical ou le juridique. Cette intégration est rendue possible grâce au kit logiciel séparé SDK (Software Development Kit – Kit de Développement Logiciel). Le SpeechMike Air fonctionne comme n’importe quel appareil standard USB, permettant cette intégration facile qui fait la réputation des SpeechMike filaires.

Parrot : en route avec l'iPhone

Parrot annonce la sortie prochaine d’un autoradio qui s’interface avec le téléphone d’Apple.

L’autoradio RKi8400 est bien sûr Bluetooth. Il peut utiliser toutes les fonctions de l’iPhone en voiture. Un compartiment spécial situé derrière la façade est prévu pour loger l’iPhone. Il peut ainsi être rechargé pendant les déplacements. L’appareil est aussi compatible avec les iPod.

L’autoradio dispose d’un large bouton central pour naviguer dans les menus du baladeur ou du téléphone. Le profil Bluetooth peut être utilisé avec tous les autres appareils compatibles avec cette technologie. Le RKi8400 propose plusieurs connectiques dont une prise USB, un lecteur de cartes mémoires SD et deux entrées lignes pour des sources audio analogiques.

Parrot est connu pour ses solutions de kits mains-libres et on peut gager que la qualité sera une nouvelle fois au rendez-vous avec cet autoradio notamment en ce qui concerne les transmissions et le contrôle du mobile. Le RKi8400 dispose d’un système de reconnaissance vocale sans apprentissage. Le simple fait de dire le nom de son correspondant fait numéroter l’appareil.

Côté technique, l’autoradio est doté d’un système de puissance d’amplification de 200 Watts. Il propose la réception des ondes FM et AM. Toutes les informations telles que les noms des artistes, les menus, les répertoires et les pochettes d’album sont consultables sur un écran LCD de 2,4 pouces couleur. L’autoradio pour iPhone Parrot RKi8400 est disponible pour 300 euros environ.

La Chine donne la parole à Mona Lisa

MonaLisa

L'exposition des arts interactifs de Pékin (World Classic Interactive Arts) est l'occasion de découvrir une toute nouvelle version de soixante oeuvres dont notre célèbre Mona Lisa !

Il s'agit d'une version numérisée, avec rendu 3D et interactivité, d'une Joconde plus vraie que nature. Elle adresse la parole aux passants, répond à leurs questions et raconte sa vie, le tout en Mandarin ...

«C'est la première fois que la technologie 3D, la technologie holographique et la technologie de reconnaissance vocale fusionnent pour une seule et même exposition », explique Wang Hui, le directeur de l'exposition chinoise.

Usine virtuelle sur secondlife

L'institut « Manufacturing Engineering and Automation » du Fraunhofer mise sur Second Life et lance une usine virtuelle accompagnée d'une plate-forme d'apprentissage qui présente tous les éléments clés d'une chaîne de montage de quads

L'initiative a été développée à l'origine à destination du grand public, mais les chercheurs envisagent de proposer l'interface aux industriels pour qu'ils développent leur propre usine de développement virtuelle. Le but étant de faciliter la formation de collaborateurs à distance. "Le défi principal est de reproduire le cheminement logique de la production", explique Stefan Seitz,chercheur à l’institut Fraunhofer. En d’autres mots de faire comprendre comment une pièce produite par la machine A est transportée vers la B pour assemblage". Les avatars ont la possibilité de choisir entre différents modèles de quads, mais aussi leur couleur, les jantes et certaines spécifications techniques comme la consommation avant de lancer la production. Ces choix faits, l’avatar suit les différentes étapes de fabrication de son quad et interagit à certains moments de la production.

Un module de reconnaissance vocale à été intégré afin de contrôler les applications par téléphone. Nous n'avons pas encore pu le tester.

Pour en savoir plus (en allemand ...) Fraunhofer

Nao est un robot sympa

Voici Nao, un robot ludo-éducatif, présenté par Bruno Maisonnier, son concepteur

Apprendre une langue peut devenir amusant, il suffit de converser avec Nao, un robot développé par la société française Aldebaran Robotics, haut de 58 cm et pesant 4,5 kilos ... et coûtant 12 000 euros. Son prix pourrait fortement baisser dans les années à venir, afin d'être accessible au grand public.

Equipé d'un système de reconnaissance vocale, de synthèse vocale et de reconnaissance des visages grâce à deux caméras, Nao peut être utilisé à de nombreuses fins d'apprentissage. "C'est un robot compagnon qui peut être utilisé pour des tâches éducatives comme enseigner les tables de multiplication à un enfant ou une langue étrangère", ajoute Bruno Petit, directeur commercial.

Doté aussi du WiFi, Nao sait trouver des informations via internet. Un jour il saura aussi lire des contes de fées en mettant le ton, les gestes et un zeste de musique.

A découvrir ici :

Projet NATAL

Microsoft vient de présenter son «Project natal» afin de redonner du dynamisme à sa Xbox.

A l'instar de l'EyeToy, une caméra suit les mouvements du joueur et complète le tout avec la reconnaissance vocale ... l'objectif étant de faire disparaître la manette de jeu ! Une démonstration du jeu Milo montre d'ailleurs que les mots sont aussi bien reconnus que les émotions ...

A découvrir en vidéo (cliquez ici si la vidéo n'apparaît pas) :

Achat de musique ...

Pendant que beaucoup débattent sur le piratage, d'autres innovent dans les plateformes commerciales autour de la musique et de la vidéo. 

En Inde, Airtel propose ainsi un service qui identifie la musique cherchée en reconnaissance vocale ...

La campagne de communication fait appel à des stars de Bollywood (Shahrukh Khan, Saif Ali Khan, Kareena Kapoor) et même si on ne comprend pas l'hindi, le message est évident : il faut porter secours aux Game Addicts !

Si vous ne voyez pas la vidéo, cliquez ICI.

 
Un bon exemple à suivre en Europe ... si quelqu'un à une idée des technologies employées, merci de nous en informer.
Pour en savoir plus : HelloTunes

TellMe sur mobile

Windows Mobile 6.5 devrait embarquer la technologie de TellMe, déjà disponible sur Blackberry. La recherche vocale, la dictée de SMS et la gestion de l'annuaire seront alors possible vocalement.

tellme-thm.jpg

Et comme les interfaces vocales sont plus agréables en langage naturel, c'est la voie suivie par TellMe. Dariusz Packzuski, explique que le service "est si intuitif que ce sera sans doute l'interface majeure sur les mobiles dans les années à venir" D'ailleurs il donne comme exemple un service de bourse enn ligne où il est possible de demander "d'acheter 5000 actions de Coca-Cola". Dans ce type de transactions, si un élément manque, seul ce dernier sera réclamé par le service.

La reconnaissance vocale ne se fait pas sur le processeur, mais sur les serveurs de TellMe, transmis en VoIP.

Disponible à l'automne, sur le portail de Microsoft, il est déjà testable sur certains Blackberry ou sur le numéro : 1-800-555-TELL.

Avec des vrais morceaux de reco dedans ...

Selon Engadget Epson prépare aussi une table interactive comme la "Surface" de Microsoft.

Alors que l'ergonomie de Surface est critiquée ( le clavier et la souris sont souvent nécessaires ...) Epson a ajouté la reconnaissance vocale dans sa table.

A découvrir en vidéo, ici si vous ne voyez pas la vidéo ci-dessous ...

Assistant numérique intuitif

Fruit d'un essaimage du centre INRIA de Lorraine, Intuitive Machine est une start-up qui a été créée par Vincent Zgueb, lauréat de l'édition 2007 du Concours national d'aide à la création d'entreprise de technologies innovantes.

Adic, l'assistant numérique personnel développé par Intuitive Machine permet d'exécuter ou de faciliter toutes les micro-tâches liées au quotidien et à la vie privée par une simple commande vocale. Ainsi il peut notamment remplir une liste de courses, obtenir des informations sur les produits par simple lecture du code-barre, noter un rendez-vous et le rappeler grâce à sa synthèse vocale.

Il est aussi capable de reconnaître la voix des membres de la famille et peut être intégrable dans d'autres appareils tels que la "box" d'accès Internet, les téléphones portables ou, pourquoi pas, les fours micro-ondes. "90% de l'intelligence des systèmes résident dans leur interface avec l'utilisateur, d'où le succès de l'iPhone. C'est pourquoi nous avons apporté beaucoup de soins à la conception d'une interface naturelle et intuitive. In fine, l'emploi d'Adic est simple : je lui parle et il me répond, quoi de plus naturel!".

Ajoutons qu'outre ses fonctions propres, Adic pourra accueillir des services développés par des tiers. En fait, ce nouvel assistant numérique personnel tire son intelligence de sa capacité à manipuler des connaissances issues de l'utilisateur ou collectées sur Internet et à faire des déductions logiques, mais aussi de ses fonctions de dialogue. Actuellement, Adic est présenté à de futurs partenaires industriels.

Conversive : le nouveau langage naturel

Conversive, bien connu pour son automate de discussion en langage naturel veut étendre son expertise à la reconnaissance vocale.

Conversive Speech Recognition se donne comme premier objectif l'élimination des reformulations, sans doute un des principaux motifs de rejet de la part des utilisateurs. L'expérience accumulée par la gestion de chat online leur permet de penser que beaucoup de périphrases amènent à la même réponse, il suffit de bien les repérer.

L'offre n'est pas encore détaillée mais on a vu apparaître deux nouveaux partenaires, Cepstral et Nuance ...

Robert Williams, président de Conversive, pense que seule la satisfaction prime, quand bien même les entreprises cherchent à réaliser des économies, et que son offre apporte les deux. On attend de voir les premières réalisations !

Quel avenir pour les applications mobiles ?

Lors de Web 2.0 Expo, Vic Gundotra, directeur technique chez Google, a présenté sa vision de l'avenir du mobile. Et l'opportunité majeure qu'il discerne c'est l'explosion des mobiles connectés à internet, et il promet de nous surprendre avec les appareils photos et la reconnaissance vocale.

La recherche d'information est primordiale sur ces appareils, car en situation de mobilité ce sont les outils les plus pratiques pour trouver une information rapidement. ET, comme le rappelle Gundotra, la recherche est au coeur du business model de Google ... et si les technologies vocales ont été difficiles au début, il note un grand succès sur le GOOG-411 et l'application pour iPhone. Sur cette dernière ils ont noté une amélioration de 15% grâce aux adaptations faites au fur et à mesure de la collecte des usages ... Au passage il rappelle que déjà en 2002 un service téléphonique avait été testé par Google qui en avait tiré d'importants enseignements.

Greg Sterling, de SearchEngineLand, pense aussi que la recherche vocale sera un différentiateur important, cela dépendra de la qualité des réponses trouvées.

Portail vocal en location

Que fait l’Intelligence d’un Portail Vocal ?

Convaincu de la supériorité de la reconnaissance vocale sur le DTMF, DBscape, éditeur belge de solutions vocales, propose VocaPortal, un portail vocal dynamique, facile à faire évoluer grâce à une interface pur web et adapté à l’évolution rapide de la vie des entreprises. En facilitant l’interaction avec les sites web, l’IVP est la clé de l’approche multi-canal.

Basé sur la plate-forme VoiceXML 2.1, intégrant les connecteurs CTI et ACD comme les liens de bases de données, VocaPortal permet aussi bien les questions fermées que les ouvertes et une gestion dynamique du scénario.

Et pour le rendre plus accessible DBScape propose son portail en location, en mode ASP, minimisant ainsi l'investissement et accroissant le bénéfice opérationnel.

Pour en savoir plus :

ASUS parle

Alors que la version 3.0 de l'iPhone ne contient toujours pas de fonctions vocales, ASUS, qui s'est fortement investit sur le créneau des miniPC, annonce la reconnaissance vocale dans sa gamme Eee pour fin 2009.

Jerry Shen, le président d'ASUS, explique qu'une équipe et des partenaires majeurs étudient comment améliorer encore l'ergonomie de ces mini PC grâce à l'interaction vocale.

source : TechRadar

- page 1 de 8