Tech News

Correspondre à n’importe quelle image avec un imaginaire sonore à l’aide de cette IA-alimenté web app

Le son peut être merveilleusement évocateur; nous fouettant loin des bureaux et des maisons pour s’asseoir à côté de babillage des flux dans l’ombre des forêts, ou trembler sur un exposé à flanc de montagne. Mais un nouveau projet par des chercheurs Japonais tire parti de ce potentiel imaginatif et il se combine avec l’IA pour effet magique. La web app — “Imaginaire Sonore” — utilise l’apprentissage de la machine correspond à l’image que vous téléchargez, avec un couplage audio.

Télécharger un Japonais gravure sur bois de bateaux de pêche, par exemple, et le système offre des vagues et de l’eau, les sons; charger une peinture abstraite de rossignols, et vous êtes donné un jardin paysage sonore de carillons à vent et les oiseaux. Souvent, les résultats sont exactement ce que vous attendez, mais plus intéressant, c’est lorsque le système de ramasse sur les éléments dans l’image, vous risquez de ne pas avoir immédiatement pensé (comme l’appariement de Megatron avec tracteur sons), ou qui n’ont pas de sens (comme cette peinture de mains appariés avec des sons à partir d’un live jeu de sport).

Certains quicks conseils: vous avez tendance à obtenir des résultats intéressants lorsque vous téléchargez des illustrations, des photographies de l’activité humaine, et d’images abstraites. Le téléchargement de mèmes confond tout simplement la machine.

Un diagramme montrant comment le système fonctionne. Crédit: Yuma Kajihara, Shoya Dozono, et Nao Tokui

Tout cela est le produit d’un nombre relativement simple IA mécanisme. Il utilise la reconnaissance de l’objet à identifier les éléments à l’intérieur de l’image, et correspond à un dataset de plus de 52 000 fichiers sonores. Les chercheurs responsables — Yuma Kajihara, Shoya Dozono, et Nao Tokui de l’Université de Toky — ont travaillé sur ce genre de “cross-modal” modèle pendant des années. Une version antérieure de l’Imaginaire des Paysages sonores lancé en janvier, afin de faire correspondre l’audio avec des images de Google Street View, et vous pouvez lire ce billet de blog de Tokui pour plus d’informations sur ce projet. (Il cite Brian Eno comme une source d’inspiration.)

C’est un peu de fun app et un fantastique exemple de nouvelles formes d’expression créative de l’IA permet. Le système n’est pas parfait — l’objection de reconnaissance fait des erreurs, et le son de base de données est inévitablement incomplète, mais ça fait partie du charme. Si quoi que ce soit, le fait fortuite et inattendue des paysages sonores qu’il produit sont plus intéressants que les “corriger” les matchs. Laissez-nous savoir quelles paires vous rendre dans les commentaires ci-dessous.

About the author

Cyriac

Je suis Zeh Cyriac , fondateur et chef de la direction de la société informatique DROP Corporation Inc. et blogueur indépendant aux États-Unis, avec une passion pour l'Entrepreneuriat en ligne, le marketing de contenu et toutes les choses qui tournent au tour du digital et ’informatique .

Add Comment

Click here to post a comment

Newsletter

Les dernières nouvelles du Web, de la high-tech et de l'innovation numérique tous les matins à l'heure du petit déjeuner.

Vous avez parfaitement souscrit ! Consultez vos mails pour confirmer l'inscription .