Accueil Internet L'ancien chef de l'IA de Snap lance Higgsfield pour concurrencer le générateur de vidéos Sora d'OpenAI

L'ancien chef de l'IA de Snap lance Higgsfield pour concurrencer le générateur de vidéos Sora d'OpenAI

OpenAI a captivé le monde de la technologie il y a quelques mois avec un modèle d'IA génératif, Sora, qui transforme les descriptions de scènes en vidéos originales - pas besoin de caméras ou d'équipes de tournage. Mais jusqu'à présent, Sora a été étroitement contrôlé, et la société semble le diriger vers des créatifs bien financés comme les réalisateurs d'Hollywood - pas nécessairement vers les amateurs ou les petits marketeurs.

Alex Mashrabov, l'ancien responsable de l'IA générative chez Snap, a senti une opportunité. Il a donc lancé Higgsfield AI, une plateforme de création et d'édition de vidéos alimentée par l'IA conçue pour des applications plus personnalisées et sur mesure.

Alimenté par un modèle personnalisé de texte à vidéo, la première application de Higgsfield, Diffuse, peut générer des vidéos à partir de zéro ou prendre un selfie et générer un clip mettant en vedette cette personne.

"Notre public cible est composé de créateurs de tous types", a déclaré Mashrabov à TechCrunch lors d'une interview, "des utilisateurs réguliers qui veulent créer du contenu amusant avec leurs amis aux créateurs de contenu social qui veulent essayer un nouveau format de contenu aux marketeurs des médias sociaux qui veulent que leur marque se démarque."

Mashrabov est arrivé chez Snap par le biais de AI Factory, sa précédente startup, que Snap a acquise en 2020 pour 166 millions de dollars. Chez Snap, Mashrabov a aidé à développer des produits tels que des effets de RA et des filtres pour Snapchat, y compris Cameos, ainsi que le controversé MyAI chabot de Snapchat.

Higgsfield - que Mashrabov a co-fondé il y a plusieurs mois avec Yerzat Dulat, un chercheur en IA spécialisé dans la vidéo générative - offre un ensemble de clips pré-générés, un outil pour télécharger des médias de référence (c'est-à-dire des images et des vidéos) et un éditeur de prompt qui permet aux utilisateurs de décrire les personnages, les actions et les scènes qu'ils souhaitent dépeindre. En utilisant Diffuse, les utilisateurs peuvent s'insérer directement dans une scène générée par l'IA, ou faire en sorte que leur avatar numérique mime des choses - comme des mouvements de danse - capturés dans d'autres vidéos.

Crédits d'image : Higgsfield

"Notre modèle prend en charge des mouvements et des expressions hautement réalistes", a déclaré Mashrabov. "Nous lançons des 'modèles mondiaux' pour les consommateurs, ce qui nous permettra de construire une génération et une édition de vidéos de classe mondiale avec un grand niveau de contrôle."

Higgsfield n'est pas la seule start-up de vidéo générative à rivaliser avec OpenAI. Runway a été l'une des premières sur le marché, et ses outils continuent de s'améliorer. Il y a aussi Haiper, qui bénéficie du soutien de deux anciens de DeepMind et de plus de 13 millions de dollars de capital-risque.

Mashrabov soutient que Diffuse se distinguera grâce à sa stratégie de mise sur le marché axée sur le mobile et les réseaux sociaux.

"En donnant la priorité aux applications iOS et Android plutôt qu'aux flux de travail sur ordinateur, nous permettons aux créateurs de créer un contenu convaincant pour les médias sociaux à tout moment et en tout lieu", a déclaré Mashrabov. "En effet, en nous concentrant sur le mobile, nous sommes en mesure de privilégier la facilité d'utilisation et des fonctionnalités conviviales pour les consommateurs dès le premier jour."

Higgsfield fonctionne également de manière efficace. Mashrabov affirme que les modèles génératifs sous-jacents à la plateforme ont été développés par une équipe de 16 personnes en moins de neuf mois et formés sur un groupe de 32 GPU (32 GPU peuvent sembler beaucoup, mais étant donné qu'OpenAI en utilise des dizaines de milliers, ce n'est pas vraiment le cas). Et Higgsfield n'a levé que 8 millions de dollars à ce jour, la majeure partie provenant d'une récente tranche de financement amorçage menée par Menlo Ventures.

Crédits d'image : Higgsfield

Pour rester un pas en avant par rapport aux concurrents, Higgsfield prévoit d'utiliser l'argent de l'amorçage pour construire un éditeur vidéo amélioré qui permettra aux utilisateurs de modifier les personnages et les objets dans les vidéos, et pour former des modèles de génération de vidéos plus puissants spécifiquement pour des cas d'utilisation dans les médias sociaux. En fait, Mashrabov voit les médias sociaux - et le marketing des médias sociaux - comme le principal créneau de rentabilité de Higgsfield.

Alors que Diffuse est actuellement gratuit, Mashrabov envisage un avenir où les marketeurs paieront des frais ou un abonnement pour des fonctionnalités premium, ou pour des volumes ou des campagnes à grande échelle.

"Nous pensons qu'Higgsfield débloque un niveau incroyable de réalisme et de cas d'utilisation dans la production de contenu pour les marketeurs des médias sociaux", a-t-il déclaré. "Nous entendons constamment des directeurs marketing et des directeurs de création qu'ils ont besoin d'optimiser les budgets de production de contenu et de raccourcir les délais tout en fournissant un contenu impactant. Nous pensons donc que les solutions d'IA générative vidéo seront une solution essentielle pour les aider à y parvenir."

Bien sûr, Higgsfield n'est pas à l'abri des défis plus larges auxquels sont confrontées les start-ups d'IA générative.

Il est bien établi que des modèles d'IA générative comme celui qui alimente Diffuse peuvent "régurgiter" des données d'entraînement. Pourquoi est-ce problématique? Eh bien, si les modèles ont été formés sur du contenu protégé par des droits d'auteur sans autorisation ou sans accord de licence, les utilisateurs de ces modèles pourraient générer involontairement une œuvre en infraction du droit d'auteur - les exposant à des poursuites.

Crédits d'image : Higgsfield

Mashrabov n'a pas révélé la source des données d'entraînement de Higgsfield (sinon pour dire qu'elles proviennent de " divers lieux publics disponibles ") et n'a pas non plus dit si Higgsfield conserverait les données des utilisateurs pour former de futurs modèles, ce qui pourrait ne pas convenir à certains clients commerciaux. Il a toutefois noté que les utilisateurs de Diffuse peuvent demander que leurs données soient supprimées à tout moment via l'application.

Les plates-formes de "clonage" numérique comme Higgsfield sont également susceptibles d'être utilisées de manière abusive, comme l'a montré la propagation effrénée des deepfakes sur les médias sociaux ces derniers mois.

Dans le même ordre d'idées, Higgsfield pourrait faciliter le vol de contenu des créateurs. Par exemple, il suffit de télécharger une vidéo de chorégraphie de quelqu'un pour générer une vidéo d'eux-mêmes interprétant cette même chorégraphie.

J'ai demandé à Mashrabov quels moyens de protection ou de sauvegarde Higgsfield pourrait utiliser pour tenter de prévenir les abus, et - bien qu'il n'ait pas donné de détails précis - il a affirmé que la plateforme utilise une combinaison de modération automatisée et manuelle.

"Nous avons décidé de déployer progressivement le produit et de le tester d'abord sur des marchés sélectionnés, afin de pouvoir surveiller les cas potentiels d'abus et d'adapter le produit si nécessaire", a ajouté Mashrabov.

Nous devrons attendre pour voir comment cela fonctionne en pratique.