Spatial computing et UX : les leçons du Vision Pro et des interfaces 3D

Un nouveau paradigme d'interaction

Le spatial computing — terme popularisé par Apple avec le Vision Pro — représente un changement de paradigme comparable au passage de la ligne de commande à l'interface graphique. Les travaux de Bowman et al. (2004, actualisés en 2023) sur l'interaction 3D identifient quatre tâches fondamentales : sélection, manipulation, navigation et contrôle système. Chacune exige des solutions de design radicalement différentes de celles du 2D.

Les premiers retours utilisateurs du Vision Pro, documentés par Zhan et al. (2024) en recherche académique, révèlent un paradoxe : les utilisateurs sont émerveillés par la technologie mais frustrés par les interactions. Le « pinch » (pincement des doigts) pour sélectionner est intuitif les 10 premières minutes, puis génère de la fatigue musculaire. Le regard comme pointeur est précis mais crée une « Midas touch problem » — tout ce qu'on regarde est potentiellement une cible, ce qui paralyse l'exploration visuelle.

Pour les designers, la leçon principale est que l'immersion spatiale amplifie à la fois les bonnes et les mauvaises décisions de design. Un bouton mal placé en 2D est un inconvénient ; en spatial, il peut provoquer des douleurs cervicales si l'utilisateur doit lever la tête 200 fois par heure.

Ergonomie des zones de confort

Les Human Interface Guidelines d'Apple pour visionOS (2024) et les recherches de Poupyrev et al. (2022) convergent sur des zones de confort précises. La distance optimale de contenu : entre 40 cm et 2 mètres, avec une distance idéale de 1 à 1,5 mètre. Le contenu en dessous de 40 cm provoque une convergence oculaire douloureuse ; au-delà de 4 mètres, la parallaxe stéréoscopique est trop faible pour percevoir la profondeur.

L'angle vertical est critique. Le contenu principal doit se situer entre 0° et 30° sous l'horizon visuel de l'utilisateur (la ligne de regard naturelle au repos est légèrement vers le bas). Le contenu au-dessus de l'horizon provoque une fatigue cervicale rapide. Les menus contextuels devraient apparaître en dessous du point de regard, pas au-dessus.

La « zone dorée » du spatial computing est donc un arc de 60° horizontal centré sur le regard, entre 0 et 30° vers le bas, à une distance de 1 à 1,5 mètre. C'est l'équivalent spatial du « above the fold » du web design. Tout contenu essentiel doit y résider.

Profondeur et hiérarchie visuelle en 3D

L'un des résultats les plus importants des recherches sur le spatial UX est la « règle des 3 couches ». Les études de Kim et al. (2023) sur la perception de profondeur en environnements mixtes montrent que les utilisateurs ne peuvent gérer efficacement que 3 niveaux de profondeur simultanés : un plan proche (interactions), un plan moyen (contenu), un plan lointain (contexte/environnement).

Au-delà de 3 couches, la charge cognitive de gestion de la profondeur surpasse le bénéfice informationnel. L'utilisateur perd la notion de « où est quoi » dans l'espace. C'est exactement le même problème que le z-index en CSS, mais en trois dimensions physiques.

La recommandation de design : utiliser la profondeur comme un outil de hiérarchie, pas de décoration. Le contenu actif est proche, le contenu secondaire est au plan moyen, l'environnement est lointain. Les animations de transition entre les couches doivent être lentes (300-500ms) pour permettre à l'accommodation visuelle de s'ajuster. Un changement de profondeur brusque provoque le même inconfort qu'un changement de focus entre un écran proche et un objet lointain.

Regard vs gestes vs voix : quel input pour quelle action

Les recherches comparatives de Pfeuffer et al. (2022) sur les modalités d'entrée en réalité mixte montrent que chaque modalité a un cas d'usage optimal. Le regard est rapide pour la sélection (150ms vs 400ms pour le pointage manuel) mais imprécis pour les cibles petites. Les gestes sont intuitifs pour la manipulation directe (déplacer, redimensionner) mais fatigants pour les actions répétitives. La voix est efficace pour les commandes système mais inadaptée en environnement social.

Le pattern émergent est le « multimodal cascading » : le regard identifie la cible, un micro-geste la confirme, et la voix déclenche les actions complexes. Apple l'a implémenté dans visionOS : regarder un bouton + pincer pour cliquer. Mais ce pattern crée un couplage temporel — le regard et le geste doivent être synchronisés, ce qui est problématique pour les utilisateurs avec des troubles moteurs ou de coordination.

Pour un design accessible en spatial computing, la règle est l'indépendance des modalités : chaque action doit être réalisable par au moins deux modalités différentes. Si le pinch est le seul moyen de sélectionner, les utilisateurs avec des tremblements ou de l'arthrite sont exclus. Le « dwell selection » (sélection par maintien du regard pendant 800ms) doit toujours être disponible comme alternative.

Ce que le spatial computing change pour les designers produit

Le spatial computing ne remplacera pas les écrans 2D, mais il crée une nouvelle couche d'interaction pour certains cas d'usage. Les domaines où la recherche montre un avantage clair du spatial : la visualisation de données 3D (architecture, médecine, ingénierie), la collaboration à distance (téléprésence), et les interfaces de productivité multi-fenêtres (remplacement de l'écran physique).

Pour les designers produit qui ne travaillent pas directement en XR, les leçons du spatial sont néanmoins applicables : la hiérarchie de profondeur (ombres, blur, superposition) est déjà un paradigme spatial appliqué en 2D. Les études de Rizzotto (2023) montrent que les interfaces 2D qui utilisent des indices de profondeur cohérents (ombres réalistes, blur progressif, parallaxe au scroll) sont perçues comme 30 % plus « naturelles » que les interfaces plates.

Le conseil le plus actionnable : même si vous ne designez pas pour le spatial computing aujourd'hui, familiarisez-vous avec les concepts d'ergonomie 3D, de fatigue visuelle et d'interaction multimodale. Ces compétences deviendront essentielles à mesure que les interfaces spatiales se démocratisent, et elles améliorent déjà votre compréhension de la perception visuelle en 2D.