Multimodal interaction은 사용자에게 시스템과 인터페이스하는 여러가지 모드를 제공한다. Multimodal interface는 데이터의 입출력을 위해서 여러가지 차별화된 도구를 제공한다.
Multimodal input
Mutimodal 인터페이스의 2가지 주요 그룹이 나타나기 시작했다. 하나는 대체할 수 있는 입력방법에 대해 연구하고, 다른 한쪽은 입출력을 결합하는 방법에 대해 연구햇다. 전자는 키보드와 마우스의 입출력을 넘어서, 음성, 펜, 터치, 매뉴얼 제스쳐, 응시와 머리와 신체의 움직임과 같은 입력 방식등 여러가지 입력 방식을 결합했다. 대부분 일반적인 인터페이스의 결합은 영상 modality(디스플레이, 키보드, 마우스)와 음성 modality(음성인식으로 입력하고, 음성합성과 녹음된 음성으로 출력)이다. 그러나 다른 modality, 예를 들어 pen기반 입력과 촉각 기반 입출력이 사용될 수 잇다. Multimodal UI는 HCI의 연구 분야 중 하나이다.
다양한 입력 modality의 장점은 유용성이 증가하는 것이다. 하나의 modality의 약점은 다른 modality의 강점에 의해 상쇄된다. 조그만 영상 인터페이스와 키보드를 사용하는 모바일 장치에서, 어떤 단어를 타이핑하는 것은 말하는 것에 비해 훨씬 어려울 수 있다. (예, Poughkeepsie라는 단어). 이러한 동일한 디바이스 또는 셋톱박스에서 디지털 미디어 카탈로그를 통해 어떻게 접근하고 검색하는 지 고려하라.
Multimodal 입력 UI는 접근성에 대한 함축을 갖고 있다. 잘 설계된 multimodal 응용은 매우 다양한 장애(impairment)를 가진 사람들에게 사용될 수 있다. 시각적으로 장애를 가진 사람들은 특정 키패드 입력으로 음성 modality에 의지한다. 청각장애를 가진 사용자는 음성 입력으로 시각 modality에 의존한다. 다른 사용자들은 "상황 장애(e.g. 매우 시끄러운 환경에서 장갑을 착용하고, 운전하고, 공공 장소에서 신용카드번호를 입력해야하는 등)"에 있을 수 있고, 적절하게 원하는 modality를 단순히 사용할 수 있다. 한편, multimodal 응용은 사용자가 매우 부실하게 설계된 모든 modality를 운영한다고 요구한다.
시장에서 가장 일반적인 입력 multimodality의 형태는 XHTML+Vois(X+V) Web Markup 언어를 사용한다. 이는 IBM, Motorola,와 Opera Software에 의해 개발되고 스펙을 개설했다. X+V는 현재 W3C에 의해 고려되고 있고, visual markup을 위한 XHTML을 포함하여 몇몇 W3C 권고사항을 결합하고, Voice markup을 위한 VoiceXML은 XML 언어에 통합된 표준이다. Multimodal 브라우져는 X+V를 지원한다. 여기에는 IBM WebSphere Everyplace Multimodal Enviroment, Embedded Linux와 Windows를 위한 Opera, 그리고 Windows Mobile을 위한 ACCESS Systems NetFront를 포함한다. multimodal 응용을 개발하기 위해서 SW 개발자는 SW 개발 킷을 사용할 수 있다. 예를 들면, 오픈 소스 Eclipse Frameworkd를 기반하여, X+V 디버거, 에디터와 시뮬레이터를 포함하는 IBM WebSphere Multimodal Toolkit이 있다.
Multimodal Input / Output
Mutlimodal 시스템의 두번째 그룹은 멀티미디어 디스플레이와 multimodal 출력을 사용자에게 제공한다. 주로 영상과 음성 신호의 형태로 제공된다. 또한, 인터페이스 디자이너들은 또한, 터치와 후각과 같은 다른 modality의 이용하기 시작했다. 제안된 multimodal 출력의 이익은 시너지와 잉여성을 포함한다. 몇개의 modality를 통해 제공되는 정보가 나타나게 되고, 같은 처리를 하는 다양한 면으로 불린다. 정확하게 같은 정보를 처리하기 위해 여러개의 modality 사용하는 것은 정보 전달의 대역폭을 증가 시킨다. 현재, multimodal 출력은 커뮤니케이션 미디어와 컨텐츠 사이의 맵핑을 향상 시키는 데에 주로 사용이 된다. 이것은 또한 대량의 데이터가 있는 환경에서 운영자들이 상당한 시선 집중에 대한 요구에 직면하는 곳에 영상 관리를 지원한다.
multimodal 인터페이스 설계의 중요한 단계는 modality와 정보와 업무사이에 자연스러운 매핑을 창조하는 것이다. 음성 채널은 다양한 측면에서 영상과 달라진다. 이는 전방향적이고 지속적으로 변화하고 항상 보존된다. 음성 정보의 하나의 형태인 말은 상당한 주목을 받았다. 몇몇 가이드라인은 말의 사용을 위해 개발되었다.
터치 감각은 1950대 후분에 커뮤니케이션 미디어로 처음 활용되었다. 이는 장래성이 있고 독특한 통신 채널이다. HCI에서 주로 이용되었던 전형적인 2가지 감각인 영상과 청음과 대비하여, 터치 감각이 가장 가깝다. 이는 신체와 접촉하는 사물을 인지하고, 환경에 대한 인식과 행동을 동시에 지원하는 양방향성이 있다.