달력

052012  이전 다음

  •  
  •  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  

Speech recognition

분류없음 2011/11/29 17:58
음성 인식(자동 음성 인식, 컴퓨터 음성 인식, 음성변환기(Speech to text) 또는 STT로도 알려져있다.)은 구술된 단어를 문장으로 변환한다. "Voice 인식 (또는 화자 인식)"이라는 용어는 특정 화자에 의해 반드시 훈련되어야 하는 인식 시스템으로 사용된다. 대부분 데스크탑 인식 SW에서 사용되는 케이스이다. 화자를 인식하는 것은 음성을 변환하는 일보다 단순해질 수 있다.

음성 인식은 단일 화자에 대한 인식없이 음성인식을 할 수 있는 기술에 대한 폭 넓은 솔루션이다. - 여러 음성을 인식할 수 있는 전화 시스템 같은 것을 예로 들 수 있다.

음성 인식 응용으로 음성 전화 걸기(e.g. "집으로 전화해.") 와 같은 음성 UI나 전화 경로, 가정용로봇 기기 제어, 검색, 단순 데이터 입력(e.g. 신용카드번호 입력), 구조적인 문서의 준비(ex, 방사능 보고서), 음성문장변화 처리(e.g. 워드 프로그레서 또는 이메일), 그리고 항공기(보통 직접 음성 입력이라는 용어로 사용된다.)가 있다.


Speech recognition applications include voice user interfaces such as voice dialing (e.g., "Call home"), call routing (e.g., "I would like to make a collect call"), domotic appliance control, search (e.g., find a podcast where particular words were spoken), simple data entry (e.g., entering a credit card number), preparation of structured documents (e.g., a radiology report), speech-to-text processing (e.g., word processors or emails), and aircraft (usually termed Direct Voice Input).

저작자 표시 비영리 변경 금지
Posted by ecogist

Multimodal interaction은 사용자에게 시스템과 인터페이스하는 여러가지 모드를 제공한다. Multimodal interface는 데이터의 입출력을 위해서 여러가지 차별화된 도구를 제공한다.

Multimodal input

Mutimodal 인터페이스의 2가지 주요 그룹이 나타나기 시작했다. 하나는 대체할 수 있는 입력방법에 대해 연구하고, 다른 한쪽은 입출력을 결합하는 방법에 대해 연구햇다. 전자는 키보드와 마우스의 입출력을 넘어서, 음성, 펜, 터치, 매뉴얼 제스쳐, 응시와 머리와 신체의 움직임과 같은 입력 방식등 여러가지 입력 방식을 결합했다. 대부분 일반적인 인터페이스의 결합은 영상 modality(디스플레이, 키보드, 마우스)와 음성 modality(음성인식으로 입력하고, 음성합성과 녹음된 음성으로 출력)이다. 그러나 다른 modality, 예를 들어 pen기반 입력과 촉각 기반 입출력이 사용될 수 잇다. Multimodal UI는 HCI의 연구 분야 중 하나이다.

다양한 입력 modality의 장점은 유용성이 증가하는 것이다. 하나의 modality의 약점은 다른 modality의 강점에 의해 상쇄된다. 조그만 영상 인터페이스와 키보드를 사용하는 모바일 장치에서, 어떤 단어를 타이핑하는 것은 말하는 것에 비해 훨씬 어려울 수 있다. (예, Poughkeepsie라는 단어). 이러한 동일한 디바이스 또는 셋톱박스에서 디지털 미디어 카탈로그를 통해 어떻게 접근하고 검색하는 지 고려하라.

Multimodal 입력 UI는 접근성에 대한 함축을 갖고 있다. 잘 설계된 multimodal 응용은 매우 다양한 장애(impairment)를 가진 사람들에게 사용될 수 있다. 시각적으로 장애를 가진 사람들은 특정 키패드 입력으로 음성 modality에 의지한다. 청각장애를 가진 사용자는 음성 입력으로 시각 modality에 의존한다. 다른 사용자들은 "상황 장애(e.g. 매우 시끄러운 환경에서 장갑을 착용하고, 운전하고, 공공 장소에서 신용카드번호를 입력해야하는 등)"에 있을 수 있고, 적절하게 원하는 modality를 단순히 사용할 수 있다. 한편, multimodal 응용은 사용자가 매우 부실하게 설계된 모든 modality를 운영한다고 요구한다.

시장에서 가장 일반적인 입력 multimodality의 형태는 XHTML+Vois(X+V) Web Markup 언어를 사용한다. 이는 IBM, Motorola,와 Opera Software에 의해 개발되고 스펙을 개설했다. X+V는 현재 W3C에 의해 고려되고 있고, visual markup을 위한 XHTML을 포함하여 몇몇 W3C 권고사항을 결합하고, Voice markup을 위한 VoiceXML은 XML 언어에 통합된 표준이다. Multimodal 브라우져는 X+V를 지원한다. 여기에는 IBM WebSphere Everyplace Multimodal Enviroment, Embedded Linux와 Windows를 위한 Opera, 그리고 Windows Mobile을 위한 ACCESS Systems NetFront를 포함한다. multimodal 응용을 개발하기 위해서 SW 개발자는 SW 개발 킷을 사용할 수 있다. 예를 들면,  오픈 소스 Eclipse Frameworkd를 기반하여, X+V 디버거, 에디터와 시뮬레이터를 포함하는 IBM WebSphere Multimodal Toolkit이 있다.

Multimodal Input / Output
Mutlimodal 시스템의 두번째 그룹은 멀티미디어 디스플레이와 multimodal 출력을 사용자에게 제공한다. 주로 영상과 음성 신호의 형태로 제공된다. 또한, 인터페이스 디자이너들은 또한, 터치와 후각과 같은 다른 modality의 이용하기 시작했다. 제안된 multimodal 출력의 이익은 시너지와 잉여성을 포함한다. 몇개의 modality를 통해 제공되는 정보가 나타나게 되고, 같은 처리를 하는 다양한 면으로 불린다. 정확하게 같은 정보를 처리하기 위해 여러개의 modality 사용하는 것은 정보 전달의 대역폭을 증가 시킨다. 현재, multimodal 출력은 커뮤니케이션 미디어와 컨텐츠 사이의 맵핑을 향상 시키는 데에 주로 사용이 된다. 이것은 또한 대량의 데이터가 있는 환경에서 운영자들이 상당한 시선 집중에 대한 요구에 직면하는 곳에 영상 관리를 지원한다.

multimodal 인터페이스 설계의 중요한 단계는 modality와 정보와 업무사이에 자연스러운 매핑을 창조하는 것이다. 음성 채널은 다양한 측면에서 영상과 달라진다. 이는 전방향적이고 지속적으로 변화하고 항상 보존된다. 음성 정보의 하나의 형태인 말은 상당한 주목을 받았다. 몇몇 가이드라인은 말의 사용을 위해 개발되었다.

터치 감각은 1950대 후분에 커뮤니케이션 미디어로 처음 활용되었다. 이는 장래성이 있고 독특한 통신 채널이다. HCI에서 주로 이용되었던 전형적인 2가지 감각인 영상과 청음과 대비하여, 터치 감각이 가장 가깝다. 이는 신체와 접촉하는 사물을 인지하고, 환경에 대한 인식과 행동을 동시에 지원하는 양방향성이 있다.

저작자 표시 비영리 변경 금지
Posted by ecogist

HCI에서, modality의 일반적인 분류는 다음과 같다.

감각기관을 통해서 사람은 컴퓨터의 출력을 받아드릴 수 있다. (예를 들어, vision modality)
센서나 장치를 통해 컴퓨터는 사람으로 부터 입력을 받아드릴 수 있다.

덜 형식적인 형태로, modality는 인간과 컴퓨터 사이의 소통 경로이다.

특정 업무나 혹은 업무내의 일부에 대해 여러가지 modality가 가능할 때, 시스템은 중첩된 modality를 갖는다고 한다.
모든 업무에 여러 modality가 가능한 경우, 시스템은 부차적인 modality를 갖는다고 한다.

특정 업무에 너무 많은 modality를 갖는 것은 현명하지 못한 생각이다. 그러나, 만약 충분한 modality를 갖지 못한다면 그것 또한 좋지 않을 것이다.

Computer–human modalities

어떤 인간의 감각도 modality로 변경시킬 수 있다. 실제로, 보고 듣는 것의 modality는 대부분 많이 사용된다. 다음과 같은 modality를 통해 컴퓨터가 인간에게 정보를 전달할 수 있다.

Major modality
- 보는 것 또는 vision modality
- 듣는 것 또는 audition modality

촉각을 사용하는(Haptic) modality
- 터치. tactile modality 또는 tactition modality - 압감(壓感)
- 자기 수용(Proprioception) modality - 신체 인식을 수용

다른 modality들
- 맛 또는 미각(gustation ) modality
- 냄새 또는 후각(olfaction) modality
- Themoception (온도를 수용하는 ) modality - 뜨겁고 차가움의 감각
- 통각(Nociception ) modality - 고통을 인지
- Equilibrioception( 평형 감각을  \수용하는) modality - 균형 감각

인간 - 컴퓨터 modality
컴퓨터는 다양한 입력 장치와 인간으로 부터 나오는 정보를 얻을 수 있는 센서를 갖출 수 있다.

저작자 표시 비영리 변경 금지
Posted by ecogist
기업 디자인 영역에 속하는 부분
UI = interaction이 일어나는 공간
interaction 의 목표 : 기계를 효과적으로 운영 또는 제어, (운영자에게 의사결정에 도움을 주기 위한) "기계로부터의 피드백"
넓은 UI의 예는 OS, hand tool, heavy machinery 운영자 제어, 그리고 process 제어등을 포함
ergonomics와 psychology 부분에 통합 또는 연관 되어있고, 설계를 고려할 때 응용이 가능함.

UI는 물리적인 하드웨어와 논리적 소프트웨어 부분들을 포함한다.
다양한 시스템에서 존재하고 다음과 같은 방법을 제공한다.
     Input - 사용자가 시스템을 조작하는 것을 허용한다.
     Output - 시스템이 유저의 조작 취지를 표시하는 것을 허용한다.

일반적으로 UI interaction 공학의 목표는 원하는 결과를 얻기 위해 기계를 조작하는 방법이 사용하기 쉽고, 효과적이고, 즐거워야 한다는 것이다.
이것은 운영자가 제공하는 데 필요한 최소한의 입력을 통해 원하는 output을 달성하고, 기계 또한 사람에게 원하지 않은 output을 최소한으로 줄이는 것을 의미한다.

PC사용이 증가하고 상대적으로 중장비의 사회적인 인식이 감소하여, UI의 용어는 점점 GUI의 용어로 대치.
반면 산업용 제어 패널과 기계 제어 설계에 관한 논의는 Human-manchine interface로 공통적으로 불리게 되엇다.

UI의 다른 용어는 HCI(human-computer interface), MMI(man-machine interface)가 있다.

시스템과 함께 업무를 진행하기 위해서는 사용자는 시스템의 상태를 제어하고 접근할 수 있어야한다.

용어

user interface와 operator interface 사이 또는 human-machine interface 사이에는 차이가 있다.
UI는 종종 compter 시스템과 전자기기 사이의 문맥으로 사용된다. 
 - 기기 또는 컴퓨터의 MES또는 Host를 통해 네트워크로 연결된다.
 - 한 개 또는 다양한 기기를 통해 사용될 수 있다.
 - 사용자에 따라서 구성을 다르게 해줘야 함 . (ex 도서관사용시, 훝어서 보려는 목적을 가진 사람(제한된 기능, 사용의 편리함)과 전문적인 목적을 가진 사람(폭 넓은 기능, 효율적인  최적화) 은 구성을 다르게 해줘야 함,)
 - 기계적 시스템과 사용자 인터페이스는 자동차나 기계설비로 HMI라는 용어로 언급되었다. HMI의 원래 용어는 MMI이다.
    실제, MMI는 여전히 자주 사용됨에도 불구하고 또 다른 사람은 MMI가 현재 다른 의미를 나타낸다고 주장하기도 한다.
    다른 용어인 HCI는 대부분 공통적으로 사용된다. operator interface console(OIC)와 operator interface termainal(OIT)도 사용되고 있다. 이러한 용어는 기계 자체와 기계를 운용하는 사람의 layer을 분리하기 위해서 사용된다.
 SF에서 HMI는 방향성 신경망 인터페이스라고 더 좋은 설명으로 언급되기도 한다.그러나, 이러한 향후 사용법은 실제 세계에서 (의학적인) 인공장기(prostheses : 없는 신체 일부를 대신하는 인공적인 확장(ex. 인공와우, cochlear implant, 人工蝸牛)의 응용이 증가하는 것으로 보인다.
 특정 환경의 컴퓨터에서는 사용자를 관찰할 수 있고 특정한 명령어의 입력없이 행동에 따라 반응할 수 있다.
머리의 위치를 지시하는 센서, 시선의 방향 등의, 신체의 일부를 추적하는 방법이 요청되어 실험적으로  사용되고 있다.
이것은 특별히 몰입형 인터페이스에 적합하다.

유용성
 (See also: mental model, human action cycle, usability testing, and ergonomics. List of human-computer interaction topics )

UI는 Computer 사용자 만족의 중요한 요소로 몇몇의 제작자에게 여겨진다.
UI의 설계는 사용자에게 입력방법을 제공하고, 시스템의 출력을 해석하는데 소비되는 노력의 양과 이것을 배우는 데에 얼마나 많은 노력이 필요한 지에 대해 영향을 미친다. 유용성은 특정한 UI 설계가 사용자의 인간 심리학과 생리학을 고려하는 정도를 말하고, 시스템의 처리과정을 효과적, 효율적, 그리고 만족스럽게 만들어준다.

유용성은 UI의 주요 특징이지만, 그것을 제품의 기능과 그것을 설계하는 과정에 연관되어있다. 목표로하는 사용자에게 효율적, 효과적이고  만족스럽게 원래 의도한 목적으로 얼마나 잘 사용되는지, 그리고 또한 사용중의 문맥으로 부터 요구사항이  잘 고려되었는지를 설명한다.
 
Computing에서 UI
CS와 HCI에서 UI는 영상, 언어, 그리고 음성정보를 사용자에게 제공하는 프로그램, 사용자가 프로그램을 제어하는 데 이용하는 제어 시퀀스(컴퓨터 키보드의 키스트로크, 컴퓨터 마우스의 움직임, 그리고 touchscreen의 선택과 같은)를 의미한다.

Types
직접 조작 인터페이스는 UI의 일반적 분류 이름으로, 사용자가 그들에게 제공된 사물을 최소한 실제 세계와 느슨한게 연결된 행동을 사용하여 조작하는 것을 말한다.
가장 공통적인 UI는 다음과 같은 형태가 있다. (2009)
GUI - 키보드, 마우스같은 장치로 입력을 받아 컴퓨터 모니터상에 구별된 그래픽 출력을 내보낸다. OOUI와 응용 지향 인터페이스로 구분되어 사용된다.
웹 기반 UI 또는 웹 UI  - 이것은 GUI의 하위분류이다. 제공된 입력을 받아 인터넷을 통해 출력된 웹페이지를 생성하여 출력으로 내보내고, 웹 브라우저 프로그램을 사용하여 보여진다. Java, AJAX, Flex, .NET또는 유사 기술이 구별된 프로그램에서 실시간 제어를 제공하고, 기존 HTML 기반 브라우져를 새롭게 하는 필요를 제거해가고 있다.
터치스크린 - 은 손가락이나 스타일러스 펜을 사용하는 입력장치. 모바일 장치와 많은 형태의 POS기기, 산업 처리기기와 기계, 셀프 서비스 기계등에서 사용이 증가하고 있다.
명령어 라인 인터페이스 - 키보드로 명령어 문자열을 입력하는 방법을 제공하고 컴퓨터 모니터에 텍스를 출력하는 형태
공학이나 과학분야에서 프로그래머나 시스템 관리자에 의해서 사용되고, 기술적으로 뛰어난 일반 PC사용자에 의해서 사용된다.
주의 깊은 UI - 이는 언제 사용자를 방해할지, 경고의 종류와 유저에게 나타낼 메시지의 상세 수준을 결정하여 유저의 주의력을 관리한다.
일괄처리(Batch) 인터페이스 - 상호작용을 할 수 없는 UI, 일괄처리 과정 전에 일괄처리 작업의 모든 세부사항을 사용자가 구체화해야하고, 처리결과가 마쳐야만 결과를 얻는다. 처리가 시작되면 입력은 더 이상 대기하지 않는다.
대화적 인터페이스 에이젼트 - 이는 움직이는 사람, 로봇 또는 다른 케릭터의 형태로 컴퓨터 인터페이스의 인격화를 시도하고, 대화적인 형태로 상호작용을 한다.
Crossing 기반 인터페이스 - 포인팅 대신 경계의 교차로 주요 업무를 구성하는 그래픽한 UI
제스쳐 인터페이스 - 컴퓨터 마우스 또는 스타일러스로 스케치한 입력을 받는 UI
인텔리젼트 UI - HMI의 효율성, 효과성, 자연스러움을 실행하는 높이기 위한 목적으로 사용자, 도메인, 태스크, 토론, 그리고 미디어의 모델 상에서 표현하고, 연역하고, 실행하는 HMI
동작트래킹 인터페이스 - 몸의 움직임을 관찰하고 이를 명령어로 번역, Apple에서 개발
Muti-screen 인터페이스 - 여러개의 디스플레이를 사용하여 보다 유연한 상호작용을 제공한다. 주로 게임 분야에서 많이 사용된다.
명령어없는 UI - 사용자의 명확한 명령을 구성하라는 요청없이 사용자의 욕구나 의도를 파악하는 시스템
OOUI- 는 객체지향프로그래밍의 원리를 기반으로 하여, 사용자가 시뮬레이션된 객체와 속성을 조작하는 것을 의미
Reflexive UI =  UI를 통해서 사용자가 시스템을 제어하고 재정의 하는 것을 말한다. 예를 들어, 프로그램의 명령어지시를 변경.
                     매우 풍부한  GUI에서 가능하다.
Tangible UI = 만져볼 수 있는 이라는 뜻으로 touch와 물리적 환경 또는 요소를 더욱 강조
Task-Focused 인터페이스 - 상호작용의 중요한 단위를 파일이 아닌 작업 중심으로 만들어, 데스크탑 메타포의 정보 가중의 문제를 해결하려고 한다.
텍스트 UI - 텍스트를 출력하는 UI. 그러나 입력은 명령어 문자열의 형태를 추가하거나 그것을 대신한 형태도 받아들일 수 있다.
음성 UI - 음성을 사용한 UI. 사용자 입력은 키나 버튼을 누르거나 말로 응답한다.
자연어 인터페이스 - 웹 페이지에서 검색 엔진을 위해 사용된다. 질의를 하고 응답을 대기한다.
Zero-Input 인터페이스 - 입력 상자에 사용자가 질의를 하는 대신에 센서를 사용하여 입력을 받는다.
Zooming UI -  정보 객체가 다른 스케일과 디테일을 갖는 GUI를 의미한다. 사용자는 더 자세한 부분을 보기 위해서 자신이 보는 영역의 scale을 변경할 수 있다.

Archy - 실험적인 키보드 지향 modeless UI. Jef Raskin, 문서 편집과 프로그래밍이 마우스 지향 UI보다 훨신 편리하다는 논쟁을 하고 있다. <= 신기하네.;

Consistency
좋은 UI의 특성은 일관성이다. 좋은 UI 설계는 사용자가 기대한 것에 일관성을 가지고 그들의 기대를 충족해야한다.
목적에 따라서 사용되지 않고, 최종사용자에게 아무런 이익이 없으면 나쁜것.
일관성도 한계가 있다.

일관성은 인식 차원 프레임워크(cognitive dimensions framework)로 묘사되는 UI에서 트레이드 오프 할 수 있는 하나의 질적 요소이다. 몇몇 사례에서, 일관성 원칙의 위배는 현명하고 신중한 UI 설계자가 다른 중요한 목표를 얻기 위해서 일관성 침해를 선택할 수 있고, 이것은 충분히 확실한 장점을 가져올 수 있다.

일관성과 관련된 3가지 측면은 다음과 같다.
1. 서로 다른 기능의 제어는 일관성이 있는 방식으로 나타내져야 한다. 그래야 사용자가 제어 기능을 쉽게 찾아낼 수 있다.
   UI의 디자인 단일화의 원리는 다음을 얘기한다. 이상적으로, 인터페이스를 위한 습관을 용이하게 하기 위한 단일한 기능을 얻기 위한 오직 한가지 방법이 존재한다.

2. "최소한으로 놀라는 원칙(Principle Of Least Astonishment, POLA)가 있다. 다양한 기능이 동일한 방법으로 작동해야하만 한다. Adobe Acrobat에서 특정 기능은 툴을 선택하고 그 기능을 적용하기 위해서  텍스트를 선택한다. 다른 프로그램은 먼저 텍스트를 선택하고, 그 다음에 선택한 것에 액션을 적용한다. 명령어는 모든 구문에서 동일한 방식으로 동작 해야한다.

3, 일관성은 version에 따라 변화하는 UI를 하지 말라고 권고한다. 변화는 최소화되고, 지난 버전과의 호환성이 반드시 유지되어야만 한다. 일반적으로 덜 성숙한 SW는 사용자가 현상유지 상태에 안주하는 적은 사용자를 가지고 있다. 더 오래된 훨씬 폭 넓게 사용되는 SW 는 더 조심해서 파괴 비용을 회피하기 위해 현상유지를 해야만 한다. MS 2007의 새로운 인터페이스(리본 메뉴)는 전문적 사용자 사이에서 거부감을 일으킨다. 이는 곳 생산성 약화를 불러일으킨다. 반면 평균 사용자는 생산성이 향상되고, 더 공평하게 좋은 수용성을 갖는다.

Modalities and modes

UI 디자인에서 사용자가 제품을 활용할 수 있는 방법의 차이를 설명하기 위해 2가지 용어를 사용한다. Modality는 같은 제품에 대한 다양한 서로 다른 인터페이스를 의미하는 반면, Mode는 같은 인터페이스의 서로 다른 상태를 의미한다.

Modality는 I/O를 수행하는 UI에 사용되는 소통의 경로이다.
입력 - 컴퓨터 키보드는 사용자에게 텍스트를 입력할 수 있게 한다. 디지타이저 테블릿은 자유로운 형태의 그림을 만들 수 있게 한다.
출력 - 컴퓨터 모니터는 시스템이 텍스트와 그래픽을 출력하게 한다. (vision modality) 스피커는 소리를 재생할 수 있게한다. (auditory modality)

UI는 다양한 부수적 I/O modality를 사용할 수 있다. 사용자가 상호작용을 위해 해당 기능을 사용하기 위해 선택할 수 있다.

Mode는 컴퓨터 프로그램내의 차별화된 작동 방법이다. 같은 입력으로 컴퓨터 프로그램의 상태에 따라 차별화되어 인식되는 결과를 생성할 수 있다. ( ex. CAPS LOCK 기능. ). 많은 모드의 사용은 종종 UI의 usability를 떨어드리기도 한다. 왜냐하면, 사용자가 현재 모드의 상태를 기억하는데 많은 노력을 기울여야 하고, 필요에 따라서 모드 사이의 전환이 필요하기 때문이다.


http://en.wikipedia.org/wiki/User_interface#Modalities_and_modes

저작자 표시 비영리 변경 금지
Posted by ecogist
 DC 인사이드 도서갤러리 사람들이 추천한 도서 목록 (문한/비문학) 

 


저작자 표시 비영리 변경 금지
Posted by ecogist