음성 인식 기술

음성 인식, 음성 명령에 응답하는 장치의 기능. 음성 인식을 통해 다양한 장치 및 장비 (특히 많은 장애인에게 혜택 제공)를 핸즈프리로 제어하고 자동 번역에 입력 할 수 있으며 인쇄 가능한 받아쓰기를 만들 수 있습니다. 음성 인식을위한 최초의 응용 분야는 자동화 된 전화 시스템 및 의료 받아쓰기 소프트웨어였습니다. 구술, 데이터베이스 쿼리 및 컴퓨터 기반 시스템에 명령을 내리는 데 특히 전문 어휘에 의존하는 직업에서 자주 사용됩니다. 또한 Apple의 Siri와 같은 차량 및 스마트 폰의 개인 비서도 지원합니다.

모든 기계가 음성을 해석하기 전에 마이크는 사람의 음성 진동을 물결 모양의 전기 신호로 변환해야합니다. 이 신호는 시스템의 하드웨어 (예: 컴퓨터의 사운드 카드)에 의해 디지털 신호로 변환됩니다. 음성 인식 프로그램은 분석의 기본 구성 요소 인 별도의 음소를 인식하기 위해 분석하는 디지털 신호입니다. 음소는 단어로 다시 결합됩니다. 그러나 많은 단어가 비슷하게 들리므로 적절한 단어를 선택하려면 프로그램이 컨텍스트에 의존해야합니다. 많은 프로그램이 트리 그램 분석을 통해 컨텍스트를 설정합니다. 트리 그램 분석은 빈번한 3 워드 클러스터 데이터베이스를 기반으로하는 방법으로, 두 단어 뒤에 주어진 세 번째 단어가 나올 확률이 할당됩니다. 예를 들어, 화자가 "누가"라고 말하면 다음 단어는 비슷하게 들리지만 "눈"이 아닌 대명사 "I"로 인식됩니다. 그럼에도 불구하고 때로는 오류를 수정하기 위해 사람의 개입이 필요합니다.

전화 음성 내비게이션 시스템과 같이 몇 가지 분리 된 단어를 인식하는 프로그램은 거의 모든 사용자에게 적용됩니다. 반면에, 받아쓰기 프로그램과 같은 지속적인 언어 프로그램은 개인의 언어 패턴을 인식하도록 훈련되어야합니다. 훈련은 사용자가 텍스트 샘플을 큰 소리로 읽는 것을 포함합니다. 오늘날 개인용 컴퓨터와 모바일 장치의 강력한 기능으로 음성 인식의 정확도가 크게 향상되었습니다. 수만 단어를 포함하는 어휘에서 오류율이 약 5 %로 줄었습니다. 방사선 진단의 지시와 같은 특수 응용 분야의 제한된 어휘에서는 더 큰 정확도에 도달합니다.