토요일, 10월 12, 2024

음성 인식 기술은 구음 장애가 있는 사람들에게 상당한 이점을 제공합니다.

날짜:

마크 하세가와 존슨(Mark Hasegawa Johnson)은 최근 프로젝트를 위해 데이터를 조사하던 중 Eggs Florentine의 레시피를 발견하고 깜짝 놀랐습니다. 그는 수백 시간에 걸쳐 녹음된 연설을 검토해 보면 한두 가지 보물을 발견할 수 있을 것이라고 말했습니다.

Hasegawa Johnson은 언어 장애가 있는 사람들에게 음성 인식 장치를 더욱 유용하게 만들기 위한 일리노이 대학교 어바나-샴페인 캠퍼스의 이니셔티브인 음성 접근성 프로젝트를 이끌고 있습니다.

프로젝트의 첫 번째 발표 연구에서 연구자들은 자동 음성 인식기에 151시간의 오디오를 듣도록 요청했습니다. 약 6일 반 정도 -; 파킨슨병과 관련된 언어 장애가 있는 사람들의 녹음에서. 그들의 모델은 유사한 녹음의 새로운 데이터세트를 파킨슨병 환자의 말을 듣지 않은 대조 모델보다 30% 더 정확하게 복제했습니다.

이 연구는 음성, 언어 및 청각 연구 저널. 연구에 사용된 음성 녹음은 음성 인식 장치를 개선하려는 연구자, 비영리 단체 및 기업에서 무료로 사용할 수 있습니다.

“우리의 결과는 비정형 음성에 대한 대규모 데이터베이스가 장애인을 위한 음성 기술을 크게 향상시킬 수 있음을 시사합니다.일리노이주 전기 및 컴퓨터 공학과 교수이자 해당 프로젝트가 위치한 대학 Beckman 첨단 과학 기술 연구소의 연구원인 Hasegawa Johnson이 말했습니다. “다른 조직에서 이 데이터를 어떻게 사용하여 음성 인식 장치를 더욱 포괄적으로 만들 수 있을지 기대됩니다.”

스마트폰 및 가상 비서와 같은 장치는 자동 음성 인식을 사용하여 발화에서 의미를 추출함으로써 사람들이 재생 목록을 만들고, 핸즈프리로 메시지를 받아쓰고, 가상 회의에 원활하게 참여하고, 친구 및 가족과 명확하게 소통할 수 있도록 해줍니다.

음성 인식 기술이 모든 사람에게 잘 작동하는 것은 아닙니다. 특히, 집합적으로 구음장애라고 불리는 긴장되거나 일관되지 않은 다양한 언어 패턴을 유발할 수 있는 파킨슨병과 같은 신경학적 운동 장애가 있는 사람들.

“안타깝게도 이는 음성 제어 장치를 가장 필요로 하는 많은 사람들이 이를 잘 사용하는 데 더 어려움을 겪을 수 있다는 것을 의미합니다.”라고 Hasegawa-Johnson은 말했습니다.

“기존 연구를 통해 누군가의 목소리에 대해 ASR을 훈련시키면 더 정확하게 이해하기 시작할 것이라는 사실을 알고 있습니다. 우리는 다음과 같이 질문했습니다. 파킨슨병을 앓고 있는 사람들을 소규모 그룹에 노출시켜 자동 음성 인식기를 훈련시킬 수 있습니까? 비슷한 말투를 가진 사람들?

Hasegawa-Johnson과 동료들은 파킨슨병과 관련된 다양한 정도의 구음 장애를 앓고 있는 성인 약 250명을 모집했습니다. 연구에 참여하기 전에 잠재적 참가자는 적격성을 평가한 언어 병리학자를 만났습니다.

연구팀의 언어 병리학자인 클라리온 멘데즈(Clarion Mendez)는 “장기적인 의사소통 장애가 있는 많은 사람들, 특히 진행성 의사소통 장애가 있는 사람들은 일상적인 의사소통을 중단할 수 있습니다.”라고 말했습니다. “그들은 자신의 의사소통이 의미 있는 대화에 참여하기에는 너무 영향을 미친다고 믿고 자신의 고유한 생각, 요구 사항 및 아이디어를 너무 자주 공유할 수 있습니다.

“이들이 바로 우리가 찾고 있는 사람들입니다.”라고 그녀는 말했습니다.

선택된 참가자는 개인용 컴퓨터와 스마트폰을 사용하여 오디오 녹음을 제출했습니다. 그들은 자신의 속도에 맞춰 간병인의 선택적인 도움을 받아 “알람 설정”과 같은 사소한 음성 명령을 반복하고, 소설 구절을 읽고, “4인분 아침 식사 준비 단계를 설명해주세요. ”

마지막 질문에 대한 응답으로 한 참가자는 피렌체 계란을 만드는 단계를 열거했습니다. 홀랜다이즈 소스랑 다 -; 또 다른 사람은 실제로 테이크아웃을 주문하라고 조언했습니다.

우리는 참여 과정이 즐거웠을 뿐만 아니라 가족과 다시 연결될 수 있다는 자신감을 얻었다는 많은 참가자들의 의견을 들었습니다. 이 프로젝트는 희망과 설렘, 에너지를 가져왔습니다. 인간의 독특한 특성 -; “많은 참가자들과 그들의 사랑하는 사람들을 위해.”

Clarion Mendez, 언어병리학자

그녀는 팀이 참가자들의 삶과 관련된 콘텐츠를 개발하기 위해 파킨슨병 전문가 및 지역사회 구성원들과 협의했다고 말했습니다. 프롬프트는 구체적이고 즉흥적이었습니다. 예를 들어 약물 이름을 인식하도록 음성 알고리즘을 훈련하면 최종 사용자가 약국과 의사소통하는 데 도움이 될 수 있고, 일상 대화를 시작하는 사람은 일상적인 채팅의 리듬을 모방할 수 있습니다.

Mendez는 “우리는 참가자들에게 이렇게 말합니다. 모든 노력을 기울이면 연설을 더 이해하기 쉽게 만들 수 있지만 다른 사람의 이익을 위해 자신을 이해시키려고 노력하는 데 지쳤을 수도 있습니다.”라고 Mendez는 말했습니다. 소파에서 가족과 대화하듯 소통해보세요.

알고리즘이 음성을 얼마나 잘 듣고 학습했는지 측정하기 위해 연구원들은 샘플을 세 그룹으로 나누었습니다. 190명의 참가자, 즉 151시간의 기록으로 구성된 첫 번째 그룹이 모델을 훈련했습니다. 성능이 향상됨에 따라 연구원들은 모델이 두 번째 더 작은 녹음 세트에 도입되어 (단순히 참가자의 반응을 기억하는 것이 아니라) 진지하게 학습하고 있음을 확인했습니다. 모델이 두 번째 세트에서 최고 성능에 도달했을 때 연구원들은 테스트 세트를 사용해 모델에 도전했습니다.

연구팀 구성원은 모델이 작동하는지 확인하기 위해 참가자당 평균 400개의 녹음을 수동으로 기록했습니다.

그들은 훈련 세트를 들은 후 ASR 시스템이 23.69%의 단어 오류율로 테스트 세트의 녹음을 복사했다는 것을 발견했습니다. 비교를 위해 파킨슨병이 없는 사람들의 음성 샘플로 훈련된 시스템은 -36.3%의 단어 오류율로 테스트 세트를 복사했습니다. 정확도가 거의 30% 정도 떨어집니다.

테스트 그룹에 속한 거의 모든 개인의 오류율도 감소했습니다. 비정상적으로 빠르게 말하거나 말을 더듬는 등 덜 일반적인 파킨슨병 언어를 사용하는 사용자도 약간의 개선을 보였습니다.

하세가와-존슨은 “이런 엄청난 이점을 보게 되어 매우 기뻤습니다.”라고 말했습니다.

그는 참가자들의 다음과 같은 발언으로 인해 자신의 열정이 더욱 강해졌다고 덧붙였습니다.

“저는 이 기술의 미래에 관심이 있는 참가자 중 한 명과 이야기를 나눴습니다.”라고 그는 말했습니다. “이것이 이 프로젝트의 가장 큰 장점입니다. 사람들이 스마트 스피커와 휴대폰의 말을 이해할 수 있다는 사실에 얼마나 열광하는지 보는 것입니다. 그것이 바로 우리가 하려는 일입니다.”

관련 기사

북한은 남한의 무인기가 평양에 전단을 투하했다고 밝혔습니다.

북한은 지난 금요일 남한의 무인기가 평양에 반체제 전단을 살포했다고 밝혔으며, 이러한 도발이 계속될 경우 군사적 보복을 가할 것이라고...

한국은행, 경기 부양 위해 금리 인하

대한민국 서울 -- 한국 중앙은행은 지난 금요일 4년여 만에 처음으로 금리를 인하했습니다. 이는 침체된 경제를 되살리라는 압력이 가계부채...

동국전자, 세계 최초 생분해성 철판용 필름 개발

철강회사 동국홀딩스의 냉연강판 부문인 동국씨엠(Dongkuk Coated Metal Corporation, 이하 동국CM)은 세계 최초로 컬러강판용 생분해성 필름을 세계 최초로 공개했다.동국CM은...