АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``ИНФОРМАТИЗАЦИЯ И СВЯЗЬ`` №5, 2020)
Аксёнов А.А., Иванько Д.В., Лашков И.Б., Рюмин Д.А., Кашевник А.М., Карпов А.А.

Методика создания многомодального корпуса для аудиовизуального распознавания речи в ассистивных транспортных системах

Резюме: В статье представлена новая методика создания многомодального корпуса для аудиовизуального распознавания речи в ассистивных транспортных системах, предназначенных для водителей. Многомодальное распознавание речи позволяет использовать аудиоданные в случае, когда распознавание речи по видеоданным затруднено или невозможно (например, в ночное время), или же использовать видеоданные в условиях акустического шума (например, на шоссе). Рассматриваются несколько основных сценариев, когда требуется распознавание речи в салоне автомобиля для взаимодействия с системой мониторинга водителя. Методика определяет основные этапы и требования к проектированию многомодального корпуса. В работе также описаны метапараметры, которым должен соответствовать многомодальный корпус. Кроме того, описан программный комплекс для записи аудиовизуального речевого корпуса.

Ключевые слова: мониторинг водителя, автоматическое распознавание речи, многомодальный корпус, человекомашинное взаимодействие

A.A. Axyonov, D.V. Ivanko, I.B. Lashkov, D.A. Ryumin, A.M. Kashevnik, A.A. Karpov

A methodology of multimodal corpus creation for audio-visual speech recognition in assistive transport systems

Summary: This paper introduces a new methodology of multimodal corpus creation for audio-visual speech recognition in driver monitoring systems. Multimodal speech recognition allows using audio data when video data are useless (e.g. at nighttime), as well as applying video data in acoustically noisy conditions (e.g., at highways). The article discusses several basic scenarios when speech recognition in the vehicle environment is required to interact with the driver monitoring system. The methodology defi nes the main stages and requirements for the design of a multimodal building. The paper also describes metaparameters that the multimodal corpus must correspond to. In addition, a software package for recording an audiovisual speech corpus is described.

Keywords: driver monitoring, automatic speech recognition, multimodal corpus, human-machine interaction

DOI: 10.34219/2078-8320-2020-11-5-87-93

ИНФОРМАЦИЯ ОБ АВТОРАХ
Аксёнов Александр Александрович – младший научный сотрудник лаборатории речевых и многомодальных интерфейсов Федерального государственного бюджет-ого учреждения науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: a.aksenov95@mail.ru

Axyonov A.A. – junior researcher of the Speech and Multimodal Interfaces Laboratory, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS). e-mail: a.aksenov95@mail.ru

Иванько Денис Викторович – научный сотрудник лаборатории речевых и многомодальных интерфейсов, Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: denis.ivanko11@gmail.com

Ivanko D.V. – researcher of the Speech and Multimodal Interfaces Laboratory, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS). e-mail: denis.ivanko11@gmail.com

Лашков Игорь Борисович – кандидат технических наук, старший научный сотрудник лаборатории интегрированных систем автоматизации Федерального государственного бюджетного учреждения науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: igla@iias.spb.su

Lashkov I.B. – Ph.D., a Senior Researcher in Computer Aided Integrated Systems Laboratory at St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS). e-mail: igla@iias.spb.su

Рюмин Дмитрий Александрович – научный сотрудник лаборатории речевых и многомодальных интерфейсов, Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: ryumin.d@iias.spb.su

Ryumin D.A. – researcher of the Speech and Multimodal Interfaces Laboratory, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS). e-mail: ryumin.d@iias.spb.su

Кашевник Алексей Михайлович – кандидат технических наук, старший научный сотрудник лаборатории интегрированных систем автоматизации Федерального государственного бюджетного учреждения науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: alexey@iias.spb.su

Kashevnik A.M. – Ph.D., a Senior Researcher in Computer Aided Integrated Systems Laboratory at St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS). e-mail: alexey@iias.spb.su

Карпов Алексей Анатольевич – доктор технических наук, доцент, главный научный сотрудник, руководитель лаборатории речевых и многомодальных интерфейсов Федерального государственного бюджетного учреждения науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН). e-mail: karpov@iias.spb.su

Karpov A.A. – Doctor of Technical Sciences, Associate Professor, chief researcher, head of Speech and Multimodal Interfaces Laboratory, St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS) e-mail: karpov@iias.spb.su