АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``ИНФОРМАТИЗАЦИЯ И СВЯЗЬ`` №3, 2022)
Антонов С.Г.

Метрики оценки качества читаемости текста и качества машинного перевода

Резюме: Целью работы является анализ существующих метрик оценки читаемости/понимаемости текста, в т.ч. оценки качества машинного перевода, как результатов работы компьютерных систем автоматической обработки текста, которые участвуют в формализации анализа человеком текста обширного дискурса. Рассмотрен процесс восприятия текста человеком. Предложено определение читаемости как оценка возможности достоверного извлечения фактов из текста, важных для решаемой информационной задачи. Проведен анализ существующих метрик и оценена их практическая значимость. Указано, что все известные метрики тем или иным образом зависят от субъективной оценки экспертов. Рассмотрены некоторые проблемы оценки качества машинного перевода, поскольку эти проблемы связаны с адекватной оценкой отображаемых в тексте фактов. Предложен подход к построению метрик оценки читаемости не требующий участия эксперта на основе системы лексико-грамматических классов слов большой размерности и аннотированного корпуса текстов.

Ключевые слова: читаемость/понимаемость текста, извлечение фактов из текста, метрики оценки читаемости, оценка читаемости на основе формализованных лингвистических данных.

S.G. Antonov

The metrics of estimation at text understanding and quality of machine traslation

Summary: The of this article is the analysis is the existial estimation of text understanding and machine translation, as the results of computer system for text analysis. Examined the process of the man text understanding. Suggest the text definition as the estimate of probability extraction real facts from text for information problem decision. Analysis of existing metrics executed, practical important estimated. Indicated, that all known methods depend on subjective estimation of expert. Some problems of machine translate quality had discussed. Offered the attraction for construction of metrics for text understanding, based on all known system of lexica-gramma classes. This method is not demand of export. Proposed new method, based for lexical-gramma classes of words, grand vocabulary, text corpus.

Keywords: text understanding, metrics for estimation of quality text understanding and machine translation, new metric based on corpus linguistic data.

DOI:10.34219/2078-8320-2022–13-3-40-51

ИНФОРМАЦИЯ ОБ АВТОРАХ
Антонов С.Г. – доктор технических наук, старший научный сотрудник, советник общества с ограниченной ответственностью «Лингвистические и информационныетехнологии», e-mail: Aserg2001@yandex.ru

Antonov S. – Doctor of Technical Science, Advisor for Limited Liability Company «Linguistic and Information Technologies», e-mail: Aserg2001@yandex.ru