2022_3 Аннотации-6 |

АННОТАЦИИ К СТАТЬЯМ (ЖУРНАЛ ``ИНФОРМАТИЗАЦИЯ И СВЯЗЬ`` №3, 2022)

Антонов С.Г.

Метрики оценки качества читаемости текста и качества машинного перевода

Резюме: Целью работы является анализ существующих метрик оценки читаемости/понимаемости текста, в т.ч. оценки качества машинного перевода, как результатов работы компьютерных систем автоматической обработки текста, которые участвуют в формализации анализа человеком текста обширного дискурса. Рассмотрен процесс восприятия текста человеком. Предложено определение читаемости как оценка возможности достоверного извлечения фактов из текста, важных для решаемой информационной задачи. Проведен анализ существующих метрик и оценена их практическая значимость. Указано, что все известные метрики тем или иным образом зависят от субъективной оценки экспертов. Рассмотрены некоторые проблемы оценки качества машинного перевода, поскольку эти проблемы связаны с адекватной оценкой отображаемых в тексте фактов. Предложен подход к построению метрик оценки читаемости не требующий участия эксперта на основе системы лексико-грамматических классов слов большой размерности и аннотированного корпуса текстов.

Ключевые слова: читаемость/понимаемость текста, извлечение фактов из текста, метрики оценки читаемости, оценка читаемости на основе формализованных лингвистических данных.

S.G. Antonov

The metrics of estimation at text understanding and quality of machine traslation

Summary: The of this article is the analysis is the existial estimation of text understanding and machine translation, as the results of computer system for text analysis. Examined the process of the man text understanding. Suggest the text definition as the estimate of probability extraction real facts from text for information problem decision. Analysis of existing metrics executed, practical important estimated. Indicated, that all known methods depend on subjective estimation of expert. Some problems of machine translate quality had discussed. Offered the attraction for construction of metrics for text understanding, based on all known system of lexica-gramma classes. This method is not demand of export. Proposed new method, based for lexical-gramma classes of words, grand vocabulary, text corpus.

Keywords: text understanding, metrics for estimation of quality text understanding and machine translation, new metric based on corpus linguistic data.

DOI:10.34219/2078-8320-2022–13-3-40-51

ИНФОРМАЦИЯ ОБ АВТОРАХ

Антонов С.Г. – доктор технических наук, старший научный сотрудник, советник общества с ограниченной ответственностью «Лингвистические и информационныетехнологии», e-mail: Aserg2001@yandex.ru

Antonov S. – Doctor of Technical Science, Advisor for Limited Liability Company «Linguistic and Information Technologies», e-mail: Aserg2001@yandex.ru