Русская Википедия:Индекс удобочитаемости
Индекс удобочитаемости — мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.
Индекс удобочитаемости Флеша
Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка. Она оценивает сложность текста по следующей формуле[1]
- <math>
FRE = 206{,}835 - 1{,}015 \frac{\text{total words}}{\text{total sentences}} - 84{,}6 \frac{\text{total syllables}}{\text{total words}},</math>
или
- FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,
где:
- ASL — средняя длина предложения в словах (Шаблон:Lang-en),
- ASW — средняя длина слова в слогах (Шаблон:Lang-en)[2].
Индекс по шкале FRES (Шаблон:Lang-en) распределяется таким образом:
- 100: Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем 2 слогов.
- 65: простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога.
- 30: Немного трудно читать. Предложения содержат до 25 слов. Обычно, двусложные слова.
- 0: Очень трудно читать. В среднем предложение имеет 37 слов. Слово имеет в среднем более 2 слогов.
Для английского языка значение 90—100 соответствует лёгкому тексту для младших школьников, 60—70 — тексту, который могут читать выпускники школы, тексты с индексом 0—30 предназначены для людей с высшим образованием.
В связи с тем, что в русском языке средняя длина предложения меньше (за счёт меньшего использования служебных слов, таких как артикли или вспомогательные глаголы), а слова в среднем длиннее, было предпринято несколько попыток разработать специфическую для русского языка версию меры, например, путём подгонки коэффициентов при сравнении индексов, полученных для оригинальных английских текстов и их переводов. Ниже представлен один из вариантов такой адаптации[3]:
- FRE = 206,835 − 1,52 × ASL − 65,14 × ASW.
В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за эталонные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком[4].
Примечания
- ↑ Шаблон:Cite web
- ↑ Rudolf Flesch (1948). A new readability yardstick, Journal of Applied Psychology, 32, С. 221—233.
- ↑ Оборнева И. В. (2005). Математическая модель оценки учебных текстов Шаблон:Wayback. Материалы XV Международной конференции-выставки "Информационные технологии в образовании" ("ИТО-2005"), г.Москва.
- ↑ Мизернов И. Ю., Гращенко Л. А. (2015). Анализ методов оценки сложности текста Шаблон:Wayback. Новые информационные технологии в автоматизированных системах, 18, С. 572—581.