Русская Википедия:Коэффициент лексического разнообразия

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Коэффициент лексического разнообразия (КЛР, Шаблон:Lang-en) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц (лемм, Шаблон:Lang-en) и количества их употреблений в тексте (текстоформ, Шаблон:Lang-en).

Вычисляется по формуле

<math> L_d = N_{\mathrm{lex}}/N</math>,

где

  • <math>L_d</math> — коэффициент лексического разнообразия,
  • <math>N_{\mathrm{lex}}</math> — количество уникальных лексем, или лемм, в анализируемом тексте,
  • <math>N</math> — количество текстоформ (общее количество словоформ) в анализируемом тексте.

Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объема текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объема. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы[1].

Близким к КЛР является коэффициент лексической плотности текста (Шаблон:Lang-en), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий.

Способы вычисления КЛР

TTR

TTR (Шаблон:Lang-en) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина[2]. Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91).

TTR можно вычислять, по-разному интерпретируя понятие type: под ним может подразумеваться
1) лексема во всей совокупности своих словоформ (лемма): например, лексема рубашка для форм рубашка, рубашки, рубашкой, рубашек и т. д.,
2) отдельная словоформа или совокупность омонимичных словоформ или даже омонимов по отношению к отдельным вхождениям этих словоформ в текст («текстоформам»): например, дома для текстоформ до́ма, дома́.
Первое решение лингвистически корректно, но повышает требования к степени автоматизации вычисления коэффициента, так как предполагает умение морфологического анализатора осуществлять разметку по частям речи и лемматизацию. Второе уязвимо с теоретической точки зрения, обнаруживает зависимость от морфологии конкретного языка (что, например, снижает его достоверность при сравнении оригинальных и переводных текстов), однако легко автоматизируется.

VocD

Метод VocD (Шаблон:Lang-en) предложен в работах Д. Малверна и его коллег[3] и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков.

Использование

Коэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи.

Примечания

Шаблон:Примечания

Литература

  • Ure, J. (1971). Lexical density and register differentiation. In G. Perren and J.L.M. Trim (eds), Applications of Linguistics, London: Cambridge University Press. 443—452.

Ссылки