Русская Википедия:Коэффициент лексического разнообразия

Коэффициент лексического разнообразия (КЛР, Шаблон:Lang-en) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц (лемм, Шаблон:Lang-en) и количества их употреблений в тексте (текстоформ, Шаблон:Lang-en).

Вычисляется по формуле

<math> L_d = N_{\mathrm{lex}}/N</math>,

где

<math>L_d</math> — коэффициент лексического разнообразия,

<math>N_{\mathrm{lex}}</math> — количество уникальных лексем, или лемм, в анализируемом тексте,

<math>N</math> — количество текстоформ (общее количество словоформ) в анализируемом тексте.

Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объема текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объема. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы^[1].

Близким к КЛР является коэффициент лексической плотности текста (Шаблон:Lang-en), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий.

Способы вычисления КЛР

TTR

TTR (Шаблон:Lang-en) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина^[2]. Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91).

TTR можно вычислять, по-разному интерпретируя понятие type: под ним может подразумеваться
1) лексема во всей совокупности своих словоформ (лемма): например, лексема рубашка для форм рубашка, рубашки, рубашкой, рубашек и т. д.,
2) отдельная словоформа или совокупность омонимичных словоформ или даже омонимов по отношению к отдельным вхождениям этих словоформ в текст («текстоформам»): например, дома для текстоформ до́ма, дома́.
Первое решение лингвистически корректно, но повышает требования к степени автоматизации вычисления коэффициента, так как предполагает умение морфологического анализатора осуществлять разметку по частям речи и лемматизацию. Второе уязвимо с теоретической точки зрения, обнаруживает зависимость от морфологии конкретного языка (что, например, снижает его достоверность при сравнении оригинальных и переводных текстов), однако легко автоматизируется.

VocD

Метод VocD (Шаблон:Lang-en) предложен в работах Д. Малверна и его коллег^[3] и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков.

Использование

Коэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи.

Примечания

Шаблон:Примечания

Литература

Ure, J. (1971). Lexical density and register differentiation. In G. Perren and J.L.M. Trim (eds), Applications of Linguistics, London: Cambridge University Press. 443—452.

Ссылки

Онлайн-анализатор текста, вычисляющий в том числе и КЛР (не работает с кириллицей)

[1] Шаблон:Cite web

[2] Шаблон:Книга

[3] Шаблон:Публикация

[1]

[2]

[3]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Коэффициент лексического разнообразия

Содержание

Способы вычисления КЛР

TTR

VocD

Использование

Примечания

Литература

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты