Русская Википедия:R (язык программирования)
Шаблон:Значения Шаблон:Карточка языка программирования R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Язык создавался как аналогичный языку S, разработанному в Bell Labs, и является его альтернативной реализацией, хотя между языками есть существенные отличия, но в большинстве своём код на языке S работает в среде R. Изначально R был разработан сотрудниками статистического факультета Оклендского университета Россом Айхэкой (Шаблон:Lang-en) и Робертом Джентлменом (Шаблон:Lang-en) (первая буква их имён — R); язык и среда поддерживаются и развиваются организацией R Foundation[1].
Широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ[2].
Язык и среда доступны под лицензией GNU GPL; распространяются в виде исходных кодов, а также откомпилированных приложений под ряд операционных систем: FreeBSD, Solaris[3] и другие дистрибутивы Unix и Linux, Windows, macOS.
В R используется интерфейс командной строки, хотя доступны и несколько графических интерфейсов пользователя, например пакет R Commander, RKWard, RStudio, Weka, Rapid Miner, Шаблон:Iw, а также средства интеграции в офисные пакеты.
В 2010 году R вошёл в список победителей конкурса журнала Infoworld в номинации на лучшее открытое программное обеспечение для разработки приложений[4].
Особенности
R — интерпретируемый язык программирования, основным способом работы с которым является командный интерпретатор. Язык является регистрозависимым, в плане синтаксиса он похож, с одной стороны, на функциональные языки типа Scheme, с другой — на типичные современные сценарные языки, с простым синтаксисом и небольшим набором основных конструкций. Язык объектный: любой программный объект в нём имеет набор атрибутов — именованный список значений, определяющих его.
Язык поддерживает минимальный набор примитивных типов данных: символьный (character), числовой (numeric), логический (logical) и комплексный (complex). Числовые переменные, помимо обычных чисел, могут принимать специальные значения NaN (Not a Number — «не число») и Inf (Infinity — «бесконечность»). Бесконечность (положительная или отрицательная) получается при выходе результата вычислений за пределы представимого реализацией диапазона, NaN — при операциях с неопределённым результатом. Помимо этих, имеется ещё одно очень важное специальное значение, NA (Not Available — «не доступно»). Оно может быть использовано для фиксации того факта, что соответствующее значение, участвующее в вычислениях, по какой-либо причине не было получено (достаточно обычная в статистических расчётах ситуация, когда из-за сбоев в сборе данных некоторые наблюдения остаются без результатов).
Значения примитивных типов могут объединяться в векторы (vector), списки (list), матрицы или массивы (matrix), в том числе многомерные; эти комбинированные типы хранят наборы данных одного и того же примитивного типа. Помимо этого язык содержит понятие факторов (factor) — наборов категориальных или шкальных данных, принимающих строго определённый набор значений. Наконец, могут создаваться таблицы (data frame) — структуры данных, которые для каждой строки (индивида) хранят набор различных (и имеющих разные типы) параметров (признаков). Особенностью R является то, что операции с векторами и матрицами поддерживаются на уровне самого языка, как, например, в APL.
Существует операция извлечения и записи данных (аналог присваивания) «<-
», а также обычные операции работы с данными, в том числе арифметические. Доступ по индексу к элементам векторов и массивов осуществляется с помощью квадратных скобок, доступ к атрибутам списков — посредством оператора «$
». Имеется минимальный набор обычных конструкций императивного программирования: условный оператор if
, циклы while
и for
. Выражения на R можно описывать как отдельные объекты и вычислять по мере необходимости. На этом же механизме основано описание функций. Имеются встроенные в язык средства применения выражений и функций к векторам и массивам.
Функции R могут объединяться в пакеты — загружаемые модули, которые подключаются к любой программе и предоставляют объединённые в них вычислительные средства. Пакеты для R могут разрабатываться на других языках программирования, в том числе на Си, что позволяет, с одной стороны, скомпенсировать ограниченность изобразительных средств самого языка R, а с другой — при необходимости достигнуть высоких показателей вычислительной производительности.
Сам язык имеет довольно ограниченные и не слишком удобные средства описания данных, но это компенсируется наличием библиотечных средств, которые позволяют загружать в виде таблиц R наборы данных, представленных в большинстве открытых и многих проприетарных форматах. Так, в R могут быть легко загружены таблицы в простом текстовом формате, таблицы Excel различных версий, данные в форматах CSV, XML и многих других.
В целом, как язык программирования, R довольно прост и даже примитивен. Его наиболее сильная сторона — возможность неограниченного расширения с помощью пакетов. В базовую поставку R включён основной набор пакетов, а всего по состоянию на 2019 год доступно более Шаблон:Num пакетов[5]. В R реализованы практически все актуальные средства универсальных статистических вычислений, такие как регрессионный анализ и анализ временных рядов, а также множество специфических алгоритмов для решения узкоспециализированных задач и исследований в отдельных областях.
Ещё одна особенность языка — возможность создания качественной графики типографского уровня, которая может быть экспортирована в распространённые графические форматы и использована для презентаций или публикаций. Имеются готовые пакеты, связывающие R с GUI-фреймворками (например, основанными на Tcl/Tk) и позволяющие создавать специализированные утилиты статистического анализа с графическим интерфейсом пользователя и отображением результатов в виде графиков и диаграмм.
Примеры
Базовый синтаксис
> x <- c(1,2,3,4,5,6) # Создать упорядоченную коллекцию
> y <- x^2 # Возвести в квадрат элементы из x
> print(y) # Вывести y
[1] 1 4 9 16 25 36
> mean(y) # Рассчитать среднее арифметическое y; результат - число
[1] 15.16667
> var(y) # Рассчитать дисперсию
[1] 178.9667
Средний балл выпускника вуза
# В переменную a поместить список всех оценок:
a <- c(4,3,3,3,3,4,4,4,4,4,5,4,4,4,5,5,5,5,+
3,5,5,4,4,3,3,4,4,3,5,5,4,3,3,4,4,3,3,5,4,5,5)
# В переменную n поместить количество оценок:
length(a) -> n
# Средний балл:
m <- mean(a)
# Таблица (горизонтальная) с подсчётом количества оценок:
t <- table(a)
# Преобразование в более удобный формат данных (вертикальную таблицу):
f <- as.data.frame(t)
# Вычисление процентной доли и запись её в третий столбец:
mapply(function(r) r*100/n, f[,2]) -> f[,3]
# Заголовки столбцов:
colnames(f) <- c("Оценка", "Кол-во", "%")
# Вывод результатов:
a
n
m
f
Результат:
[1] 4 3 3 3 3 4 4 4 4 4 5 4 4 4 5 5 5 5 3 5 5 4 4 3 3 4 4 3 5 5 4 3 3 4 4 3 3 5 | вывод a (в строку влезли 38 чисел из 41) [39] 4 5 5 | (оставшиеся три числа) [1] 41 | вывод n [1] 4 | вывод m Оценка Кол-во % | 1-й столбец - номер строки в таблице 1 3 12 29.26829 | 2-й столбец - вид оценки ("3"/"4"/"5") 2 4 17 41.46341111 | 3-й столбец - количество оценок 3 5 12 29.26829 | 4-й столбец - процентная доля оценок
Инструменты
Для удобства работы с R разработан ряд графических интерфейсов, в том числе RStudio, JGR, RKWard, SciViews-R, Statistical Lab, R Commander, Rattle, а также программный пакет Shiny.
Кроме того, в ряде текстовых и кодовых редакторов предусмотренные специальные режимы для работы с R, в частности в ConTEXT, Emacs (Emacs Speaks Statistics), jEdit, Kate, Notepad++, Syn, TextMate, Tinn-R, Vim, Bluefish, WinEdt (с пакетом RWinEdt), Gedit (с пакетом rgedit/gedit-r-plugin). Для среды разработки Eclipse существует специализированный R-плагин; доступ к функциям и среде выполнения R возможен из Python с использованием пакета RPy; работать с R можно из эконометрического пакета Gretl.
Коммерциализация
Компания Revolution Analytics, основанная в 2007 году и поглощённая Microsoft в 2015 году, целиком свой бизнес основывала на коммерциализации языка программирования R, в её коммерческом пакете Revolution R примечательны такие компоненты (не распространяемые со свободной версией языка), как ParallelR (поддержка многопоточности среды выполнения), R Productivity Environment (интегрированная среда разработки), RevoScaleR (поддержка массово-параллельной обработки в рамках концепции «больших данных»), RevoDeployR, библиотеки по интеграции с веб-службами, поддержка форматов статистических пакетов корпорации SAS Institute[6].
В октябре 2011 года корпорация Oracle выпустила аппаратно-программный комплекс Big Data Appliance — NoSQL-кластер серверов массово-параллельной обработки, с интегрированным программными средствами на основе языка R и Apache Hadoop[7], а в феврале 2012 года язык встроен в Oracle Database[8]. В 2011 году массово-параллельный анализ средствами R реализован в аппаратно-программных комплексах Netezza корпорации IBM[9][10]; позднее язык поддержан в аппаратно-программном комплексе SAP Hana.
Также язык R поддерживают коммерческие программные среды Tibco Spotfire, SPSS (начиная с версии 16.0)[11], Statistica (начиная с версии 9.0), Platform Symphony, Power BI, SAS, Tableau.
CRAN
R и дополнительные пакеты распространяются через CRAN (акроним Comprehensive R Archive Network). По состоянию на конец 2010-х годов в мире доступны более 60 зеркал CRAN, головной узел расположен в Вене (Австрия)[12].
Информационный бюллетень R
Два-три раза в год выходит свободно распространяемый информационный журнал R Journal[13], включающий статьи о статистической обработке данных и разработке, нацеленный как на пользователей языка, так и разработчиков R. С января 2001 года по октябрь 2008 года он выходил в качестве бюллетеня R News[14].
Конференции
Одна из самых популярных конференций, посвящённых языку — useR! (The R User Conference), проходит ежегодно, начиная с 2004 года, собирает специалистов в различных областях.
Начиная с 2009 года каждой весной в Чикаго проводится конференция, посвящённая применению R в финансах (R/Finance: Applied Finance with R). В 2013 году прошла первая конференция, посвящённая применению R в страховании (R in Insurance).
Примечания
Литература
Ссылки
- R-Project.org Шаблон:WaybackШаблон:Ref-en
- Шипунов А. Б. R — объектно-ориентированная статистическая среда Шаблон:WaybackШаблон:Ref-ru
- Графическая галерея R — примеры графики, генерируемой R
- Золотых Н. Ю., Половинкин А. Н. Введение в R Шаблон:WaybackШаблон:Ref-ru
- Введение от Vincent Zoonekynd Шаблон:WaybackШаблон:Ref-en — знакомит с работой R.
- R: A Language and Environment for Statistical Computing. Reference Index / The R Development Core Team Шаблон:WaybackШаблон:Ref-en
- Обучающие курсы по R Шаблон:Wayback
- ↑ Шаблон:Cite web
- ↑ Teaching-with-R.pdf Шаблон:WaybackШаблон:Ref-en
- ↑ R-Project on SolarisШаблон:Недоступная ссылка Шаблон:Недоступная ссылка
- ↑ InfoWorld Bossie Awards 2010 Шаблон:Webarchive
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite news
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- Страницы, использующие устаревший тег source
- Русская Википедия
- Язык программирования R
- Статистическое программное обеспечение
- Свободное математическое программное обеспечение
- Свободные компиляторы и интерпретаторы
- Программное обеспечение проекта GNU
- Предметно-ориентированные языки программирования
- Страницы, где используется шаблон "Навигационная таблица/Телепорт"
- Страницы с телепортом
- Википедия
- Статья из Википедии
- Статья из Русской Википедии