Русская Википедия:Re2c

re2c (regular expression to c, regular expression to code) — это свободная утилита–генератор, с открытым исходным кодом, генерирует быстрые и легко встраиваемые лексеры, ориентированна на работу совместно с языками: Си, C++, Go, Rust.

Изначально утилита была создана Питером Бамбулисом (Шаблон:Lang-en) и описана в его статье^[1], позже re2c был передан в общественное достояние и с тех пор поддерживается добровольцами^[2].

Утилита отличается от своих более известных аналогов (таких как lex и flex) тем, что имеет гибкий интерфейс взаимодействия (сгенерированный код взаимодействует с внешней программой с помощью примитивов), генерирует оптимизированные нетабличные лексеры, поддерживает захваты (submatch extraction) на основе детерминированных конечных автоматов с тэгами (TDFA).

Утилита в основном распространена в проектах, где требуется высокая скорость анализа синтаксиса, например Ninja^[3] и PHP^[4].

Философия

Основная цель re2c — генерировать быстрые лексеры^[1], по крайней мере настолько же быстрые, как и разумно оптимизированные лексеры, написанные вручную на языке Си. Вместо использования традиционного табличного подхода re2c кодирует сгенерированный конечный автомат непосредственно в форме условных переходов и сравнений. В результате программа работает быстрее, чем её аналог на основе таблиц^[1], и её гораздо проще отлаживать и понимать. Более того, такой подход часто приводит к уменьшению размера лексеров^[1], поскольку re2c применяет ряд оптимизаций, таких как минимизация ДКА и построение туннельного автомата^[5]. Еще одной отличительной особенностью re2c является его гибкий интерфейс. Вместо того, чтобы использовать фиксированный шаблон программы, re2c позволяет программисту написать большую часть кода интерфейса и адаптировать сгенерированный лексер к любой конкретной среде. Основная идея заключается в том, что re2c должен быть абстракцией с нулевыми затратами для программиста, использование утилиты никогда не должно приводить к более медленной работе программы, чем соответствующая реализация с вручную написанным кодом.

Возможности

Захваты submatch extraction^[6] — re2c поддерживает как группы захвата, совместимые с POSIX, так и отдельные тэги^[7].

Реализация основана на алгоритме «lookahead-TDFA»^[8]^[9]^[10];

Поддержка различных кодировок^[11] — re2c поддерживает ASCII, UTF-8, UTF-16, UTF-32, UCS-2 и EBCDIC;
Гибкий пользовательский интерфейс^[12] — сгенерированный код использует несколько примитивных операций для взаимодействия с окружающей средой (считывание входных символов, переход к следующей позиции ввода и т. д.). Пользователи могут переопределять эти примитивы так, как им необходимо;
Сохраняемое состояние^[13] — re2c поддерживает как лексеры pull-модели (когда лексер работает без прерываний и при необходимости извлекает больше входных данных), так и лексеры push-модели (когда лексер периодически останавливается и возобновляется для анализа новых блоков ввода);
Условия запуска^[14] — re2c может генерировать несколько взаимосвязанных уровней, где каждый лексер запускается определенным условием в программе;
Само-проверка^[15] — re2c имеет специальный режим, в котором он игнорирует весь код интерфейса, определенный пользователем, и генерирует автономную программу-скелет. Кроме того, re2c генерирует два файла — один со строками ввода, полученными из обычной грамматики, и один со сжатыми результатами сверки, которые используются для проверки поведения лексера на всех входах. Входные строки генерируются так, чтобы они широко охватывали переходы и пути ДКА. Генерация данных происходит сразу после построения ДКА и до любых оптимизаций, но сам лексер полностью оптимизирован, поэтому программы-скелеты способны выявлять любые ошибки в оптимизации и генерации кода;
Система предупреждений^[16] — re2c выполняет статический анализ программы и предупреждает своих пользователей о возможных неопределённостях или ошибках, таких как неопределённый поток управления, недостижимый код, неправильно экранированные escape-символы и потенциальное неправильное использование примитивов интерфейса;
Отладка — помимо создания удобочитаемых лексеров, re2c имеет ряд опций, которые выводят различные промежуточные представления сгенерированного лексера, такие как НКА, несколько этапов ДКА и результирующий программный график в формате языка DOT^[17].

Синтаксис

Программа re2c может содержать любое количество блоков /*!re2c ... */. Каждый блок состоит из последовательности правил, определений и конфигураций (их можно смешивать, но, как правило, лучше сначала размещать конфигурации, затем — определения, а затем — правила). Правила имеют вид — REGEXP { CODE } или REGEXP := CODE;, где REGEXP — регулярное выражение, а CODE — является блоком кода на языке Си. Когда REGEXP совпадает с входной строкой, поток управления передаётся соответствующему блоку CODE. Существует одно специальное правило: правило по умолчанию с * вместо REGEXP, оно срабатывает, если никакие другие правила не совпадают. re2c имеет семантику жадного соответствия — если несколько правил совпадают, предпочтительным является правило, соответствующее более длинному префиксу, если конфликтующие правила соответствуют одному и тому же префиксу, то более раннее правило имеет приоритет. Определения имеют вид NAME = REGEXP; (и, соответственно, NAME { REGEXP } в Flex-совместимом режиме). Конфигурации имеют вид re2c:CONFIG = VALUE;, где CONFIG является именем конкретной конфигурации и VALUE является числом или строкой. Для более расширенного использования ознакомьтесь с официальным руководством re2c^[18].

Регулярные выражения

re2c использует следующий синтаксис для регулярных выражений:

"foo" строковый литерал с чувствительностью к регистру;
'foo' строковый литерал без чувствительности к регистру;
[a-xyz], [^a-xyz] класс символов (с возможностью отрицания);
. любой возможный символ, кроме символа новой строки;
R \ S разница в классах символов;
R* нуль или большее количество совпадений с символом R;
R+ одно или большее количество совпадений с символом R;
R? необязательное совпадение с символом R (нуль или одно);
R{n} повторение R точно n раз;
R{n,} повторение R по крайней мере n раз;
R{n,m} повторение R от n до m раз;
(R) просто R (круглые скобки используются для переопределения приоритета или для соответствия в стиле POSIX);
R S конкатенация R, за которой следует S;
R | S альтернатива R или S;
R / S поиск с опережением (Шаблон:Lang-en) R, за которой следует S;
name регулярное выражение, определенное как name (за исключением режима совместимости с Flex);
@stag s-метка (с Шаблон:Lang-en — метка или тэг) — сохраняет последнюю позицию ввода, в которой @stag совпадает с переменной с именем stag;
#mtag m-метка — сохраняет все позиции ввода, в которых #mtag совпадает с переменной с именем mtag.

Классы символов и строковые литералы могут содержать следующие escape-последовательности: \a, \b, \f, \n, \r, \t, \v, \\, восьмеричного вида \ooo и шестнадцатеричного вида \xhh, \uhhhh, \Uhhhhhhhh.

Примеры кода

Шаблон:Hider hiding

Программные проекты, использующие re2c

PHP — популярный язык сценариев общего назначения^[4];
Ninja — система сборки, ориентированная на скорость^[3];
SpamAssassin — программа для фильтрации спама электронной почты^[19];
BRL-CAD — программа 3D-моделирования (САПР)^[20];
STEPCode — имплементация стандарта ISO 10303^[21];
Yasm — модульный ассемблер, полная переработка NASM^[22];
Wake — инструмент для сборки от SiFive^[23].

См. также

Шаблон:Столбцы Шаблон:Столбец

Шаблон:Столбец

Шаблон:Столбцы/конец

Примечания

Шаблон:Примечания

Ссылки

[re2cpaper-1] 1,0 ^1,1 ^1,2 ^1,3 Шаблон:Статья

[2] Шаблон:Cite web

[о_Ninja-3] 3,0 ^3,1 Шаблон:Cite web

[о_PHP-4] 4,0 ^4,1 Шаблон:Cite web

[gro89paper-5] Шаблон:Статья

[6] Шаблон:Cite web

[lau00paper-7] Шаблон:Статья

[tro17paper-8] Шаблон:Cite journal

[tro20paper-9] Шаблон:Статья

[tro21slides-10] Шаблон:Cite web

[11] Шаблон:Cite web

[12] Шаблон:Cite web

[13] Шаблон:Cite web

[14] Шаблон:Cite web

[15] Шаблон:Cite web

[16] Шаблон:Cite web

[17] Шаблон:Cite web

[18] Шаблон:Cite web

[19] Шаблон:Cite web

[20] Шаблон:Cite web

[21] Шаблон:Cite web

[22] Шаблон:Cite web

[23] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Re2c

Содержание

Философия

Возможности

Синтаксис

Регулярные выражения

Примеры кода

Программные проекты, использующие re2c

См. также

Примечания

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты