Русская Википедия:Дерево хешей

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Файл:Hash Tree.svg
Бинарное хеш-дерево

Хеш-деревом, деревом Меркла (Шаблон:Lang-en) называют полное двоичное дерево, в листовые вершины которого помещены хеши от блоков данных, а внутренние вершины содержат хеши от сложения значений в дочерних вершинах. Корневой узел дерева содержит хеш от всего набора данных, то есть хеш-дерево является однонаправленной хеш-функцией. Дерево Меркла применяется для эффективного хранения транзакций в блокчейне криптовалют (например, в Bitcoin, Ethereum). Оно позволяет получить «отпечаток» всех транзакций в блоке, а также эффективно верифицировать транзакции[1].

Построение

Файл:Hash Tree bitcoin.svg
Пример хеш-дерева в биткойн-блоке

Заполнение значений в узлах дерева идет снизу вверх. Сперва к каждому блоку данных применяется хеширование<math>Hash_{00} = hash(L_1) </math>, <math>Hash_{01} = hash(L_2) </math> и так далее. Полученные значения записываются в листья дерева. Блоки, находящиеся уровнем выше, заполняются как хеши от суммы своих детей, <math>Hash_0 = hash(Hash_{00} + Hash_{01})</math>, где <math>+</math> обычно означает конкатенацию. Эта операция повторяется, пока не будет получено верхнее значение — <math>TopHash </math> или merkle_root[1].

В биткойне в качестве хеш-функции используется двойное SHA-256, то есть <math>hash(x) = \operatorname{SHA256}(\operatorname{SHA256}(x))</math>[1]. Впрочем, хеш-функция может быть любой, например Tiger Tree Hash (TTH), используемый в файлообменных p2p-сетях, является деревом Меркла с хеш-функцией Tiger[2].

Если количество блоков на каком-то уровне дерева оказывается нечетным, то один блок дублируется[1] или переносится без изменений на следующий уровень, как это происходит при вычислении Tiger Tree Hash[2].

Эффективность

Файл:Hash Tree proof.svg
Доказательство существования в хеш-дереве

Хеш-деревья имеют преимущество перед хеш-цепочками или хеш-функциями. При использовании хеш-деревьев гораздо менее затратным является доказательство принадлежности определённого блока данных к множеству. Поскольку различными блоками часто являются независимые данные, такие как транзакции или части файлов, то нас интересует возможность проверить только один блок, не пересчитывая хеши для остальных узлов дерева. Пусть интересующий нас блок - это <math>L_3</math> (см. рис.). Тогда доказательством его существования и валидности будут корневой хеш, а также верхние хеши других веток (<math>{auth_L}_4 = Hash_{11}</math> и <math>{auth_L}_2 = Hash_0</math>)[1][3]. В данном случае проверка не пройдена, если <math>TopHash \neq hash(Hash_0 + hash(hash(L_3) + Hash_{11})) </math>.

В общем случае можно записать

<math>signature(L) = (L\ |\ {auth_L}_1,\dots,{auth_L}_{K-1}) </math>,

а проверку осуществить как <math>TopHash == Hash_K </math>, где

<math>Hash_k = \begin{cases}

 hash(L),  & \mbox{if } k = 1, \\
 hash(Hash_{k-1} + {auth_L}_{k-1}), & \mbox{if } 2 \leq k \leq K

\end{cases}</math>.

Набор блоков <math>\{{auth_L}_1,\dots,{auth_L}_{K-1}\} </math> называется аутентификационный путь или путь Меркла[1].

Видно, что проверку выше можно выполнить за <math>O(K) = O(\log_2 N)</math> действий, где <math>K</math> - это высота дерева или длина аутентификационного пути, а <math>N</math> - это количество блоков данных. Такая же проверка в случае хеш-цепочки имела бы сложность <math>O(N)</math>[1][4].

Таблица ниже демонстрирует, что даже при значительном количестве транзакций в блоке о сложности вычислений можно не беспокоиться[1].

Количество транзакций Приблизительный размер блока Размер пути (в хешах) Размер пути (в байтах)
16 транзакций 4 килобайта 4 хеша 128 байт
512 транзакций 128 килобайт 9 хэшей 288 байт
2048 транзакций 512 килобайт 11 хэшей 352 байт
65535 транзакций 16 мегабайт 16 хэшей 512 байт

Упрощенная проверка оплаты

Блок биткойна хранит только значение merkle_root своих транзакций. Это позволяет получить определённые преимущества и снизить нагрузку на сеть.

После накопления достаточного числа блоков можно удалять старые транзакции для экономии места. При этом сам блок остается неизменным, так как в нём хранится только merkle_root. Блок без транзакций занимает 80 Б, или 4,2 МБ в год (при генерации блока каждые 10 минут)[5].

Становится возможной упрощенная проверка оплаты (Шаблон:Lang-en). SPV-узел загружает не весь блок, а только заголовок блока. Для интересующей его транзакции он запрашивает также ее аутентификационный путь. Таким образом он загружает всего несколько килобайт, тогда как полный размер блока может быть больше 10 мегабайт (см. таблицу)[1]. Использование этого метода, однако, требует, чтобы пользователь доверял узлу сети, у которого будет запрашивать заголовки блоков. Один из способов избежать атаки, то есть подмены узла недобросовестной стороной, — рассылать оповещения по всей сети при обнаружении ошибки в блоке, вынуждая пользователя загружать блок целиком[5].

На упрощенной проверке оплаты основана работа так называемых «тонких» биткойн-клиентов[6][7].

Дополнительно

Проблема обхода дерева Меркла

Дерево Меркла имеет также и недостатки, проявляющиеся при растущем количестве листьев. Как было показано ранее, для вычисления подписи произвольного блока <math>L </math> нужно знать все значения из множества <math>\{{auth_L}_i\} </math>. Это не вызывает проблем, если есть возможность хранить все внутренние вершины дерева в памяти, однако для больших деревьев (количество листьев может увеличиваться до <math>2^{40} </math>) это не подходит. Можно также каждый раз вычислять внутренние блоки заново, но это значительно понизит производительность такой системы. Поэтому возникает проблема эффективного обхода дерева и генерации подписей (Шаблон:Lang-en)[4]. На сегодняшний день существуют решения, использующие <math>2\log_2(N) </math> времени и <math>3\log_2(N) </math> памяти, где <math>N </math> — это количество листьев. Было также доказано, что не существует алгоритма обхода, который бы был одновременно лучше, чем <math>O(\log_2(N)) </math> и по времени, и по памяти[8].

Примечания

Шаблон:Примечания

См. также

Ссылки

Шаблон:Хеш-алгоритмы Шаблон:Деревья (структуры данных)