Русская Википедия:Дерево хешей
Хеш-деревом, деревом Меркла (Шаблон:Lang-en) называют полное двоичное дерево, в листовые вершины которого помещены хеши от блоков данных, а внутренние вершины содержат хеши от сложения значений в дочерних вершинах. Корневой узел дерева содержит хеш от всего набора данных, то есть хеш-дерево является однонаправленной хеш-функцией. Дерево Меркла применяется для эффективного хранения транзакций в блокчейне криптовалют (например, в Bitcoin, Ethereum). Оно позволяет получить «отпечаток» всех транзакций в блоке, а также эффективно верифицировать транзакции[1].
Построение
Заполнение значений в узлах дерева идет снизу вверх. Сперва к каждому блоку данных применяется хеширование<math>Hash_{00} = hash(L_1) </math>, <math>Hash_{01} = hash(L_2) </math> и так далее. Полученные значения записываются в листья дерева. Блоки, находящиеся уровнем выше, заполняются как хеши от суммы своих детей, <math>Hash_0 = hash(Hash_{00} + Hash_{01})</math>, где <math>+</math> обычно означает конкатенацию. Эта операция повторяется, пока не будет получено верхнее значение — <math>TopHash </math> или merkle_root
[1].
В биткойне в качестве хеш-функции используется двойное SHA-256, то есть <math>hash(x) = \operatorname{SHA256}(\operatorname{SHA256}(x))</math>[1]. Впрочем, хеш-функция может быть любой, например Tiger Tree Hash (TTH), используемый в файлообменных p2p-сетях, является деревом Меркла с хеш-функцией Tiger[2].
Если количество блоков на каком-то уровне дерева оказывается нечетным, то один блок дублируется[1] или переносится без изменений на следующий уровень, как это происходит при вычислении Tiger Tree Hash[2].
Эффективность
Хеш-деревья имеют преимущество перед хеш-цепочками или хеш-функциями. При использовании хеш-деревьев гораздо менее затратным является доказательство принадлежности определённого блока данных к множеству. Поскольку различными блоками часто являются независимые данные, такие как транзакции или части файлов, то нас интересует возможность проверить только один блок, не пересчитывая хеши для остальных узлов дерева. Пусть интересующий нас блок - это <math>L_3</math> (см. рис.). Тогда доказательством его существования и валидности будут корневой хеш, а также верхние хеши других веток (<math>{auth_L}_4 = Hash_{11}</math> и <math>{auth_L}_2 = Hash_0</math>)[1][3]. В данном случае проверка не пройдена, если <math>TopHash \neq hash(Hash_0 + hash(hash(L_3) + Hash_{11})) </math>.
В общем случае можно записать
<math>signature(L) = (L\ |\ {auth_L}_1,\dots,{auth_L}_{K-1}) </math>,
а проверку осуществить как <math>TopHash == Hash_K </math>, где
<math>Hash_k = \begin{cases}
hash(L), & \mbox{if } k = 1, \\ hash(Hash_{k-1} + {auth_L}_{k-1}), & \mbox{if } 2 \leq k \leq K
\end{cases}</math>.
Набор блоков <math>\{{auth_L}_1,\dots,{auth_L}_{K-1}\} </math> называется аутентификационный путь или путь Меркла[1].
Видно, что проверку выше можно выполнить за <math>O(K) = O(\log_2 N)</math> действий, где <math>K</math> - это высота дерева или длина аутентификационного пути, а <math>N</math> - это количество блоков данных. Такая же проверка в случае хеш-цепочки имела бы сложность <math>O(N)</math>[1][4].
Таблица ниже демонстрирует, что даже при значительном количестве транзакций в блоке о сложности вычислений можно не беспокоиться[1].
Количество транзакций | Приблизительный размер блока | Размер пути (в хешах) | Размер пути (в байтах) |
---|---|---|---|
16 транзакций | 4 килобайта | 4 хеша | 128 байт |
512 транзакций | 128 килобайт | 9 хэшей | 288 байт |
2048 транзакций | 512 килобайт | 11 хэшей | 352 байт |
65535 транзакций | 16 мегабайт | 16 хэшей | 512 байт |
Упрощенная проверка оплаты
Блок биткойна хранит только значение merkle_root
своих транзакций. Это позволяет получить определённые преимущества и снизить нагрузку на сеть.
После накопления достаточного числа блоков можно удалять старые транзакции для экономии места. При этом сам блок остается неизменным, так как в нём хранится только merkle_root
. Блок без транзакций занимает 80 Б, или 4,2 МБ в год (при генерации блока каждые 10 минут)[5].
Становится возможной упрощенная проверка оплаты (Шаблон:Lang-en). SPV-узел загружает не весь блок, а только заголовок блока. Для интересующей его транзакции он запрашивает также ее аутентификационный путь. Таким образом он загружает всего несколько килобайт, тогда как полный размер блока может быть больше 10 мегабайт (см. таблицу)[1]. Использование этого метода, однако, требует, чтобы пользователь доверял узлу сети, у которого будет запрашивать заголовки блоков. Один из способов избежать атаки, то есть подмены узла недобросовестной стороной, — рассылать оповещения по всей сети при обнаружении ошибки в блоке, вынуждая пользователя загружать блок целиком[5].
На упрощенной проверке оплаты основана работа так называемых «тонких» биткойн-клиентов[6][7].
Дополнительно
Проблема обхода дерева Меркла
Дерево Меркла имеет также и недостатки, проявляющиеся при растущем количестве листьев. Как было показано ранее, для вычисления подписи произвольного блока <math>L </math> нужно знать все значения из множества <math>\{{auth_L}_i\} </math>. Это не вызывает проблем, если есть возможность хранить все внутренние вершины дерева в памяти, однако для больших деревьев (количество листьев может увеличиваться до <math>2^{40} </math>) это не подходит. Можно также каждый раз вычислять внутренние блоки заново, но это значительно понизит производительность такой системы. Поэтому возникает проблема эффективного обхода дерева и генерации подписей (Шаблон:Lang-en)[4]. На сегодняшний день существуют решения, использующие <math>2\log_2(N) </math> времени и <math>3\log_2(N) </math> памяти, где <math>N </math> — это количество листьев. Было также доказано, что не существует алгоритма обхода, который бы был одновременно лучше, чем <math>O(\log_2(N)) </math> и по времени, и по памяти[8].
Примечания
См. также
Ссылки
- Merkle Patricia Tree — улучшенная реализация дерева Меркла, использующаяся в Ethereum.
- Tiger Tree Torrent — предложение по замене SHA-1 на Tiger Tree Hash в .torrent файлах.
Шаблон:Хеш-алгоритмы Шаблон:Деревья (структуры данных)