-The internet is becoming more and more centralized. As companies and individuals increasingly rely on centralized cloud providers for storage, critical concerns on privacy, censorship, and user control, as well as on the concentration of economic power in the hands of few entities become more pronounced.
+Интернет становится все более централизованным. По мере того как компании и частные лица все больше полагаются на централизованных облачных провайдеров для хранения данных, возрастает озабоченность по поводу конфиденциальности, цензуры и контроля пользователей, а также концентрации экономической власти в руках небольшого числа субъектов.
-While there have been several attempts at providing alternatives, modern decentralized storage networks (DSNs) often fall short on basic aspects like having strong durability guarantees, being efficient to operate, or providing scalable proofs of storage. This in turn leads to solutions that are either: _i)_ not useful, as they can lose data; _ii)_ not friendly to decentralization, as they require specialized or expensive hardware, or; _iii)_ economically unfeasible, as they burden providers with too many costs beyond those of the storage hardware itself.
+Хотя было несколько попыток предоставить альтернативы, современные децентрализованные сети хранения данных (DSN) часто не соответствуют базовым аспектам, таким как наличие надежных гарантий долговечности, эффективность работы или возможность масштабируемых доказательств хранения. Это, в свою очередь, приводит к решениям, которые либо: _i)_ бесполезны, так как могут потерять данные; _ii)_ не дружелюбны к децентрализации, так как требуют специализированного или дорогого оборудования, либо; _iii)_ экономически нецелесообразны, так как обременяют провайдеров слишком большими затратами помимо затрат на само оборудование для хранения.
-In this paper, we introduce Codex, a novel Erasure Coded Decentralized Storage Network that attempts to tackle those issues. Codex leverages erasure coding as part of both redundancy and storage proofs, coupling it with zero-knowledge proofs and lazy repair to achieve tunable durability guarantees while being modest on hardware and energy requirements. Central to Codex is the concept of the Decentralized Durability Engine (DDE), a framework we formalize to systematically address data redundancy, remote auditing, repair, incentives, and data dispersal in decentralized storage systems.
+В этой статье мы представляем Codex, новую децентрализованную сеть хранения данных с кодированием стирания, которая пытается решить эти проблемы. Codex использует кодирование стирания как часть механизмов избыточности и доказательств хранения, сочетая его с доказательствами с нулевым разглашением и ленивым восстановлением для достижения настраиваемых гарантий долговечности при скромных требованиях к оборудованию и энергии. Центральным элементом Codex является концепция Движка Децентрализованной Долговечности (DDE), формализованная нами структура для систематического решения вопросов избыточности данных, удаленного аудита, восстановления, стимулов и распределения данных в децентрализованных системах хранения.
-We describe the architecture and mechanisms of Codex, including its marketplace and proof systems, and provide a preliminary reliability analysis using a Continuous Time Markov-Chain (CTMC) model to evaluate durability guarantees. Codex represents a step toward creating a decentralized, resilient, and economically viable storage layer critical for the broader decentralized ecosystem.
+Мы описываем архитектуру и механизмы Codex, включая его маркетплейс и системы доказательств, и предоставляем предварительный анализ надежности с использованием модели Непрерывной Временной Цепи Маркова (CTMC) для оценки гарантий долговечности. Codex представляет собой шаг к созданию децентрализованного, устойчивого и экономически жизнеспособного уровня хранения, критически важного для более широкой децентрализованной экосистемы.
-## 1. Introduction
-Data production has been growing at an astounding pace, with significant implications. Data is a critical asset for businesses, driving decision-making, strategic planning, and innovation. Individuals increasingly intertwine their physical lives with the digital world, meticulously documenting every aspect of their lives, taking pictures and videos, sharing their views and perspectives on current events, using digital means for communication and artistic expression, etc. Digital personas have become as important as their physical counterparts, and this tendency is only increasing.
+## 1. Введение
+Производство данных растет ошеломляющими темпами, что имеет значительные последствия. Данные являются критическим активом для бизнеса, стимулируя принятие решений, стратегическое планирование и инновации. Люди все больше переплетают свою физическую жизнь с цифровым миром, тщательно документируя каждый аспект своей жизни, делая фотографии и видео, делясь своими взглядами и перспективами на текущие события, используя цифровые средства для общения и художественного самовыражения и т.д. Цифровые личности стали такими же важными, как и их физические аналоги, и эта тенденция только усиливается.
-Yet, the current trend towards centralization on the web has led to a situation where users have little to no control over their personal data and how it is used. Large corporations collect, analyze, and monetize user data, often without consent or transparency. This lack of privacy leaves individuals vulnerable to targeted advertising, profiling, surveillance, and potential misuse of their personal information.
+Однако текущая тенденция к централизации в интернете привела к ситуации, когда пользователи имеют мало или вообще не имеют контроля над своими личными данными и тем, как они используются. Крупные корпорации собирают, анализируют и монетизируют пользовательские данные, часто без согласия или прозрачности. Этот недостаток конфиденциальности оставляет людей уязвимыми для целевой рекламы, профилирования, слежки и потенциального неправомерного использования их личной информации.
-Moreover, the concentration of data and power in the hands of a few centralized entities creates a significant risk of censorship: platforms can unilaterally decide to remove, modify, or suppress content that they deem undesirable, effectively limiting users’ freedom of expression and access to information. This power imbalance undermines the open and democratic nature of the internet, creating echo chambers and curtailing the free flow of ideas.
+Более того, концентрация данных и власти в руках нескольких централизованных субъектов создает значительный риск цензуры: платформы могут в одностороннем порядке решить удалить, изменить или подавить контент, который они считают нежелательным, эффективно ограничивая свободу выражения мнений пользователей и доступ к информации. Этот дисбаланс власти подрывает открытую и демократическую природу интернета, создавая эхо-камеры и ограничивая свободный обмен идеями.
-Another undesirable aspect of centralization is economical: as bigtech dominance in this space evolves to an oligopoly, all revenues flow into the hands of a selected few, while the barrier to entry becomes higher and higher.
+Еще одним нежелательным аспектом централизации является экономический: по мере того как доминирование крупных технологических компаний в этой сфере превращается в олигополию, все доходы попадают в руки избранных немногих, в то время как барьер для входа становится все выше и выше.
-To address these issues, there is a growing need for decentralized technologies. Decentralized technologies enable users to: _i)_ own and control their data by providing secure and transparent mechanisms for data storage and sharing, and _ii)_ participate in the storage economy as providers, allowing individuals and organizations to take their share of revenues. Users can choose to selectively share their data with trusted parties, retain the ability to revoke access when necessary, and monetize their data and their hardware if they so desire. This paradigm shift towards user-centric data and infrastructure ownership has the potential to create a more equitable and transparent digital ecosystem.
+Для решения этих проблем существует растущая потребность в децентрализованных технологиях. Децентрализованные технологии позволяют пользователям: _i)_ владеть и контролировать свои данные, предоставляя безопасные и прозрачные механизмы для хранения и обмена данными, и _ii)_ участвовать в экономике хранения в качестве провайдеров, позволяя частным лицам и организациям получать свою долю доходов. Пользователи могут выборочно делиться своими данными с доверенными сторонами, сохранять возможность отзывать доступ при необходимости и монетизировать свои данные и свое оборудование, если они того пожелают. Этот сдвиг парадигмы в сторону пользовательского контроля над данными и инфраструктурой имеет потенциал для создания более справедливой и прозрачной цифровой экосистемы.
-Despite their potential benefits, however, the lack of efficient and reliable decentralized storage leaves a key gap that needs to be addressed before any notion of a decentralized technology stack can be seriously contemplated.
+Несмотря на их потенциальные преимущества, однако, отсутствие эффективного и надежного децентрализованного хранения оставляет ключевой пробел, который необходимо устранить, прежде чем можно будет серьезно рассматривать любую концепцию децентрализованного технологического стека.
-In response to these challenges, we introduce Codex: a novel Erasure Coded Decentralized Storage Network which relies on erasure coding for redundancy and efficient proofs of storage. This method provides unparalleled reliability and allows for the storage of large datasets, larger than any single node in the network, in a durable and secure fashion. Our compact and efficient proofs of storage can detect and prevent catastrophic data loss with great accuracy, while incurring relatively modest hardware and electricity requirements -- two preconditions for achieving true decentralization. In addition, we introduce and formalize in this paper the notion of durability in decentralized storage networks through a new concept we call the _Decentralized Durability Engine_ (DDE).
+В ответ на эти вызовы мы представляем Codex: новую децентрализованную сеть хранения данных с кодированием стирания, которая использует кодирование стирания для избыточности и эффективных доказательств хранения. Этот метод обеспечивает беспрецедентную надежность и позволяет хранить большие наборы данных, превышающие размер любого отдельного узла в сети, в долговечной и безопасной форме. Наши компактные и эффективные доказательства хранения могут обнаруживать и предотвращать катастрофическую потерю данных с высокой точностью, при этом требуя относительно скромных требований к оборудованию и электроэнергии - два предварительных условия для достижения истинной децентрализации. Кроме того, мы вводим и формализуем в этой статье понятие долговечности в децентрализованных сетях хранения через новую концепцию, которую мы называем _Движком Децентрализованной Долговечности_ (DDE).
-The remainder of this paper is organized as follows. First, we discuss the context on which Codex is built (Sec. 2) by expanding on the issues of centralized cloud storage, and providing background on previous takes at decentralized alternatives -- namely, p2p networks, blockchains, and DSNs. Then, we introduce the conceptual framework that underpins Codex in Sec. 3 -- the Decentralized Durability Engine (DDE) -- followed by a more detailed descriptions of the mechanisms behind Codex and how it materializes as a DDE in Sec. 4. Sec. 5 then presents a preliminary reliability analysis, which places Codex's storage parameters alongside more formal durability guarantees. Finally, Sec. 6 provides conclusions and ongoing work.
+Остальная часть статьи организована следующим образом. Сначала мы обсуждаем контекст, на котором построен Codex (Раздел 2), расширяя проблемы централизованного облачного хранения и предоставляя информацию о предыдущих подходах к децентрализованным альтернативам - а именно, p2p-сетям, блокчейнам и DSN. Затем мы представляем концептуальную структуру, лежащую в основе Codex в Разделе 3 - Движок Децентрализованной Долговечности (DDE) - за которым следует более подробное описание механизмов Codex и того, как он материализуется как DDE в Разделе 4. Раздел 5 затем представляет предварительный анализ надежности, который помещает параметры хранения Codex рядом с более формальными гарантиями долговечности. Наконец, Раздел 6 предоставляет выводы и текущую работу.
-## 2. Background and Context
+## 2. Предыстория и контекст
+В этом разделе мы обсуждаем контекст, на котором построен Codex. Мы начинаем с обсуждения проблем централизованного облачного хранения, а затем переходим к обзору предыдущих подходов к децентрализованным альтернативам - а именно, p2p-сетям, блокчейнам и DSN.
-Codex aims at being a useful and decentralized alternative to centralized storage. In this section, we discuss the context in which this needs arises, as well as why past and current approaches to building and reasoning about decentralized storage were incomplete. This will set the stage for our introduction of the Decentralized Durability Engine -- our approach to reasoning about decentralized storage -- in Sec. 3.
+### 2.1 Проблемы централизованного облачного хранения
+Централизованное облачное хранение стало доминирующей моделью для хранения данных в интернете. Крупные технологические компании, такие как Amazon, Google и Microsoft, предоставляют услуги облачного хранения, которые позволяют пользователям хранить и получать доступ к своим данным из любого места. Хотя эти услуги удобны и надежны, они также создают несколько проблем:
-### 2.1. Centralized Cloud Storage
-Over the past two decades, centralized cloud storage has become the _de facto_ approach for storage services on the internet for both individuals and companies alike. Indeed, recent research places the percentage of businesses that rely on at least one cloud provider at $94\%$[^zippia_cloud_report], while most modern smartphones will backup their contents to a cloud storage provider by default.
+1. **Конфиденциальность**: Централизованные провайдеры облачного хранения имеют доступ к данным пользователей и могут использовать их для таргетированной рекламы, профилирования и других целей. Это создает значительные риски для конфиденциальности пользователей.
-The appeal is clear: scalable, easy-to-use elastic storage and networking coupled with a flexible pay-as-you-go model and a strong focus on durability[^s3_reinvent_19] translating to dependable infrastructure that is available immediately and at the exact scale required.
+2. **Цензура**: Централизованные провайдеры могут в одностороннем порядке решить удалить или изменить контент, который они считают нежелательным. Это может привести к цензуре и ограничению свободы выражения мнений.
-Centralization, however, carries a long list of downsides, most of them due to having a single actor in control of the whole system. This effectively puts users at the mercy of the controlling actor's commercial interests, which may and often will not coincide with the user's interests on how their data gets used, as well as their ability to stay afloat in the face of natural, political, or economical adversity. Government intervention and censorship are also important sources of concern[^liu_19]. Larger organizations are acutely aware of these risks, with $98\%$ of cloud user businesses adopting multi-cloud environments to mitigate them[^multicloud].
+3. **Экономическая концентрация**: Доминирование нескольких крупных технологических компаний в сфере облачного хранения создает олигополию, где все доходы попадают в руки избранных немногих. Это создает высокий барьер для входа и ограничивает конкуренцию.
-The final downside is economical: since very few companies can currently provide such services at the scale and quality required, the billions in customer spending gets funneled into the pockets of a handful of individuals. Oligopolies such as these can derail into an uncompetitive market which finds its equilibrium at a price point which is not necessarily in the best interest of end-users[^feng_14].
+4. **Уязвимость к атакам**: Централизованные системы хранения являются привлекательными целями для хакеров и других злоумышленников. Одна успешная атака может привести к компрометации большого количества данных.
-### 2.2. Decentralized Alternatives: Past and Present
+### 2.2 Предыдущие подходы к децентрализованному хранению
+Было несколько попыток предоставить альтернативы централизованному облачному хранению. Вот некоторые из основных подходов:
-Given the downsides of centralized cloud storage, it is natural to wonder if there could be alternatives, and indeed those have been extensively researched since the early 2000's. We will not attempt to cover that entire space here, and will instead focus on what we consider to be the three main technological breakthroughs that happened in decentralized systems over these past two decades, and why they have failed to make meaningful inroads thus far: P2P networks, blockchains, and Data Storage Networks (DSNs).
+1. **P2P-сети**: P2P-сети, такие как BitTorrent, позволяют пользователям обмениваться файлами напрямую, без необходимости в центральном сервере. Хотя это обеспечивает некоторую децентрализацию, P2P-сети часто не предоставляют надежных гарантий долговечности и могут быть уязвимы к атакам сибил.
-**P2P Networks.** P2P networks have been around for over two decades. Their premise is that users can run client software on their own machines and form a self-organizing network that enables sharing of resources like bandwidth, compute, and storage to provide higher-level services like search or decentralized file sharing without the need for a centralized controlling actor.
+2. **Блокчейны**: Блокчейны, такие как Ethereum, предоставляют децентрализованную платформу для хранения данных. Однако, из-за высокой стоимости хранения данных в блокчейне, этот подход не подходит для хранения больших объемов данных.
-Early networks like BitTorrent[^cohen_01], however, only had rudimentary incentives based on a form of barter economy in which nodes providing blocks to other nodes would be rewarded with access to more blocks. This provides some basic incentives for nodes to exchange the data they hold, but whether or not a node decides to hold a given piece of data is contingent on whether or not the node operator was interested in that data to begin with; i.e., a node will likely not download a movie if they are not interested in watching it.
+3. **Децентрализованные сети хранения (DSN)**: DSN, такие как IPFS и Filecoin, пытаются предоставить децентрализованное решение для хранения данных. Однако, многие из этих систем либо не предоставляют надежных гарантий долговечности, либо требуют специализированного оборудования, либо экономически нецелесообразны.
-Files which are not popular, therefore, tend to disappear from the network as no one is interested in them, and there is no way to incentivize nodes to do otherwise. This lack of even basic durability guarantees means BitTorrent and, in fact, most of the early p2p file-sharing networks, are suitable as distribution networks at best, but not as storage networks as data can, and probably will, be eventually lost. Even more recent attempts at decentralized file sharing like IPFS[^ipfs_website] suffer from similar shortcomings: by default, IPFS offers no durability guarantees, i.e., there is no way to punish a pinning service if it fails to keep data around.
+Codex пытается решить эти проблемы, предоставляя децентрализованную сеть хранения данных с кодированием стирания, которая сочетает в себе надежность, эффективность и экономическую целесообразность.
-**Blockchains.** Blockchains have been introduced as part of Bitcoin in 2008[^nakamoto_08], with the next major player Ethereum[^buterin_13] going live in 2013. A blockchain consists of a series of blocks, each containing a list of transactions. These blocks are linked together in chronological order through cryptographic hashes. Each block contains a hash of the previous block, which secures the chain against tampering. This structure ensures that once a block is added to the blockchain, the information it contains cannot be altered without redoing all subsequent blocks, making it secure against fraud and revisions. For all practical purposes, once a block gets added, it can no longer be removed.
+## 3. Движки Децентрализованной Долговечности (DDE)
+В этом разделе мы представляем концепцию Движка Децентрализованной Долговечности (DDE) - структуру, которую мы разработали для систематического решения вопросов долговечности в децентрализованных системах хранения. DDE представляет собой набор механизмов, которые работают вместе для обеспечения надежного хранения данных в децентрализованной среде.
-This permanence allied to the fully replicated nature of blockchain means they provide very strong durability and availability guarantees, and this has been recognized since very early on. The full-replication model of blockchains, however, also turns out to be what makes them impractical for data storage: at the date of this writing, storing as little as a gigabyte of data on a chain like Ethereum remains prohibitively expensive[^kostamis_24].
+### 3.1 Определение DDE
+Движок Децентрализованной Долговечности (DDE) - это система, которая обеспечивает надежное хранение данных в децентрализованной сети. DDE состоит из следующих ключевых компонентов:
-Blockchains represent nevertheless a game-changing addition to decentralized systems in that they allow system designers to build much stronger and complex incentive mechanisms based on monetary economies, and to implement key mechanisms like cryptoeconomic security[^chaudhry_24] through slashing, which were simply not possible before.
+1. **Механизмы избыточности**: DDE использует кодирование стирания для создания избыточности данных. Это позволяет системе восстанавливать данные даже при потере некоторых фрагментов.
-**Decentralized Storage Networks (DSNs).** Decentralized Storage Networks (DSNs) represent a natural stepping stone in decentralized storage: by combining traditional P2P technology with the strong incentive mechanisms afforded by modern blockchains and new cryptographic primitives, they provide a much more credible take on decentralized storage.
+2. **Механизмы удаленного аудита**: DDE включает в себя протоколы для проверки того, что провайдеры хранения действительно хранят данные, которые они обещали хранить. Это достигается с помощью доказательств с нулевым разглашением.
-Like early P2P networks, DSNs consolidate storage capacities from various independent providers and orchestrate data storage and retrieval services for clients. Unlike early P2P networks, however, DSNs employ the much stronger mechanisms afforded by blockchains to incentivize correct operation. They typically employ remote auditing techniques like Zero-Knowledge proofs to hold participants accountable, coupled with staking/slashing mechanisms which inflict monetary losses on bad participants as they are caught.
+3. **Механизмы восстановления**: DDE включает в себя протоколы для восстановления данных в случае их потери. Это может включать в себя ленивое восстановление, где восстановление происходит только при необходимости.
-In their seminal paper[^protocol_17], the Filecoin team characterizes a DSN as a tuple $\Pi = \left(\text{Put}, \text{Get}, \text{Manage}\right)$, where:
+4. **Механизмы стимулов**: DDE использует криптоэкономические механизмы для стимулирования провайдеров хранения к правильному поведению. Это включает в себя награды за правильное хранение данных и штрафы за неправильное поведение.
-* $\text{Put(data)} \rightarrow \text{key}$: Clients execute the Put protocol to store data under a unique identifier key.
-* $\text{Get(key)} \rightarrow \text{data}$: Clients execute the Get protocol to retrieve data that is currently stored using key.
-* $\text{Manage()}$: The network of participants coordinates via the Manage protocol to: control the available storage, audit the service offered by providers and repair possible faults. The Manage protocol is run by storage providers often in conjunction with clients or a network of auditors.
+5. **Механизмы распределения данных**: DDE включает в себя стратегии для распределения данных по сети, чтобы минимизировать риск потери данных и максимизировать доступность.
-While useful, we argue this definition is incomplete as it pushes a number of key elements onto an unspecified black box protocol/primitive named $\text{Manage}()$. These include:
+### 3.2 Преимущества DDE
+DDE предлагает несколько преимуществ по сравнению с традиционными подходами к децентрализованному хранению:
+1. **Настраиваемые гарантии долговечности**: DDE позволяет настраивать уровень избыточности и другие параметры для достижения желаемых гарантий долговечности.
-* incentive and slashing mechanisms;
-* remote auditing and repair protocols;
-* strategies for data redundancy and dispersal.
+2. **Эффективность**: DDE использует эффективные алгоритмы для кодирования стирания и доказательств хранения, что позволяет минимизировать требования к оборудованию и энергии.
-Such elements are of particular importance as one attempts to reason about what would be required to construct a DSN that provides actual utility. As we set out to design Codex and asked ourselves that question, we found that the key to useful DSNs is in _durability_; i.e., a storage system is only useful if it can provide durability guarantees that can be reasoned about.
+3. **Экономическая целесообразность**: DDE использует криптоэкономические механизмы для создания устойчивой экономики хранения, где провайдеры могут получать доход от предоставления услуг хранения.
-In the next section, we explore a construct we name Decentralized Durability Engines which, we argue, lead to a more principled approach to designing storage systems that provide utility.
-
-## 3. Decentralized Durability Engines (DDE)
-
-A Decentralized Durability Engine is a tuple $\Gamma = \text{(R, A, P, I, D)}$ where:
-
-* $R$ is a set of redundancy mechanisms, such as erasure coding and replication, that ensure data availability and fault tolerance.
-* $A$ is a set of remote auditing protocols that verify the integrity and availability of stored data.
-* $P$ is a set of repair mechanisms that maintain the desired level of redundancy and data integrity by detecting and correcting data corruption and loss.
-* $I$ is a set of incentive mechanisms that encourage nodes to behave honestly and reliably by rewarding good behavior and penalizing malicious or negligent actions.
-* $D$ is a set of data dispersal algorithms that strategically distribute data fragments across multiple nodes to minimize the risk of data loss due to localized failures and to improve data availability and accessibility.
-
-We argue that when designing a storage system that can keep data around, none of these elements are optional. Data needs to be redundant ($R$), there needs to be a way to detect failures and misbehavior ($A$), we must be able to repair data so it is not lost to accumulated failures $(P)$, misbehaving nodes must be penalized ($I$), and data must be placed so as fault correlation is understood ($D$).
-
-This is a somewhat informal treatment for now, but the actual parameters that would be input into any reliability analysis of a storage system would be contingent on those choices. In a future publication, we will explore how durability is affected by the choice of each of these elements in a formal framework.
-
-## 4. Codex: A Decentralized Durability Engine
-
-This section describes how Codex actually works. The primary motivation behind Codex is to provide a scalable and robust decentralized storage solution which addresses the limitations of existing DSNs. This includes: i) enhanced durability guarantees that can be reasoned about, ii) scalability and performance and iii) decentralization and censorship resistance.
-
-We start this section by laying out key concepts required to understand how Codex works (Sec. 4.1). We then discuss the redundancy ($R$), remote auditing ($A$), and repair mechanisms ($P$) of Codex and how they combine erasure codes and zero-knowledge proofs into a system that is lightweight, efficient, and amenable to decentralization. Sec. 4.4 takes a detour onto the networking layer and provides an overview of our scalable data transfer protocols. Finally, incentives ($I$) and dispersal $(D)$ are discussed in Sec. 4.5 as part of the Codex marketplace.
-
-### 4.1. Concepts
-
-In the context of Codex (and of storage systems in general), two properties appear as fundamental:
-
-**Availability.** A system is said to be _available_ when it is able to provide its intended service, and _unavailable_ otherwise. The availability of a system over any given interval of time is given by [^tanembaum]:
-
-$$
-p_\text{avail} =\frac{t_a}{t_a + t_u}
-$$
-
-where $t_a$ and $t_u$ are the total times in which the system remained available and unavailable, respectively. To maintain high availability, a storage system needs to be _fault tolerant_; i.e., it should be able to correctly service storage and retrieval requests in the presence of hardware faults and malicious participants.
-
-**Durability.** Quantified as a probability $p_\text{dur} = 1 - p_\text{loss}$ that a given unit of data _will not_ be lost over a given period of time; e.g. the probability that some file is not lost within a $1$-year period. This probability is sometimes expressed as a percentage (e.g. in S3).
-
-If this number is very close to one, e.g. $p_\text{loss} \leq 10^{-6}$, then the system is said to be _highly durable_. Systems that are not highly durable are those that can lose data with higher or unbounded probability, or that do not quantify their loss probabilities at all.
-
-Ideally, we would like storage systems to be highly available and highly durable. Since achieving _provable availability_ is in general not possible[^bassam_18], Codex focuses on stronger guarantees for durability and on incentivizing availability instead.
-
-**Dataset.** A _dataset_ $D = \{c_1, \cdots c_b\}$ is defined in Codex as an ordered set of $b \in \mathbb{N}$ fixed-sized blocks. Blocks are typically small, on the order of $64\text{kB}$. For all intents and purposes, one can think of a dataset as being a regular file.
-
-**Storage Client (SC).** A Storage Client is a node that participates in the Codex network to buy storage. These may be individuals seeking to backup the contents of their hard drives, or organizations seeking to store business data.
-
-**Storage Provider (SP).** A Storage Provider is a node that participates in Codex by selling disk space to other nodes.
-
-### 4.2. Overview
-
-At a high level, storing data in Codex works as follows. Whenever a SC wishes to store a dataset $D$ into Codex, it:
-
-1. splits $D$ into $k$ disjoint $\{S_1, \cdots, S_k\}$ partitions named **slots**, where each slot contains $s = \left\lceil \frac{b}{k} \right\rceil$ blocks;
-1. erasure-codes $D$ with a Reed-Solomon Code[^reed_60] by extending it into a new dataset $D_e$ which adds an extra $m \times s$ parity blocks to $D$ (Sec. 4.3). This effectively adds $m$ new slots to the dataset. Since we use a systematic code, $D$ remains a prefix of $D_e$;
-1. computes two different Merkle tree roots: one used for inclusion proofs during data exchange, based on SHA256, and another one for storage proofs, based on Poseidon2 (Sec 4.3);
-1. generates a content-addressable manifest for $D_e$ and advertises it into the Codex DHT (Sec. 4.4);
-1. posts a **storage request** containing a set of parameters in the Codex marketplace (on-chain), which includes things like how much the SC is willing to pay for storage, as well as expectations that may impact the profitability of candidate SPs and the durability guarantees for $D_e$, for each slot (Sec. 4.5).
-
-The Codex marketplace (Sec. 4.5) then ensures that SPs willing to store data for a given storage request are provided a fair opportunity to do so. Eventually, for each slot $S_i \in D_e$, _some_ SP will:
-
-1. declare its interest in it by filing a **slot reservation**;
-1. download the data for the slot from the SC;
-1. provide an initial proof of storage and some staking collateral for it.
-
-Once this process completes, we say that slot $S_i$ has been **filled**. Once all slots in $D_e$ have been filled, we say that $D_e$ has been **fulfilled**. For the remainder of this section, we will dive into the architecture and mechanisms of Codex by explaining in more detail each aspect of the storage flow.
-
-### 4.3. Erasure Coding, Repair, and Storage Proofs
-
-Erasure coding plays two main roles in Codex: _i)_ allowing data to be recovered following loss of one or more SPs and the slots that they hold (redundancy) and _ii)_ enabling cost-effective proofs of storage. We will go through each of these aspects separately.
-
-**Erasure Coding for Redundancy.** As described before, a dataset $D$ is initially split into $k$ slots of size $s = \left\lceil \frac{b}{k} \right\rceil$ (Figure 1). Since $b$ may not actually be divisible by $k$, Codex will add _padding blocks_ as required so that the number of blocks in $D$ is $b_p = s \times k$.
-
-