Databricky vynálezce a udržovatel Apache Spark, představila několik inovací pro svou platformu Unified Analytics na své uživatelské konferenci Data + AI Summit 2021, včetně zdůrazňuje zahájení nového open source projektu s názvem „Delta Sharing“ který poskytuje a otevřený protokol pro bezpečné sdílení dat mezi organizacemi v reálném čase, bez ohledu na platformu, na které se data nacházejí.
Sdílení Delta je součástí projektu Delta Lake, vrstva úložiště tabulky, kterou společnost vydala do open source na konci roku 2019. Platforma již získala podporu od široké skupiny poskytovatelů dat, včetně Nasdaq, Amazon Web Services, Microsoft, Google a Tableau Software.
Sdílení dat se v moderní ekonomice stalo kritickým, protože společnosti se snaží bezpečně si vyměňovat data se svými zákazníky, dodavateli a partnery. Například maloobchodník může chtít publikovat údaje o prodeji svých dodavatelů v reálném čase nebo dodavatel chtít sdílet inventář v reálném čase. Ale dosud byla výměna dat velmi omezená, protože řešení pro výměnu jsou vázána na jediného poskytovatele. To vytváří tření jak pro poskytovatele dat, tak pro spotřebitele, kteří přirozeně provozují různé platformy.
Dnes jsme spustili nový projekt s otevřeným zdrojovým kódem, který zjednodušuje sdílení mezi organizacemi: Delta Sharing, otevřený protokol pro bezpečnou výměnu velkých datových sad v reálném čase, který poprvé umožňuje bezpečnou výměnu dat mezi produkty. Vyvíjíme Delta Sharing s partnery od předních světových poskytovatelů softwaru a dat.
Databricky uvedla, že doufá v řešení neefektivity procesů často nutné příručky pro organizace k výměně dat se zákazníky, partnery a dodavateli. Historicky byly produkty pro sdílení dat svázány s jedním prodejcem nebo komerčním produktem, což omezovalo spolupráci mezi organizacemi využívajícími různé platformy.
„Hlavním způsobem, jakým se společnosti sdílejí s ostatními, je procházení těžkopádným procesem nebo používání rigidního stávajícího systému, který musí každý používat,“ řekl Arsalan Tavakoli (na snímku), spoluzakladatel a senior viceprezident terénního inženýrství ve společnosti Databricks.
Spojení více zdrojů dat je také práce. „Nemůžeš dát každému přístup jen tak,“ řekl. "Chcete řízení přístupu, auditování a řízení verzí." Dnes neexistuje způsob, jak to udělat.
Sdílení Delta omezuje závislost dodavatele a umožňuje širší a rozmanitější soubor případů použití, než bylo dříve možné, uvedla společnost. Unity Catalogue, který lze použít v SQL, nástrojích vizuální analýzy a programovacích jazycích, jako jsou Python a R. Delta Sharing také umožňuje organizacím sdílet existující datové sady ve velkém měřítku v Apache Parquet a Delta Lake Formats v reálném čase bez potřeba. kopií.
Delta Sharing je pátý hlavní open source projekt spuštěný společností Databricks, po Apache Spark, Delta Lake, MLflow pro strojové učení a Koalas, který implementuje rozhraní aplikačního programu pandy DataFrame na Spark. Projekt je věnován nadaci Linux Foundation.
Také Databricks také zvýraznil «Jednotný katalog« standardizovaný datový katalog a co je kompatibilní s „Delta Sharing“. Unity Catalogue má nové rozhraní, které usnadní vyhledávání a správu všech databází společnosti, s úplným pohledem na data v cloudech a na stávající katalogy, samozřejmě na platformě Lakehouse v Databricks.
Jednotný katalog nabízí jediný model zabezpečení založený na ANSI SQL, zefektivnit nasazení a standardizovat správu v cloudech. Nástroj také lze integrovat do stávajících datových katalogů společností Alation, Collibra, Privacera a Immuta, aby příslušný klient mohl stavět na stávajícím a zavést centralizovaný a do budoucna vhodný model správy bez vysokých nákladů na migraci.
Konečně pokud máte zájem o tom vědět více, můžete zkontrolovat podrobnosti v následujícím odkazu.