DuckDB
DuckDB — это реляционная система управления данных (СУБД) с открытым исходным кодом, ориентированная на хранение данных в колонках.
Блыа разработана Марком Раасвельдтом и Ханнесом Мюлейзеном в Центре математики и информатики (Centrum Wiskunde & Informatica CWI) в Нидерландах[1].
Первая версия была выпущенна в 2019 году[2].
По состоянию на 2024 год проект достиг более 6 миллионов загрузок в месяц[3][4][5].
DuckDB была разработана для обеспечения высокой производительности при сложных запросах к большим базам данных как встраиваемая СУБД[6][1], таких как объединение таблиц с сотнями столбцов и миллиардами строк. В отличие от других встроенных баз данных (например, SQLite), DuckDB не фокусируется на транзакционных (OLTP) приложениях, а ориентирована на задачи онлайн-аналитической обработки (OLAP)[7].
DuckDB в своей нише OLAP не конкурирует с традиционными СУБД, такими как MSSQL, PostgreSQL и Oracle Database. Используя SQL для запросов, DuckDB нацелена на бессерверные приложения и обеспечивает чрезвычайно быстрые ответы, используя файлы Apache Parquet для хранения. Эти атрибуты делают его популярным выбором для анализа больших наборов данных в интерактивном режиме, но плохо соответствуют требованиям корпоративного хранилища данных. DuckDB использует векторизованный механизм обработки запросов[8]. DuckDB выделяется среди систем управления базами данных, поскольку не имеет внешних зависимостей и может быть собрана только с использованием компилятора C++11[9].
DuckDB также отклоняется от характерной для СУБД модели клиент-сервер, работая внутри хост-процесса (например, у него есть биндинги для интерпретатора Python с возможностью непосредственного размещения данных в массивах NumPy)[1]).
DuckDB поддерживает интеграцию с PostgreSQL как с источником данных, также существует библиотека, реализующая Postgres wire protocol для подключения к DuckDB. Её использование позволяет работать с DuckDB при помощи инструментов управления и запросов, разработанных для PostgreSQL, таких как DBeaver[10].
DuckDB обеспечивает два режима работы с данными - стандартный режим с сохранением базы данных между запусками и in-memory режим, при использовании которого все таблицы и расчёты не будут сохраняться физически и будут удалены при закрытии коннекта приложения с движком DuckDB.
Коммерческое использованиеПравить
DuckDB используется в Facebook, Google и Airbnb[11].
Соавтор DuckDB Мюлейзен также руководит фирмой поддержки и консалтинга для программного обеспечения DuckDB Labs. Его компания решила не привлекать венчурное финансирование, заявив: «Мы считаем, что инвестиции заставят проект двигаться в сторону монетизации, и мы бы предпочли сохранить DuckDB открытым и доступным для как можно большего числа людей»[5].
Другая компания, связанная с проектом, MotherDuck, получила финансирование в размере 100 млн долларов США для своей платформы данных на основе DuckDB от инвесторов, включая Andreessen Horowitz[12]. Она предлагает, на коммерческой основе, инструменты для развертывания DuckDB в корпоративных сетях[13].
Поддержка языков программированияПравить
Помимо нативного API для C и C++, DuckDB поддерживает ряд языков программирования.
Язык | Подробности | Ссылка |
---|---|---|
Java | Java API реализован с использованием JNI[14]. Обеспечивается поддержка формата Apache Arrow[15]. | [16] |
Python | Реализована поддержка Python API для пакетов анализа данных Pandas,[17] Apache Arrow[18] и Polars. | [19] |
Rust | Rust API распространяется как крейт rust, являющийся враппером над нативным C API. | [20] |
Node.JS | Node API | [21] |
R | R API | [22] |
Julia | Julia API | [23] |
Swift | Swift API | [24] |
ЛитератураПравить
- Woodie, Alex (5 March 2024). "DuckDB Walks to the Beat of Its Own Analytics Drum". Datanami.
- Всё что нужно знать про DuckDB
- DuckDB. Колоночная OLAP СУБД в кармане
- Геопространственная DuckDB
СсылкиПравить
ПримечанияПравить
- ↑ 1,0 1,1 1,2 Kamphuis, Chris. Graph Databases for Information Retrieval // Advances in Information Retrieval. — Springer International Publishing, 2020. — Vol. 12036. — P. 608–612. — ISBN 978-3-030-45441-8. — doi:10.1007/978-3-030-45442-5_79.
- ↑ Clark, Lindsay. "DuckDB reaches version 0.5.0". www.theregister.com (англ.). Архивировано 7 марта 2024. Дата обращения: 23 марта 2024.
- ↑ "PyPi Download Stats". www.pypistats.org (англ.). Архивировано 13 августа 2024. Дата обращения: 13 августа 2024.
- ↑ "DuckDB Python Downloads Dashboard". duckdbstats.com (англ.). Архивировано 13 августа 2024. Дата обращения: 13 августа 2024.
- ↑ 5,0 5,1 Clark, Lindsay. "DuckDB Labs puts limit on free support, rules out VC funding". www.theregister.com (англ.). Архивировано 23 марта 2024. Дата обращения: 23 марта 2024.
- ↑ Т.е. в составе других приложений.
- ↑ Raasveldt, Mark; Mühleisen, Hannes (2019-06-25). DuckDB: an Embeddable Analytical Database. ACM. pp. 1981–1984. doi:10.1145/3299869.3320212. ISBN 978-1-4503-5643-5.
- ↑ Bannert, M. Research Software Engineering: A Guide to the Open Source Ecosystem. — CRC Press, 2024. — P. 25. — ISBN 978-1-04-000513-2.
- ↑ "DuckDB Building Instructions". Дата обращения: 16 августа 2024.
- ↑ Всё что нужно знать про DuckDB
- ↑ Clark, Lindsay. "Scale-up database wrangler MotherDuck scores $47.5 million". www.theregister.com (англ.). Архивировано 23 марта 2024. Дата обращения: 23 марта 2024.
- ↑ Clark, Lindsay. "MotherDuck serverless analytics platform wins $52.5M funding". www.theregister.com (англ.). Архивировано 23 марта 2024. Дата обращения: 23 марта 2024.
- ↑ DuckDB. Колоночная OLAP СУБД в кармане
- ↑ "Java JNI Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Java Arrow Source Code". www.github.com. Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Java Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Pandas Source". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB PyArrow Source". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Python Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Rust Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Node Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB R Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Jullia Source Code". www.github.com (англ.). Дата обращения: 7 сентября 2024.
- ↑ "DuckDB Swift Source Code". www.github.com. Дата обращения: 7 сентября 2024.