Набор данных

Различные графики многомерного набора данных Ирисы Фишера представленного Рональдом Фишером (1936 год).[1]

Набор данных (data set или dataset) — многозначное понятие из сферы информатики.

Раннее употребление терминаПравить

Наиболее частое первоначальное использование относилось к тому периоду развития вычислительной техники, когда типовые структуры организации ЭВМ и их программного обеспечения ещё не устоялись. Понятие набора данных использовалось в ОС ЕС (локализованная в СССР версия OS/360 и последующие версии той же ОС) как замена понятия файл. В отличие от файлов, типичных для UNIX, наборы данных ОС ЕС/z/OS обладают напрямую не изменяемым свойством внутренней структуры, определявшей метод доступа к ним (произвольный, последовательный, индексно-последовательный и др.).

Впоследствии понятие набора данных перестало использоваться в этом смысле кроме как в связи с техникой компанией IBM и рядом других аналогичных производителей.

Современное использованиеПравить

В настоящее время понятие набор данных рассматривается как некоторая коллекция данных, объединённая тем или иным способом, различающимся в зависимости от контекста. В случае с табличными данными, набор данных соответствует одной или нескольким таблицам баз данных, где каждый столбец таблицы соответствует отдельной переменной, и каждая строка соответствует записи в наборе данных. Наборы данных хранят значения для каждой переменной, например, высота и вес объекта для каждого члена набора данных. Наборы данных могут также состоять из коллекции документов или файлов.[2]

В концепции открытых данных, набор данных — это единица измерения информации размещенных в публичном репозитории открытых данных. Европейский портал данных (data.europa.eu) агрегирует более миллиона наборов данных.[3] Некоторые другие концепции (источники данных реального времени,[4] нереляционные наборы данных и т.д.) увеличивают сложность достижения соглашения об определении термина набора данных.[4]

СвойстваПравить

Несколько характеристик определяют структуру и свойства набора данных. Они включают количество и типы атрибутов или переменных, и различные статистические измерения, применяемые к ним, такие как стандартное отклонение и эксцесс.[5]

Значения могут быть числами, такими как вещественные числа или целые числа, например представляющими рост человека в сантиметрах, но могут также быть и номинальными данными (т.е. не содержащими числовых значений), например, отображающими этническую принадлежность человека. В более общем смысле, значения могут быть одним из видов, описываемых шкалой. Для каждой переменной все значения обычно одного и того же типа. Несмотря на это могут также существовать недостающие значения, которые должны быть обозначены некоторым способом.

В статистике наборы данных обычно поступают из фактических наблюдений, полученных путем выборки из генеральной совокупности, и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут также быть сгенерированы алгоритмами для целей тестирования определенного вида программного обеспечения. Некоторое современное программное обеспечение для статистического анализа, такое, например, как SPSS до сих пор представляет свои данные в классической манере набора данных. Если представлены недостающие или подозрительные данные, то может быть использован метод вменения для дополнения набора данных.[6]

Классические наборы данныхПравить

Несколько классических наборов данных широко используются в статистической литературе:

Набор данных в машинном обученииПравить

Совокупность данных, на которых происходит обучение модели.

Также, в зависимости от контекста, набором данных (batch size)[7] полную выборку данных, на которой проходит обучение или один из его этапов, а мини-набором данных (mini-batch size) - выборку меньших размеров.

См. такжеПравить

ПримечанияПравить

  1. 1,0 1,1 Fisher, R.A. (1963). "The Use of Multiple Measurements in Taxonomic Problems" (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Архивировано из оригинала (PDF) 28 сентября 2011. Дата обращения: 22 мая 2007.
  2. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. Архивировано 23 ноября 2019. Дата обращения: 13 февраля 2023.
  3. European open data portal. European open data portal. European Commission. Дата обращения: 23 сентября 2016. Архивировано 2 октября 2017 года.
  4. 4,0 4,1 Atz, U (2014). "The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF). CEDEM 2014 Proceedings. Архивировано (PDF) 20 августа 2016. Дата обращения: 1 августа 2016.
  5. Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. — 2000. — ISBN 978-3-540-66490-1.
  6. United Nations Statistical Commission. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies / United Nations Statistical Commission, United Nations Economic Commission for Europe. — United Nations Publications, 2007. — P. 20. — ISBN 978-9211169522.
  7. Thomas M. Breuel. The Effects of Hyperparameters on SGD Training of Neural Networks. — 2015-08-01.

СсылкиПравить