Работа с колонками
Имена колонок
При импорте данных и при создании одной или нескольких новых колонок имена колонок должны соответствовать определенным внутренним правилам PolyAnalyst Grid:
-
Имена колонок могут содержать пробелы.
-
Имена колонок должны содержать только алфавитные и цифровые символы: от А до Я, от 0 до 9.
-
В некоторых узлах в PolyAnalyst в именах колонок можно использовать специальные символы или знаки пунктуации, но, в целом, этого следует избегать. Допускается использование символов подчеркивания и дефиса, но этого также следует избегать.
Типы данных/колонок
Тип колонки (также: тип данных) определяет значения, которые могут содержаться в данной колонки, а также определяет операции, которые могут применяться к значениям данной колонки. Из-за таких ограничений важно правильно указать тип данных во время импорта и при создании новых колонок в таблице данных.
В PolyAnalyst Grid используются следующие типы колонок:
-
Числовые : Содержат любые действительные числа, такие как числа с десятичными долями или без них, положительные и отрицательные числа. Максимальные и минимальные значения числовых данных находятся в пределах +/- \(10^{100}\). Числовые значения имеют тот же формат, что и числовые значения, которые хранятся в распространенных базах данных. Это наиболее точная форма хранения чисел, позволяющая сохранять до шести значимых цифр.
-
Целочисленные : Содержат любые целые числа (без десятичных знаков). Максимальные и минимальные значения целочисленных данных находятся в пределах +/- \(2^{64}\).
-
Строковые : Последовательности символов. количество уникальных строковых значений - \(2^{40}\). Данные такого типа также называются "категориальными", "символьными" и "номинальными". Строковые данные не предназначены для хранения более 256 символов. В этом случае предпочтительно использовать текстовые данные. Строковые данные предназначены для хранения номинальных дискретных значений, которые используются в качестве имен, например, названия городов и стран. Текстовые значения обычно сохраняют такую информацию, как предложения и абзацы с текстовыми данными; строковые данные также могут содержать такую информацию, но в этом случае лучше использовать текстовые данные.
-
Текстовые : Содержат крупные текстовые значения (последовательности, содержащие более 256 символов). Максимальный размер текстового значения - 2 гигабайта (примерно 5 миллионов символов). PolyAnalyst Grid по умолчанию игнорирует всю информацию за пределами максимального порога, при этом данные при импорте могут быть усечены.
-
Дата/Время : Содержат значения даты или времени, либо значения только даты. Минимальное значение даты/времени - 1/1/1903.
-
Булевские : Содержат значения "истина" и "ложь".
-
Длительность : Содержат значения интервала времени между двумя событиями, например временной интервал между двумя датами.
-
Геоданные : Содержат геопространственные данные, например широта, долгота и высота.
-
UUID : Содержит 128-битные универсальные уникальные идентификаторы (UUID). Этот тип данных может загружен из узлов Файлы CSV и ODBC и экспортирован в файлы формата CSV и ODBC. UUID представлен как последовательность шестнадцатеричных цифр без учета регистра, которая разделена на несколько групп дефисами: ce3c267c-be6f-4baa-a6e6-a2236d814100 или CE3C267C-BE6F-4BAA-A6E6-A2236D814100. Нулевое значение (NaN): 00000000-0000-0000-0000-000000000000.
-
Целочисленные идентификаторы: значения неупорядоченного множества; они похожи на строковые данные, но сохраняются более эффективным способом.
Приведение типов данных
При импорте данных в PolyAnalyst Grid типы колонок ваших данных, если таковые определены, переводятся в похожий тип в PolyAnalyst Grid. Многие известные базы данных используют типы данных, которые похожи на типы данных, используемые в PolyAnalyst Grid. Например, ниже приводится список основных продавцов ПО и используемых ими типов данных:
-
Oracle - VARCHAR, CHAR, NCHAR, NUMBER, REAL, DECIMAL, INTEGER, LONG, DATE, TIMESTAMP, CLOB, BLOB, MySQL - TINYINT, INTEGER, BIGINT, FLOAT, DECIMAL, VARCHAR, CHAR, TEXT, BLOB, ENUM, SET
-
Microsoft SQL Server - BIGINT, INT, DECIMAL, MONEY, FLOAT, DATETIME, CHAR, VARCHAR, SQL_VARIANT, NTEXT
-
Microsoft Access - TEXT, MEMO, NUMBER, DATE/TIME, CURRENCY, YES/NO, OLEOBJECT, HYPERLINK
-
Microsoft Excel - GENERAL, NUMBER, CURRENCY, ACCOUNTING, DATE, TIME, PERCENTAGE, SCIENTIFIC, SPECIAL.
Приведение типа данных является относительно сложной операцией и частой причиной путаницы в анализе данных, поскольку значения могут неожиданно измениться.
При попытке перемещения колонки с информацией из одной программной системы в другую всегда будут возникать проблемы "потерь при переводе", или искажений, поскольку типы данных не всегда совпадают идеально.
PolyAnalyst Grid всегда пытается полностью импортировать внешние данные, несмотря на ошибки, возникающие при импорте отдельных записей и документов. Когда такие ошибки возникают, они записываются в журнал. Вы можете просмотреть журнал, нажав правой кнопкой мыши на узел, который импортировал данные, и выбрав История выполнения в контекстном меню.