Category Archives: etl

Набор KMов для Oracle Data Integrator

Доступен на https://codesamples.samplecode.oracle.com/servlets/Scarab/action/ExecuteQuery?query=data_integration Там их немного, но есть интересные. Большое спасибо Родиону за ссылку. Я вообще не знал, что у Оракла есть такой ресурс.

Вышел ODI 11ый

Если кто-то не видел еще. На oracle.com объявлений нет, на edelivery лежит.

Хозяйке на заметку: PDI, очистка кэша БД

Делаю проект на Pentaho Data Integrator. Столкнулся с такой фичей, как кэш описания таблиц в БД. Т.е. ты тип колонки меняешь, а PDI все еще «видит» старый и ругается. Решается очисткой кэша, который неинтуитивно запускается через Explorer трансформации. Правой кнопкой на базе и Refresh Cache. Однако чем хорош open-source — все уже можно найти, иначе [...]

ODI Best Pratices

Случайно наткнулся на интересный документ: Oracle Data Integrator Best Practices for a Data Warehouse. Пока бегло посмотрел —выглядит очень достойно.  Документ находится только гуглом, на oracle.com сходу найти не получилось ) Надо прочитать, а то как-то я поостыл к ODI, начали раздражать мелочи, GUI (ну вот как можно без copy-paste работать), пора перечитать концепции, проникнуться.

Масштабируемость Pentaho Data Integrator

Отличные тесты масштабируемости PDI провел Николас Гудман. 450 тысяч строк в секунду на 40 серверах выглядят красиво. Статья, пост Мэтта. Я кстати, не так давно рассказывал о PDI и наших упражнениях с этим движком на семинаре Центра Компетенции Крок (обновлю пост, как будет ссылка на мероприятие).  У нас в лабе, говорят, есть Azul, вот на нем [...]

Сравнение производительности ETL-движков

Сравнение Datastage (в обоих ипостасях), Informatica, Pentaho Data Integrator и Talend. Выигрывает Talend. Интересный документ, по его поводу уже начинаются мелкие сражения между сторонниками PDI и Talend. Поскольку мне недавно довелось поизучать Datastage, могу заметить, что некоторые задачи там явно можно ускорить. Хотя я уверен, что это же можно сказать и про все другие движки [...]