Tag Archives: hadoop

MPP вендоры включают Map\Reduce в свои решения

Пост Курта Монаша Что ж, с помощью M\R действительно можно масштабировать большинство ETL-задач (порядок букв важен). Eсли до этого в MPP-кластерах, было выгодней пользоваться ELT подходом, генерируя трансформирующий SQL, который распараллеливался на кластер, то теперь можно запускать M\R задачи, которые так же будут масштабироваться на кластере. Причем не факт что SQL будет быстрее.  Гибкости M\R [...]

Hive выкладывают в open-source

Hive — это Facebook хранилище данных (22 Тб, 200 Гб прирост в день), реализованное на Apache Hadoop. Никаких РСУБД, чистый map-reduce. Соответственно, выложат весь framework для организации хранения таблиц и обработчик запросов на SQL-подобном языке. Ссылка. Там же tutorial. Таким образом, добавится очень интересная альтернатива для анализа сверхбольших объемов данных. Думаю, научные применения ака биоинформатика, [...]

Маленький пушистый зверек внезапно подкрался

Итак, доблестные китайские ученые опубликовали статью, 1 в 1 то, что я делаю: замкнутые кубы + map\reduce (hadoop) для их создания. Пока я еще ищу вариант сэкономить 20 $ и не могу ее прочесть, что это значит для меня: — я не успел написать это первым. хотел послать вариант статьи на конференцию через месяц, но [...]