Category Archives: hadoop

Visa присматривается к Hadoop

Не люблю просто давать ссылки, но очень интересное интервью про то, что Visa что-то начинает делать на Hadoop. И, заодно, отличный пост про насыщение рынка аналитических СУБД.

И снова о Map-Reduce

Отдельно отметим, что теперь уже еще и Netezza, Vertica и Teradata включают M\R поддержку в свои MPP хранилища. Особенно это интересно в случае с Vertica, после столь бурных прений на тему того, что M\R не нужно для аналитики. Не пройдет и пары-тройки лет и в Exadata включат Hadoop ) А MPP от IBM еще более [...]

И снова цирк (и пиво)

27 марта BIщики идут пить пиво и слушать доклады. Я, видимо, только на пиво успею. 23-24 апреля будет очередная конференция «Корпоративные базы данных», на которой я буду рассказывать что-то по мотивам статьи про облачный BI (всенепременно еще и про диссертацию 5 минут). На тему облаков еще будет выступление Google, должно получится интересно. Прошу прощения, что [...]

MPP вендоры включают Map\Reduce в свои решения

Пост Курта Монаша Что ж, с помощью M\R действительно можно масштабировать большинство ETL-задач (порядок букв важен). Eсли до этого в MPP-кластерах, было выгодней пользоваться ELT подходом, генерируя трансформирующий SQL, который распараллеливался на кластер, то теперь можно запускать M\R задачи, которые так же будут масштабироваться на кластере. Причем не факт что SQL будет быстрее.  Гибкости M\R [...]

Мы писали, мы писали

Кстати, на citforum появилась моя статья про cloud-computing в BI. Мне в ней, честно говоря, нравится только название, но может кому-нибудь сгодится. Написано было еще в июне, и за прошедшие 2 месяца Netezza собралась делать EC2 вариант, так что можно сказать, прогноз сбывается )

Hive выкладывают в open-source

Hive — это Facebook хранилище данных (22 Тб, 200 Гб прирост в день), реализованное на Apache Hadoop. Никаких РСУБД, чистый map-reduce. Соответственно, выложат весь framework для организации хранения таблиц и обработчик запросов на SQL-подобном языке. Ссылка. Там же tutorial. Таким образом, добавится очень интересная альтернатива для анализа сверхбольших объемов данных. Думаю, научные применения ака биоинформатика, [...]

Hbase остается без HQL

Это забавно, теперь даже sql-подобного синтаксиса там не будет. Меньше соблазнов думать что это rdbms. Документоориентированные бд? Такой термин для всех AmazonDB, SimpleDB, CouchDB, HBase, HyperTable и иже с ними? В качестве shell будет JRuby. Жаль, мог бы быть jython ) И даже groovy ) Дисскусия по заявке А в HyperTable пока еще HQL.

Маленький пушистый зверек внезапно подкрался

Итак, доблестные китайские ученые опубликовали статью, 1 в 1 то, что я делаю: замкнутые кубы + map\reduce (hadoop) для их создания. Пока я еще ищу вариант сэкономить 20 $ и не могу ее прочесть, что это значит для меня: — я не успел написать это первым. хотел послать вариант статьи на конференцию через месяц, но [...]