Визуализация данных, цифры и графики

Разбирая ленту, нашел великолепный пост Goodman на тему визуализации данных в BI-системах. В последнее время действительно много пишут о Tableau, как о хорошем средстве визуализации данных. Да и появление Flex способствует созданию все более симпатичных графиков (посмотрите, к примеру, у того же Goodman, как можно использовать Flex в для Pentaho). При этом tableau в какой-то степени пытается привнести что-то новое, а использование Flex просто добавляет *лоска* в существующие графики.

На самом деле, «новые» способы визуализации — одна из 12 несовершившихся BI-революций ), при этом, на мой взгляд, одна из самых интересных. Испольуемые сейчас визуальные метафоры (типы графиков) все те же,что и в докомпьютерную эпоху, ничего радикально нового не было придумано. При этом, да, объемы данных возросли невероятно, но и возможности интерактивной работы возросли в еще большей степени (в бумажный график не «провалишься», не повернешь и пр).

Да и общее отношение к графикам сильно изменилось, и виноват, в этом, конечно, Гейтс. Встроенные в Ms Office варианты графиков для 95% встреченных мною аналитиков являются необходимыми и достаточными не только для создания отчетности корпоративного уровня (сам бог велел, какие уж изыски), но и для собственной работы. К тому же, возможность автоматически построить и распечатать 100 одинаковых графиков за минимальное время совершенно убивает всякие попытки подумать о другом варианте графика, в котором вся эта информация будет доступна одновременно. Проще распечтать пару сотен страниц картинок низкого разрешения, сброшюрировать и voila, аналитический труд готов (полтысячи страниц — не шутки).
В этой связи хочется сослаться на замечательные работы Эдварда Тафти, чья книга «Visual Display of Quantitative Information» является классическим трудом по визуализации данных и представляет собой образец дизайна (чтобы выпустить первое издание, Тафти заложил свой дом и построил в подвале собственную типографию). В данной книге приведено множество примеров великолепных графиков, каждый из которых рассказывает историю (один, без сотни товарищей). И самый известный пример, график Charles Joseph Minard, «Napoleon’s Invasion of Russia». Угадайте, сколько измерений на этом графике?

Minard Napoleon Invasion of Russia

Туфте, кстати, один из самых ярых противников PowerPoint )

Правда, создание подобных уникальных графиков — это скорее, пережиток прошлого, когда каждый аналитик придумывал собственные графики, чтобы лучше обосновать свои выводы (хотя странно, что этим сейчас не пользуются инвестиционные фонды, вроде бы достаточно простой способ выделится среди конкурентов).
И все это касается только статичных графиков для печати, с интерактивными все сильно хуже.

С другой стороны, при переходе к тонким web-only клиентам прослеживается тенденция к сокращению графических возможностей (к примеру, в Cognos Visualizer есть возможность включать time-flow и смотреть мультик про то как данные менялись во времени, а в Cognos 8 BI такого нет, т.к. html так перерисовывать очень накладно) и упрощению возможных типов графиков. Любой мало-мальски интересный отчет, встречаемый у заказчика, требует для перевода в современное BI-средство либо преодоления ряда проблем по совмещению нескольких типов графиков в одном, скрытия, условных форматирований, либо написанию подобного шаблона с нуля, на чистом javascript (что в разы сложнее, чем в том же Excel). Таким образом, современные BI средства пропагандируют упрощение графических образов, так как, да, график делается одним движением мыши, но только стандартный. А нестандартный — нужна помощь, а это сразу превращает этот график из анализа в отчет, жестко зафиксированный и никому не нужный. Поэтому с одной стороны аналитики, выросшие на Excel не знают ничего другого, с другой стороны традиционные BI-средства, ничего другого не позволяющие. Преодолеть эту патовую ситуацию могут только новые системы, которые убедительно докажут, что анализ данных на основе графиков возможен. В связи с этим хочется поработать с Tableau, может это действительно «apple для средств визуализации», как его величают. Кстати, там, конечно, толстый клиент.

А вообще вот очень хорошая лекция о том, как показывать статистическую информацию и как использование средств визуализации может помочь найти закономерности — Telling stories with statistical data, c TED 2006. Вот так должен выглядеть современный анализ данных, а не в виде 100 одинаковых графиков в распечатке.

И еще блог про визуализацию данных.