«Сырых» данных не бывает

«Сырых» данных не бывает
Data Base. Thomas Hawk / Flickr

Наше время часто называют эпохой больших данных, а необходимость быть дата-ориентированным (data-driven) сегодня превратилась в требование, предъявляемое к управлению бизнесом, здравоохранению, публичному администрированию и т.д. Но, как показывают антропологические исследования, парадокс данных в том, что они никогда не «даны» — «сырой» информации просто не существует.

 

Искусство убеждать

 

 

История понятия «данные» свидетельствует о том, что к нему обычно прибегают в риторических целях. С одной стороны, данные — это то, что предшествует аргументации, формируя для неё риторическую опору. С другой стороны, наличие той или иной информации само по себе может привести к определённым выводам. Данные, в отличие от фактов, могут быть «хорошими» или «плохими», «неполными» или «избыточными». Тем не менее одной апелляции к ним нередко бывает достаточно, чтобы претендовать на безоговорочную объективность. Другими словами, данные способны заменить аргумент, и сегодня так происходит всё чаще.

 

Риторическая убедительность при апелляции к «данным» поддерживается также и представлением об их абстрактности, что позволяет использовать сведения вне контекста и независимо от материальных устройств для их записи и хранения. Как выразился исследователь медиа Лев Манович, данные не просто «существуют» в ожидании анализа, сначала они должны быть «сгенерированы». Для этого их нужно «выделить» и представить какой-то аспект реальности в качестве информации. Здесь требуется нечто большее, чем творческое воображение талантливого исследователя или администратора, а именно: институциональная и материальная инфраструктура.

 

 

Власть современных государств была основана на «больших данных» задолго до того, как big data стала мейнстримом: для управления национальной экономикой и населением европейским государствам Нового времени сначала требовалось составить представление о природных ресурсах своей территории и богатстве собственного населения, а для этого — создать единую систему мер и весов, картографировать залежи полезных ископаемых и лесные массивы, а также ввести постоянные фамилии для своих подданных — то есть превратить их в «данные».


 

Как стандартизация создаёт информацию

 

 

Метафора данных как «сырья», которую используют для описания бизнес-моделей платформенных компаний вроде Facebook, Amazon и Uber, не работает даже применительно к природным ресурсам, как показывает пример прусского лесного хозяйства конца XVIII века. Для оптимизации добычи древесины чиновники придумали лесоведение, чтобы анализировать и стандартизировать экономические характеристики деревьев. Лесники собирали сведения о размерах, объёме и возрасте деревьев с учётом нормального цикла роста и созревания; затем эти данные агрегировали в таблицы для расчёта доходов с будущего урожая. При этом информация о разнообразии видов деревьев, симбиотических отношениях между деревьями, насекомыми и животными не принималась в расчёт. Таким образом, сначала лес должен был быть представлен как набор сведений — это было необходимо, чтобы увеличить урожай. Уже в этом смысле данные о лесе не были «сырыми»: они были сгенерированы благодаря стандартизации с помощью инструментов финансовой математики.

 

 

Другим примером являются фьючерсные сделки, которые позволяют застраховаться от непредвиденных изменений спроса или ценовых колебаний того или иного товара. Как показывают историки, фьючерсная торговля требует чрезвычайно масштабной работы по стандартизации — прежде всего, самих обмениваемых активов и единиц их измерения. Например, в Америке девятнадцатого века значительная часть фьючерсной торговли была связана с поставками зерна, а поскольку предметом сделок выступали ещё не собранные урожаи, оценить качество урожаев напрямую было невозможно, и именно поэтому ключевую роль играли стандарты. Когда зерно перевозили в товарных вагонах и хранили в элеваторах, оно перемешивалось до полной однородности, что приводило к «усреднению» его качества. Таким образом, зерно, измеряемое «мешками», выращенное конкретным фермером в определённых экологических условиях, теряло связь с условиями своего производства. С этого момента участники рынка могли иметь дело с агрегированными категориями зерна, к которым можно было применять единообразные стандарты качества. За них отвечала комиссия инспекторов, уполномоченных правительством штата, также контролировавших и шкалы, в соответствии с которыми измерялись «единицы» зерна (бушели). Хотя заключение фьючерсных сделок не обязательно предполагает реальную поставку товара, условием их проведения была стандартизация зерна. Покупать зерно у отдельного фермера — значит, нести риски, связанные с качеством товара (отклонение от стандарта делает разные виды зерна несоизмеримыми), манипуляцией единицами измерения (у разных фермеров мешки разных размеров), а также с необходимостью вступать в переговоры для отмены или изменения условий поставки. Если есть стандартные категории качества и стандартные единицы измерения, контракты могут заключаться, даже когда физическое зерно остаётся на месте — на основе «данных» о его качестве и количестве.

 

Опасности стандартизации

 

 

Итак, данные не бывают «сырыми», так как для их получения нужно провести стандартизацию — выделить одни аспекты действительности (и превратить их в данные) и исключить другие. Поэтому имеет смысл задаваться вопросом: с какой целью были собраны сведения и что оказалось упущено.

 

Иногда стандартизация влечёт за собой негативные последствия. Так, прусское лесоведение выработало концепцию стандартизированного дерева — Normalbaum, определяемого объёмом подходящей для продажи древесины конкретного вида. Когда пришло время восстанавливать вырубленные леса, именно эту идею взяли на вооружение при планировании новых посадок. Получившийся в результате «нормальный лес» стал экологической катастрофой, поскольку подорвал естественную работу лесной экосистемы, для которой необходимы деревья различных видов, бурелом и сухостой. Управлять «нормальным лесом» проще, потому что легче собирать о нём информацию. Однако в долгосрочной перспективе изменение экосистемы и сложного баланса между деревьями, животными и насекомыми привели к снижению норм роста.

 

 

Источником риска здесь является не просто недостоверность или неполнота данных, но и обратная связь между ними и той реальностью, из которой они «извлекаются» — будет ли это прусский лес, американское зерно или информация о страницах, понравившихся пользователям социальной сети. Стремление управлять с опорой на данные может привести к тому, что, кроме этих данных, управлять будет попросту нечем. Именно потому, что «сырых» данных не бывает, столь важно учитывать работу по их созданию и извлечению — радикально упрощая объект анализа или управления, зачастую можно изменить его до неузнаваемости.


 

Дмитрий Жихаревич