Собрать и потерять: как бизнесмен подсадил США на больше данные, а потом допустил их утечку

Основатель компании Alteryx Дин Стокер часто рассказывает о плюсах Big Data, умалчивая о проблемах

Рынок больших данных – один из самых быстроразвивающихся в IT. Если в 2015 году его объем составлял 122 млрд долларов, то к следующему году, по данным Statista, превысит 274 млрд. Мировой объем данных только за пять лет с 2020 по 2024 вырастет с 40 до 175 зеттабайт.

Сейчас Big Data используют все, кому не лень – от госструктур до сетевых магазинов. Со всеми вытекающими последствиями. Каждый год объем утечек данных вырастает в несколько раз, несмотря на все меры предосторожности. Этот материал о том, как американская компания Alteryx, по сути, создала отрасль Big Data, подсадила на него государство и бизнес, а потом допустила одну из крупнейших в США утечек.

Пророк в своем отечестве

Седовласый и улыбчивый Дин Стокер – любимец американских СМИ. Он частый гость на Bloomberg Radio, о нем пишут маститые Forbes и Inc. Журналистам нравится его образ – эдакого молодящегося стартапера, вдохновленного «Искусством войны», Сунь-цзы, с миссией принеси пользу человечеству. Но куда важнее то, что своими заявлениями о возможности предсказывать что угодно на основе анализа данных, Стокер стал удобным собеседником. Ведь звать пророка или колдуна на серьезные эфиры – неудобно. А миллиардера, заработавшего состояние на этом – самое то.

Бизнесом Дин начал заниматься с малых лет. Его отец из тех, о ком в России говорят: «руки откуда надо растут». Стокер-старший продавал каркасные летние дома в Колорадо. Да еще и делал их самостоятельно. Из древесины. По девять месяцев в году. Дин вспоминал, что сам не заметил, как стал помощником для отца. Заработанных на каркасных домах денег хватило на изучение экономики в Колорадском университете.

Это был 1990 год. Начинался бум IT-индустрии. Предприимчивый парень понял, что скоро самые большие деньги можно будет заработать в трех сферах: программировании, данных и аналитике. Так Дин устроился менеджером по продажам в коннектикутскую компанию по анализу данных Donnelley Marketing Information Services. За семь лет работы здесь он досконально изучил «внутреннюю кухню» и решил начать свое дело. Дин тогда сказал жене: «Я либо куплю чей-то бизнес, либо уволюсь». Получилось второе.

Так в 1997 году появляется компания со сложным названием Spatial Re-Engineering Consultants («Консультанты по пространственному реинжинирингу»). Или сокращенно SRC. Созданная сорокалетним Стокером и партнерами платформа основывалась на аналитике открытых статистических данных переписи населения США. Инструментарий платформы позволял сопоставлять и манипулировать полученными данными каким угодно образом. Разработка оказалась настолько успешной, что позволила Дину провернуть красивый трюк: спустя три года он продает свое программное обеспечение Бюро переписи населения США. Тем, чьими данными он пользовался бесплатно.

В те годы, когда Стокер только начинал свой бизнес, наметился пузырь доткомов. IT-сфера и, в частности, интернет-компании безудержно росли, прожигая наличность на не всегда оправданные цели. На фоне топ-менеджмента таких компаний Дин напоминал скупого папочку. Несмотря на то, что бизнес в те годы в основном не имел представления о больших данных, клиенты у Стокера были. А поскольку его небольшая фирма не тратилась на производство, логистику, упаковку, маркетинг и прочие издержки, прибыль у них потихоньку росла. В итоге, когда в марте 2000 года интернет-пузырь лопнул, SRC этого фактически не заметили. А вот бизнес, сбежавший от интернет-гигантов, заметил Стокера. Но рывок компании к популярности случился не сразу.

В 2006 году Дин выпускает программу, которая и сделает его миллиардером. Alteryx получила название от популярной среди ботаников шутки об одновременном изменении двух переменных – Y и X. Простота и понятность названия программы заставит Стокера переименовать в Alteryx всю компанию. В программе AlteryxДин полностью пересматривает свой подход к аналитике больших данных, делая ее доступной для чайников.

«Она делает данные более доступными и полезными. В своей аналитической работе специалисты по обработке данных могут независимо от технической грамотности, добиваться лучших результатов. Им не нужно самим писать или понимать код. Процесс упрощается до простого перетаскивания и щелчка мышью, становится рутинным», — объясняет Стокер.

Упрощение было необходимым, чтобы выиграть будущую конкурентную борьбу на перспективном рынке. Аналоги, вроде SPSS (Statistical Package for the Social Sciences – «статистический пакет для общественных наук»), вышедшей в конце 60-х, уже не отвечали современным запросам. Да и специалистов, умеющих самостоятельно написать код для аналитики, было еще крайне мало. В итоге простота Alteryx стала тем крючком, которым Стокеру удалось зацепить клиентов как в США, так и за пределами сраны.

Интерес к Alteryx понемногу рос, а очередной кризис 2008 года компания вновь прошла как по маслу. Говоря об этом периоде, Дин любит цитировать «Искусство войны». Особенно ту часть, где рассказывается, как победить не сражаясь.

Удар по репутации

На волне растущего успеха в 2011 году Alteryx впервые привлекла венчурное финансирование, а в 2017 году провела IPO. И тут полоса удач Стокера ненадолго прервалась. На первичное размещение акций публика отреагировала вяло – их стоимость в день торгов выросла на 10%, а через неделю опустилась почти до цены размещения. Стокер назвал это событие «разочаровывающим звонком».

Спустя год – новый удар. Компания случайно публикует в открытом доступе данные 123 млн домохозяйств США. Всего в стране на тот момент было 126 млн семей. Стокер поспешил заявить, что в залитом файле не было персональных данных, но это было похоже на сохранение хорошей мины при плохой игре.

«Этот набор данных коммерчески доступен в Experian и предоставляет некоторую информацию о местоположении, контактную информацию и другую оценочную информацию, которая используется в маркетинговых целях», — написал генеральный директор Alteryx. – «Он не включает имена, номера кредитных карт, номера социального страхования, информацию о банковском счете или пароли. Некоторые СМИ сообщили, что набор данных включает в себя этот тип информации, что не соответствует действительности».

К его заявлению отнеслись скептически. Особенно с учетом подробного отчета об утечке, опубликованного охранной фирмой UpGuard. В нем говорится, что данные находились в слабозащищенном хранилище S3 в коммерческом публичном облаке Amazon Web Services. В файле были почти все имеющиеся данные об американцах, что прямо противоречило заявлению Стокера. Контакты, адреса, данные о доходах, ипотеке, финансовая история, этническая принадлежность – все это утекло в сеть. Даже личные интересы и подписка на журналы были там.

Виновного в сливе так и не назвали, пообещав стандартное: «дыры в безопасности залатать, быть внимательнее впредь». Кто знает, может это был сам основатель Alteryx. История знает и такие примеры.

Само собой, публика никак не отреагировала на масштабную утечку. Стокеру не угрожали кострами инквизиции, его акции не обвалились на бирже и даже прибавили потом внушительные пару сотен процентов. Основатель Alteryx даже после ухода с поста CEO в 2020 году продолжил мелькать в СМИ, то рассуждая о предсказании кривых заболеваемости коронавирусом, то рассказывая о масштабной благотворительной работе, которую проводит Alteryx.

Но все это не более, чем дымовая завеса. Alteryx стала лидером аналитики данных не в последнюю очередь благодаря тому, что пользователи и на заре существования интернета, и сейчас охотно делятся ими. Зачастую не отдавая себе отчет в том, что информация легко может появиться в широком доступе и впоследствии как-то навредить. И когда эти утечки все же происходят, они вызывают все меньший всплеск негодования публики. Только за 2020 год в Сеть утекли около 100 млн записей россиян – и никакой ощутимой реакции.

Разные страны пытаются подступиться к вопросу регулирования Big Data, но они неизменно наталкиваются на глухую оборонительную линию лидеров рынка. Показателен один отечественный пример. В феврале 2020 года Минкомсвязи предложило законопроект о регулировании больших данных. Документ определял, что такое большие данные, кто является их оператором, что подразумевается под обработкой такой информации и как будет осуществляться контроль за ней. В итоге под давлением бизнеса инициативу отклонили. «Ведомости» со ссылкой на Ассоциацию больших данных (АБД, в нее входят «Яндекс», «Ростелеком», Mail.ru Group, Сбербанк, Газпромбанк, «Тинькофф-банк», «Мегафон» и другие компании) написали, что определение больших данных слишком широкое, а закон может «затормозить развитие рынка данных и искусственного интеллекта в России и создаст преференции для иностранных компаний».