Выступления по этой статье:
Выступление от 21.06.2018, д-р Миркин Владислав, Соединённые Штаты АмерикиВыступление от 11.06.2018, Доктор Козлов Михаил,
Выступление от 21.05.2018, доктор Качан Анатолий, Израиль
Выступление от 21.05.2018, Доктор экономики Яновский Моше, Израиль
(О некоторых перспективах использования больших массивов данных)
Предлагаемая вниманию читателей статья профессора Мирона Амусьи, впервые опубликованная на сайте http://club.berkovich-zametki.com/?p=37014 вызвала неоднозначную реакцию коллег. Тем интереснее!
Прошлое не повторяется, но оно рифмуется с настоящим.
(The past does not repeat itself, but it rhymes)
Марк Твен
Моя истинная страсть состоит в том, чтобы вооружить человечество научными методами, позволяющими автоматически прогнозировать и, в конечном итоге, влиять на будущие результаты, основываясь на уроках прошлого.
К. Радинская
1. Введение
Настояшая заметка представляет собой упрощённое изложение доклада, с которым автор выступал на нескольких научных конференциях в прошлом году. Я не являюсь специалистом в обсуждаемой области науки. Однако просто потрясён достигнутыми в ней результатами и открывающимися возможностями. Первоначальным толчком, привлёкшим моё внимание к проблеме, стал доклад проф. К. Радинской 28.11.16 на коллоквиуме в Институте физики им. Дж. Рака Еврейского университета в Иерусалиме. Именно там я впервые услышал термин Big data sets (Большие массивы данных), или, короче, Big Data (Большие данные).
Признаюсь, мой интерес не находил подобного же отклика у окружающих. Компьютеры и их производные приносят много нового в нашу жизнь. Казалось, «Большие данные» - это нечто обычное в этой цепи. Но совсем недавно проблема эта стала центром значительного общественного внимания. Так, выяснилось, что компания «Кэмбридж аналитика», о которой пойдёт, среди прочего, разговор в данной заметке, сумела дать важнейшие для выборов в США в 2016 данные, характеризующие личности почти ста миллионов избирателей США. Она настолько существенно опиралась на данные, полученные с помощью Фейсбука, что его основателю и руководителю М. Цукербергу пришлось извиниться перед своими подписчиками, число которых воистину огромно. В результате, «Большие данные» оказались заслуженно в центре общественного внимания.
Выяснилось, что использование Больших массивов данных позволяет, после определённой их обработки, описать многие природные и социальные явления, предсказать поведение значительных групп людей, т.е. сказать нечто об их будущем, и даже оказывать на него существенное воздействие, т.е. влиять на будущее. Всё это меня глубоко впечатлило, и заставило как искать материал по проблеме, так и самому в меру умственных возможностей обдумывать её.
2. Сбор и использование Больших массивов данных
Источником Больших массивов данных являются издавна ведущиеся книги записей, собрание историй болезней, всевозможные архивы, газеты, результаты переписей, опросные листы, данные всевозможных испытаний, анализов и т.п. Новыми, всё более важными источниками массивов данных становится интернет, социальные сети, а также некоторые, кажущиеся побочными, источники, что включает анализ данных, поступающих от персональных компьютеров и мобильных телефонов. Всё большую роль приобретает анализ письменных комментариев пользователей, что требует разработки специальных математических, программ.
Однако даже простой счёт таких реакций читателя статей или комментариев к ним, как «Like», «Repost», или «Dislike» становится важнейшим информатором того, что представляет из себя этот читатель как личность, каковы взгляды и интересы человека, нажимающего соответствующие кнопки. Задача - накопить для данного индивида достаточно большой массив ответов.
Интересно, что анализ газетной информации за множество лет может привести к важным заключениям, прямого отношения к описываемым в газетах событиям не имеющим. Так, оказалось, что газета Нью Йорк Таймс может рассматриваться не только как источник антиизраильских измышлений. Так, сообщения в этой газете за период 1851-2010 гг позволяют, как впервые показала К. Радинская, проанализировать некоторые природные явления, прямо не связанные с человеческой деятельностью.
Так, например, была проанализирована массовая гибель птиц. Под «массовой гибелью» понимается такое происшествие, которое заслуживает внимание публики, что отражается фактом публикации в газете. Конечно, подобный выбор содержит элемент произвола, но значительная длительность выборки придаёт собираемым данным надёжность.
Оказалось, что график зависимости гибели птиц от года наблюдения имеет, наряду с подобными шуму малыми осцилляциями ещё и большие максимумы. Аналогичные кривые были получены и при описания массовой гибели рыб. Результаты оказались схожими, притом положения больших максимумов для рыб и птиц совпадали. Анализ газетных сообщений позволили найти корреляцию между этими событиями и большими разливами нефти. Анализируя временной масштаб повторения событий в прошлом, оказалось возможным предсказать повторение подобных событий и в будущем.
Замечу, что всё это удалось сделать без привлечения каких-либо знаний в облостях орнитологии или ихтиологии: требовались лишь большие наборы данных, и компьютерные программы для их обработки и анализа. Подобный подход открывает принципиальную возможность находить ранее неизвестные связи и корреляции. Тем самым буквально открывается окно в многомерный виртуальный мир, наглядно иллюстрируя переход больших количеств (объёмов данных) в новые качества - открываемые закономерности.
3. Проекты Больших массивов данных
Очевидна аллюзия с оруэлловским «Большим братом». Вспоминается знаменитое выражение «Большой брат следит за тобой!». Первый шаг в том анализе, о котором собираюсь говорить – это сбор различных больших массивов данных. Их источниками могут быть как старомодные газеты, так и современные персональные компьютеры (ПК), равно как и мобильные телефоны – постоянные спутники, верные друзья и важнейшие соучастники нашей сегодняшней жизни, делающие её кардинально отличной от ещё сидящей в памяти жизни вчерашней.
Почти всё, происходящее с нами сегодня, отражается в ПК и на смартфоне, вне зависимости от того, что делаем – пишем ли мы научную статью или воспоминания, поздравляем ли друзей и родных с праздниками, оплачиваем банковские счета, покупаем всевозможные билеты, заказываем номера в гостинице, или непрерывно что-то спрашиваем, спрашиваем, спрашиваем без конца. Буквально дня не провести без использования Гугла, Википедии, или Мувита. В прошлое уходят библиотеки – я с собой таскаю сейчас более трёхсот книг, и читаю практически всё, что хочу, на пятидюймовом экране чуда весом чуть более 100 г. Никогда в прошлом столько не читал, никогда с такой пользой не проводил время – даже в автомобильных пробках.
Приведу пример использования больших массивов данных в медицине. Система IBM Watson for medicine имеет в Гугле больше миллиона ссылок. Нижеследующие конкретные цифры приведены по данным состоявшегося в 2016 в Сан-Антонио (США) симпозиума по раку груди. Выяснилось, что 12 вопросов к пациентке, вместе со всеми доступными личными медицинскими данными позволяют диагностической программе успешно соревноваться с консилиумом первоклассных специалистов. Совпадение констатировано сходу в 83% случаев. Оставшиеся 17% были пересмотрены, и половина из них, т.е. 8.5% от полного числа, сменилась в пользу мнения компьютера, доведя согласие в дуэте «компьютер – консилиум» до 91.5%! Притом, компьютерная программа гораздо доступнее, чем консилиум светил.
Использование больших массивов данных делает возможным одновременно испытывать десятки образцов нескольких отличающихся версий одного и того же препарата, что позволяет резко сократить продолжительность перехода лекарства от производителя к пациенту. В то же время, наличие возможно более подробного «досье» физиологических и психологических данных о пациенте позволит перейти к весьма важному методу лечения, которое будет использовать индивидуально подобранные для данного пациента лекарства. Это подобно тому, как если бы производители одежды без существенного удорожания смогли бы вернуться назад, от массового, к быстрому индивидуальному пошиву.
Уже сейчас, принимая по утрам целый ряд таблеток и изучая из любопытства с помощью Гугла длинный список противопоказаний каждой из них, я вижу проблему. Она состоит в том, что обычному врачу просто невозможно удержать в голове все эти результаты работы огромного числа фармакологов, и не сопоставить их с моими конкретными, уже существующими заболеваниями. А ведь хорошо бы ещё попытаться учесть те заболевания, которых у меня нет, но к которым я явно предрасположен. Здесь помочь может только сопоставление Больших данных по медицинским препаратам с моими данными, собранными за годы наблюдения.
Упомяну, что индивидуально подогнанные препараты уже сейчас успешно применяются в лечении самого опасного вида меланомы (рака кожи), который составляет примерно 30% от общего числа меланом. Цель таких противораковых препаратов – устранить защиту раковой клетки, предохраняющую её от воздействия иммунной системы поражённого раком организма. Остальное сделает сама эта иммунная система. Вред, причиняемый такой терапией определённо ниже, чем от традиционной химиотерапии, где введённое лекарство убивает раковую клетку. На сегодняшний день приготовление такого индивидуального лекарства занимает примерно три часа, но обходится весьма дорого.
Особенность подобных подходов состоит в том, что конкретные данные о здоровье отдельного человека могут стать известны, в принципе, кому угодно. Таким образом, возникает возможность не только его лечить, но и управлять им.
Большие наборы данных широко используются в так называемом направленном или прицельном рекламировании (Targeted advertisement). Каждый сталкивается с этим регулярно. Стоит вам поинтересоваться гостиницей в каком-то городе, или авиабилетами по какгму-нибудь маршруту, как на экране вашего ПК, планшета или смартфона появляются многочисленные предложения, информирующие о гостиницам в упомянутом городе или о соответствующих авиабилетах. Впервые я столкнулся с этим пару лет назад, подбирая для себя гостиницу в Эйлате. Был поражён потоком рекламы гостиниц именно в Эйлате, что поначалу отнёс к случайным совпадениям. Потом понял – реклама учитывает мой проявленный интерес, она направлена в ответ на мой запрос, а маленький ПК, просто как Большой брат, неустанно следит за мной.
Эффективность прицельного рекламирования гораздо выше, чем обычного. Целевое размещение рекламы в Фейсбуке увеличивает число ознакомлений с рекламой на 60%, а вероятность действия – покупки, после ознакомления с персонализированной рекламой возрастает почти в 15 раз.
Большие массивы данных важны в целом ряде областей. К примеру, с их помощью можно составить коллективный портрет биржевого торговца – брокера. Большинство современных математических моделей биржи пренебрегают индивидуальностью, личностными чертами брокера. Последний трактуется как некая воистину «элементарная частица», лишённая внутренних степеней свободы, прямо не взаимодействующая с другими «частицами». На все независимые «частицы» - брокеры, действует общее, одинаковое для них, поле.
Подобный подход несколько раз представлялся на коллоквиумах Института физики им. Дж. Рака, но всегда вызывал у меня удивление и несогласие. Действительно, даже наблюдая со стороны, с галереи для публики или на экране ТВ, то, что происходит в зале биржи, можно в поведении брокеров заметить проявления сильных корреляционных, коллективных эффектов. Они отражаются в синхронных взмахах рук, прыжках, и в том, как и когда брокеры спешат известить о чём-то своих клиентов. Очевидно, что брокеры имеют индивидуальные степени свободы, и их поведение во многом определяется личными привычками, но и своего рода модой, поведением коллег. Создание баз Больших данных по брокерам помогло бы им успешнее организоваться или самоорганизоваться, а также способствовало бы развитию теории биржи.
Подходы, основанные на больших массивах данных сулят многое и в науке. Я имею в виду проведение, например, глобальных экспериментов в физике, что позволит определять, опираясь на данные из разных лабораторий и от разных групп, не только традиционную одномерную зависимость y=f(x), но и более сложные зависимости y=f(x, z), y=f(x, z, t) и т.д. Обработка больших массивов разнородных на первый взгляд данных может вскрыть наличие неизвестных ранее, удалённых корреляций. Создание Больших массивов данных важно и с точки зрения установления связи между разными, подчас не знающими друг о друге, исследователями. Это позволяет находить сходство между разными подобластями и даже областями исследований. Так, например, изучая кривую, которая описывает форму песчаного берега океана (например, обратная волна), можно получить её аналитическое выражение, а затем найти и уравнение, подчас в совершенно другой области науки, решением которого является рассматриваемая кривая.
4. Большие массивы данных и политические выборы
Уже сейчас создание больших массивов данных позволяет получать важные социологические результаты. Несколько лет назад Михал Косинский (Michal Kosinski, The Psychometrics Centre, Cambridge University) создал для Фейсбука приложение. МояЛичность (MyPersonality). Приложение позволяло собирать данные для описания персонального профиля пользователя. Были получены миллионы (!) ответов. В основе лежала попытка охарактеризовать индивидуально человека, используя пять своего рода «измерений»: открытость, цельность личности, стремление к взаимодействию с другими личностями, доброжелательность (дружелюбие и готовность к сотрудничеству), и невротизм (насколько легко вывести индивида из себя).
Приведём примеру достижений приложения МояЛичность. Достаточно с его помощью проанализировать 68 “лайков” на Фейсбуке, чтобы установить с 95% вероятностью расу испытуемого, с 88% вероятностью его (гомо) сексуальность, его приверженность, например, если изучается американец, демократической или республиканской партии. Оказывается, что нажатия на “Like” подобно отпечаткам пальцев, а всё исследование выглядит как анализ ДНК в криминалистике.
Вскоре у приложения МояЛичность появилась возможность изучить человека лучше, чем его коллеги после анализа 10 “лайков”, после 70 – лучше, чем его (её) друг, после 150 – лучше, чем родители! Замечу, что соответствующие Большие массивы данным позволяют также находить группы людей с требуемыми чертами.
Особо богатую информацию о человеке предоставляет его смартфон. Он оказывается огромной психологической анкетой, которую мы осознанно или неосознанно заполняем. К осознанно вносимым данным относятся лайки и другие комментарии, заказы билетов, розыск адресов и маршрутов движения, равно как и многие другие сознательно сообщаемые данные. К неосознанно сообщаемым данным относится фиксация месторасположения, интонации голоса и манера говорить, в том числе – жестикуляция при разговоре. Повторюсь, смартфон, хотя и маленький, но вполне справляется с ролью Большого брата, который следит за своим, выходит, квази-хозяином.
Сравнительно недавно в Лондоне была создана организация, получившая название «Стратегические лаборатории связи» - SCL (Strategic Communications Laboratories). Организация заявила о себе как о «глобальном агентстве по управлению выборами, которое умело применяет моделирование поведения избирателей и занимается микро-таргетингом для политических кампаний». Эта организация либо прямо использует программы и результаты Косинского, либо переоткрыла независимо его подход.
Особое внимание последнее время привлекла дочерняя компания SCL – Аналитика Кембриджа (Cambridge Analytica - CA). Эта компания была использована с явным успехом Т. Крузом при подготовке к праймериз в Республиканской партии в 2015-16 гг. Также весьма успешно выступила CA, когда она была нанята Найджелом Фаранжем (Nigel Farage), лидером Партии независимости Соединённого королевства, одним из самых энергичных и влиятельных сторонников выхода Великобритании из Евросоюза (Brexit 2016). Возможно, в связи с успехом Brexit’а, и знакомством с СА Д. Трамп как-то сказал «Скоро они назовут меня м-р Brexit»! Во всяком случае, в августе 2016 появились сообщения, будто СА работает на Д. Трампа.
Во многом, судить о достижениях компании СА можно на основании того, что сказано её директором А. Никсом (Alexander Nix, CEO). Он утверждал, что участие СА в выборах в США играло важную роль в победе Д. Трампа на выборах в 2016. Отмечу, что Главный стратег Белого дома, С. Беннон (S. Bannon), был вице-президентом СА.
СА утверждала, что собрала довольно подробные данные о всех 220 миллионах избирателей США. Особо аккуратно были будто бы проанализированы данные по 17 штатам. Избирателей подразделили на 32 психо-типа, а каждый психо-тип - на множество малых групп – конкретных мишеней предвыборной агитации. Согласно сообщениям А. Никса, с помощью приложения CA волонтеры того или иного кандидата, при желании, могли получить данные о жителях буквально каждого дома.
Знание объекта агитации позволяет тщательно, продуманно и целенаправленно, рассылать агитационный материал, с учётом понимания того, что можно ждать от буквально каждого избирателя, и какой элемент из почти безбрежного моря избирательных материалов подействует на данного индивида наиболее эффективно.
Как известно, избирательная кампания Д. Трампа была гораздо дешевле, чем кампания Клинтон. Однако расходы команды Трампа на направленную агитацию через Интернет составили $60 миллионов, тогда как Клинтон – только $3 миллиона. Если это правда, налицо важнейшее доказательство роли достижения технологического преимущества и в такой области, как выборы.
А. Никсу принадлежит примечательное высказывание «Мои дети даже не смогут объяснить, что означает единый рекламный плакат для всех».
СА приобретала все доступные личные данные из новых и старых источников, включая данные IQ испытаний, которые придали дополнительный вес «лайкам» каждого изучаемого избирателя. Судя по недавно (в марте 2018) всплывшим фактам – приобретала «доступные» данные также и незаконным путём, без согласия тех, чьи данные собирались. А таких она взяла в Фейсбуке на более чем 50 млн. человек.
В передаче данных не последнюю роль сыграл психолог из Кембриджского университета А. Коган, который через созданное им приложение «This is your digital life» на платформе Фейсбука, составлял психологический портрет пользователя, и передавал эти данные третьим лицам, включая СА.
М. Цукербергу пришлось извиниться за недосмотр, разорвать связи с СА и Коганом, А. Никс подал в отставку, а СА объявила банкротство. Однако сомневаюсь, что данное направление деятельности ушло в небытие – слишком впечатляющие возможности оно открывает. Да и сам Никс не остался без работы, став тут же одним из директоров сравнительно новой компании Emerdata, чья деятельность, скорее всего, будет подобна деятельности СА.
5. Использование, злоупотребление и манипулирование
Социальные сети, в первую очередь Фейсбук, стали сильнейшим оружием в рекламировании, и относительно дешёвыми превосходными советниками при проведении выборов, описании и классификации потребителей и распространении новостей – истинных и ложных. Уже многие осознают, что Фейсбук стал важным выборным инструментом. Так, партия «Альтернатива для Германии», внезапно на выборах в Бундестаг в 2017 неожиданно ставшая третьей по величине, имеет в Фейсбуке больше подписчиков, чем обе ведущие партии, вместе взятые.
Особо внимания заслуживает сеть ВКонтакте, которая имеет сейчас 460 млн. подписчиков, и доступна на более, чем 90 языках. Сеть особо популярна среди русскоязычной публики, что позволяет ей играть очень важную роль в резко усиливавшемся, начиная с февраля – марта 2014, противостоянии РФ и Западных стран. С уходом П. Дурова с поста генерального директора компании и его отъезда из РФ резко усилилось влияние властей РФ на пропагандистские кампании, идущие с использованием сети ВКонтакте по всему миру.
Социальные сети могут быть использованы для усиления или использования как про- так и антиправительственных настроений и намерений. На основе Больших массивов данных можно находить и революционно настроенных, и склонных к сотрудничеству с властями людей. Программа, подобная той, которая называется МояЛичность, может способствовать пробуждению негативных черт в человеке, даже ему самому не известных. Это открывает возможность обнаружения скрытых преступников, тех, которые совершают не «мысленное преступление» (по Оруэллу), но готовы, по складу личности, совершить преступление в обычном смысле этого слова, проигрывая его пока ещё только в мыслях.
Недавно я просмотрел ролик Умное Оружие. Там демонстрируются абсолютно потрясающие военные возможности маленьких, меньше, чем в пол-ладони, беспилотников, которые оснащены электроникой, подобной современному мобильному телефону. Такой беспилотник управляется не посторонним оператором-человеком, а внутренним электронным пилотом, который направляет свой аппарат либо по введённому в его память портрету атакуемого, либо на основе обнаружения цели или целей, пользуясь набором их характеристик. Такой беспилотник – точнейшее и экономичнейшее оружие. В голову сразу приходит мысль о том, что он может распознавать также потенциального преступника, и карать его на основе намерений, предваряя совершение реального преступления. Это, однако, сразу ставит ряд сложнейших юридических и этических вопросов.
Описанное выше может использоваться не только в интересах добра, но и во имя зла, манипулируя общественным мнением и влияя на него. А такое есть бесценная опора для диктаторов, помогая им обрести международную поддержку, вводя в сеть и тиражируя ложную информацию через своих иностранных агентов или действующих на заграницу «фабрик троллей». Заметим, что один агент способен создавать десятки и сотни подложных счетов. Думаю, что генерировать подобны счета и даже создавать ложную информацию на заданную тему может даже автомат.
Намеренная фальсификация включает, но не ограничена организованным распространением обмана, намеренным, персонально ориентированным умалчиванием нежелательной правды, распространением ненависти, страха и ужаса, а также слухов. Примеров можно привести здесь множество, но я ограничусь лишь напоминанием о Берлинской «Бедной Лизе», девочке, якобы изнасилованной мусульманином, в действительности, преспокойно забавлявшейся со своим другом. А на улицы в это время, на основе преднамеренной дезинформации, вышли толпы русскоговорящих, требующих «отмщенья».
Замечу, что слухи обладают поразительной скоростью распространения и устойчивостью к опровержениям и просто к соображениям здравого смысла. Когда-то, учась в десятом классе школы, я обнаружил это, рассказывая кому-то из своих приятелей о впечатляющем, но довольно неправдоподобном, выдуманном мною происшествии. Через 3-4 дня этот слух, в трёхмиллионном Ленинграде возвращался ко мне с добавлением ещё более «душещипательных» деталей. Убедить в том, что этот слух придумал я, было невозможно. На мой вопрос, «Кто тебе сказал?», неизменно следовал ответ «Все об этом знают!».
***
Материалом для доклада, на основе которого написана данная заметка, стала не только лекция К. Радинской. Многое я взял из статьи, опубликованной в журнале Das Magazin N°48 – 3. Dezember 2016 (Cм. также The Insider). Почти всё, сказанное о медицине в этой заметке, я узнал от проф. О. Глуза (Дюссельдорф, ФРГ), которому чрезвычайно признателен. Однако, поскольку я переизлагал услышанное от него, возможные ошибки беру на себя. Пользовался и значительным количеством других источников. Тема меня исключительно увлекла. Я увидел в ней очередной пример мощи науки. Она и её работники несут ответственность за информирование, равно как и дезинформирование общества.
Приложение
Уместно гордиться знаменитыми евреями. Наряду со списками нобелевских лауреатов, появляются подобные списки офицеров и генералов Красной и Советской армий, создателей оружие, включая и то, что потом, по счастью, безуспешно, использовалась арабскими армиями и террористами в их войнах против Израиля. Поэтому тем более считаю нужным привести данные о Кире Радинской, доклад которой привлёк мой интерес к теме данной заметки.
Сейчас она – директор Науки данных (Data Science) и Главный учёный известной компании e-Bay, профессор Техниона, ей 32 года. В 4 года она с семьёй приехала в Израиль из Киева. Служила в Армии Обороны в электронной разведке, с 2012 имеет PhD. Тогда же продала свою компанию «Предсказание продаж» (Sales Predict) за 40млн. долларов. В 2013 вошла в список Технологического Обозрения MIT «35 инноваторов моложе 35». Там её девизом было «Сколь хороши компьютеры для прогнозирования событий?»
Её предсказаниями стала холера на Кубе, впервые за 130лет, на основе того, что «наводнения, которые случаются примерно через год после засухи, в той же области часто ведут к холере», беспорядки в Судане, на Кубе, рост цен на пшеницу и ряд других. Сейчас она занята использованием Больших массивов данных в предсказании персональных и групповых болезней, и разработкой стратегий их лечения.
Иерусалим
P.S. Впервые опубликована на сайте http://club.berkovich-zametki.com/?p=37014