Как большие данные меняют повседневную жизнь в Америке?

Идея «больших данных» стала повсеместной, но что это такое и как это меняет наш образ жизни? Мы поговорили с ученым, доктором наук Гарварда и номинантом Национальной книжной премии Кэти О'Нил.

CT: Давайте начнем с основ - что такое «большие данные»?

CO: Большие данные - это новый подход к прогнозированию. В частности, «большие данные» - это использование случайно собранных данных - например, как вы осуществляете поиск в своем браузере или что вы делаете в Facebook - для того, чтобы делать выводы о вас, например, о том, что вы собираетесь покупать или каковы ваши политические связи. Это косвенный способ выяснить людей. Например, камера, которая наблюдает за нами, не спрашивает: «Что вы делаете?» - он просто видит, что мы делаем.

КТ: А что за алгоритм?

CO: Алгоритмы - это вычисления, которые [интерпретируют] данные, собранные о вас, чтобы создать прогноз. Думайте об этом как о математическом уравнении, которое пытается ответить на вопрос, который сформулирован как предсказание, такой как: «Этот человек собирается что-то купить?» или "Этот человек собирается голосовать за кого-то?"

КТ: Почему я так много об этом сейчас слышу?

CO: До «больших данных» статистики делали дорогие вещи, например, опрашивали людей, чтобы выяснить будущее. Например, задавая людям прямые вопросы типа: «За кого вы собираетесь голосовать?» Теперь мы все больше полагаемся на «утечку данных», то есть то, что я называю данными, которые постоянно собираются о вас, чтобы сделать выводы о вас.

До «больших данных» у компаний были только дикие догадки. Теперь у нас лучше, чем дикие догадки. Что удивительно, так это то, что большинство алгоритмов больших данных крайне неточны, и нет оснований считать, что они правы. Но они лучше, чем дикие догадки. И именно поэтому большие данные взлетели, как и раньше.

КТ: Если они неточны, то что они отражают?

CO: дефектные наборы данных, которые мы им передаем. Алгоритмы не знают ничего, кроме того, что мы им говорим. Поэтому, когда у нас есть неровные данные, и мы подаем их в алгоритм или необъективные данные, он будет думать, что это реальность.

Эйлса Джонсон / © Культурная Поездка

КТ: Что является реальным примером этого?

CO: Примером может служить то, что в Соединенных Штатах, черные люди в пять раз чаще подвергаются аресту за курение горшка, чем белые. Это не потому, что черные люди курят траву чаще - обе группы курят травку с одинаковой скоростью. Чёрные люди просто более вероятно будут арестованы за это. Если вы передадите это алгоритму, который мы делаем, то правильно сделаем вывод, что в будущем черные люди будут более вероятно арестованы за курение горшка. И тогда это даст черным людям более высокие оценки риска преступности, что влияет на уголовное наказание.

Другой пример - мысленный эксперимент. Я буду использовать Fox News, потому что у Fox News недавно были извержения, связанные с внутренней культурой сексизма. Эксперимент звучит так: «Что произойдет, если Fox News попытается использовать свои собственные данные для построения алгоритма машинного обучения для найма людей в будущем?»

Скажем, мы ищем людей, которые добились успеха в Fox News, например. Это зависит от того, как вы определяете успех, но обычно вы смотрите на людей, которые получают повышение, повышение по службе или остаются в течение длительного времени. Любая из этих мер позволит отразить, что женщины не преуспевают в Fox News. Если использовать в качестве алгоритмов найма, это будет распространять эту проблему. Он посмотрел бы на группу кандидатов и сказал бы: «Я не хочу нанимать женщин, потому что они здесь не успешны. Они не хорошие наймы. И это не просто Fox News - в каждой корпоративной культуре есть предвзятость. Когда вы передаете данные алгоритма, смещение алгоритма затем распространяет это. Он продолжает усиливать предубеждения, которые уже существуют в обществе.

CT: предвзятости преднамеренные?

CO: Я не думаю, что ученые-данные пытаются создать сексистские или расистские алгоритмы. Но алгоритмы машинного обучения исключительно хороши в подборе относительно нюансов и последующем их распространении. Это не то, что ученые делают намеренно, но, тем не менее, это предвзятость.

КТ: Какую роль играют неточные алгоритмы в нашей повседневной жизни?

CO: Они используются во всех видах решений для жизни людей - от поступления в колледж до работы.

Существуют алгоритмы, которые определяют, как полиция будет контролировать районы, а также алгоритмы, которые определяют, как судьи будут выносить приговоры обвиняемым. Существуют алгоритмы, которые определяют, сколько вы заплатите за страховку или какой процентный процент [процентная ставка] вы получаете на свою кредитную карту. Существуют алгоритмы, которые определяют, как у вас дела на работе, которые используются для определения повышения заработной платы. Есть алгоритмы на каждом этапе пути, от рождения до смерти.

КТ: Так, где это оставляет нас?

CO: Мы вступили в эпоху больших данных и применили алгоритмы для каждой проблемы, которая у нас есть, предполагая, что эти алгоритмы должны быть более справедливыми, чем люди, но на самом деле они столь же несправедливы, как и люди. Мы должны сделать лучше.

Нажмите здесь, чтобы прочитать вторую часть нашего интервью с доктором О'Нилом. Ее книга «Оружие математического разрушения: как большие данные увеличивает неравенство и угрожает демократии» доступна уже сейчас.