Насколько мы можем доверять анализу настроений?
В последние несколько лет анализ настроений проводился коммерческими компаниями, социологами, журналистами и многими другими из тех, кому нужны были количественные инструменты, чтобы разобраться в изменяющихся настроениях населения.
В научных исследованиях подход имел различную степень успеха. Применяя анализ настроений к публикациям в Twitter и Facebook, исследователи пытались прогнозировать все, от трендов на фондовом рынке до сезонных колебаний настроения и депрессии у пациентов.
Но мы должны подходить к новому исследованию анализа настроений с некоторой долей скептицизма. Важно помнить, что он измеряет субъективное благополучие, а не объективное, определяемое физиологическими показателями, такими как уровень кортизола (основного гормона стресса). И из-за культурных различий люди в одной стране могут быть склонны гиперболизировать свое чувство несчастья, а люди в другой будут склонны преуменьшать его.
Кроме того, алгоритмы прогнозирования, как правило, совершенно не учитывают социального контекста, а он действительно имеет значение. Например, если подросток называет что-то «убойным», то, скорее всего, он имеет в виду что-то хорошее. Но если в новостной статье говорится об «убийце», то, скорее всего, случилось что-то ужасное. Как читатель, вы интуитивно понимаете это, потому что принимаете во внимание контекст. Но алгоритм может неправильно классифицировать подобные вещи.
«На данный момент у нас совсем дрянное программное обеспечение. Компьютеры не понимают нюансов и шуток», — сказала мне Мередит Бруссард, профессор дата-журналистики Нью-Йоркского университета и автор книги «Искусственный неинтеллект».
Она добавила, что анализ настроений и другие средства ИИ, как правило, имеют высокий уровень ошибок, потому что они ограничены проведением фундаментально математического анализа языка — отслеживания того, сколько раз встречается одна буква, как часто она встречается рядом с другой буквой, и так далее. Эти модели понимают язык не так, как мы, люди. Мы выделяем понятия и встраиваем их в более широкие рамки смысла.
С этой проблемой связан и вопрос о том, чьи слова анализировать, а чьи не принимать во внимание. Угнетенные меньшинства, если они вообще имеют возможность излагать свои истинные взгляды, склонны делать это в периферийных публикациях или в низкокачественных брошюрах (вспомним, например, ту роль, которую журналы играли в сообществе ЛГБТ). Маловероятно, что подобные тексты будут отображаться в Google Books.
Авторы нового исследования признают эту проблему. «Наши данные взяты из опубликованных текстов, а они могли подвергаться цензуре. И Германия 1940-х годов, когда негативные изображения нацистского режима подвергались цензуре, тому пример», — пишут они.
Авторы пытаются корректировать цензуру в исследовании, вводя переменную, определяющую уровень демократии общества, и используя «разные источники» — широкий спектр книг, газет и журналов.
Но, как они сами говорят, «никакой контроль не может быть совершенным».
Таким образом, хотя это исследование и приоткрывает окошко на меняющееся ощущение благополучия людей, отраженное в их текстах, оно все же не может определять решения политиков.

@темы: рецензии - только лучшее хроника чокнутого отаку