Оценка эмоционального тона сообщения: как не обманываться при определении и как кодировать
Тональность – один из немногих параметров публикации, который медийному аналитику приходится определять «на глаз». В отличие от остального более или менее унифицированного базового инструментария кодировки сообщений, система оценки тональностей требует постоянных корректировок. Именно необходимость экспертного оценивания существенно усложняет применение тонального маркера на практике, поскольку ставит этот параметр в зависимость от так называемого человеческого фактора. Однако существует ряд правил, соблюдая которые можно не только избежать многих ошибок при кодировке тональностей текста, но и добиться единообразия в выполнении этой работы несколькими экспертами.
Как не обманываться при определении
Первое и главное – система оценки тональностей должна отвечать задачам исследования. Поэтому чрезвычайно важно заранее узнать, как именно Заказчик видит, что хорошо и что плохо для его компании или бренда. Классический пример здесь – банковский рынок и оценка сообщений о ситуации на фондовом рынке. Банки среднего звена, как правило, стремятся считать любые сообщения о восходящих трендах котировок их акций позитивом, тогда как крупные, зарекомендовавшие себя на рынке кредитные организации считают такие сообщения нейтральными. Аналогичные расхождения часто возникают при оценке эмоционального тона пресс-релизов и официально публикуемых рейтингов.
Во-вторых, комплекс тональных маркеров должен быть «заточен» под оценку лишь одной составляющей сообщения. В подавляющем большинстве случаев ею становится позиция автора текста, которую он демонстрирует по отношению к компании или бренду. Если таковая не наблюдается, сообщение автоматически считается нейтральным, даже если повествует о форс-мажорных ситуациях с человеческими жертвами (пожар в здании Сбербанка во Владивостоке в 2007 г.).
Другой вариант – оценка позиционирования самого текста – благоприятного или враждебного по отношению к прогнозируемому развитию имиджа бренда. Этот тональный слой сообщения оценивается существенно реже по двум причинам: поскольку он находится в сильной зависимости от специфики деятельности компании и из-за сложности построения прогностических моделей. В любом случае важно помнить о том, что сообщение часто содержит сразу несколько эмоциональных слоев, в результате наложения которых может получиться нейтральная публикация, представляющая опасность для имиджа компании (новость о завале горняков) или, наоборот, выгодно ориентированная негативная статья (новость о том же завале, где горнякам уже оказана помощь и обещана пожизненная пенсия).
Наконец, в системе кодировки необходимо заранее установить порядок приоритетности эмоциональных тонов. Достаточно часто публикация, особенно если она претендует на статус аналитической, содержит несколько оценочных высказываний разной тональности одновременно (и позитивные и негативные). Самым распространенным решением в таких ситуациях является принцип доминирования негатива, вносящего (как считается) более весомый вклад в имидж бренда (статья считается негативной). В случае, когда сравнительная значимость таких высказываний труднооценима, преимущество отдается тональности высказывания, большего по объему (количеству знаков). В третьем случае сообщение относится к нейтральным.
При всей широте эмоциональной палитры, количество используемых кодировщиком тональных маркеров не может быть бесконечным. Кроме принятых «позитива», «нейтрала» и «негатива» иногда вводятся промежуточные и альтернативные значения вроде «противоречивый» и «полунегативный», однако мы считаем, что такое дробное разбиение почти всегда усложняет и без того неоднозначную палитру эмоциональных тонов. Как правило, достаточной для понимания является совместная кодировка эмоционального тона и инфоповода статьи.
Как кодировать
Кодировка эмоционального тона сообщений допускает несколько равноправных стратегий, применяемых медийным аналитиком. В конечном итоге выбор одной из них находится в прямой зависимости от степени «погруженности» кодировщика в исследуемый вопрос. Самый простой подход состоит в кодировке тональностей по признаку наличия / отсутствия оценочных суждений однозначного смысла («великолепный оператор связи» vs. «отвратительное качество связи»). Более осмысленный вариант – оценка всех упоминаемых словоформ в комплексе и вкупе со смыслом сказанного. Нередко бывает так, что статья, поданная в восторженных тонах, содержит в себе ироничный подтекст, и, тогда оценка ее как позитивной становится совсем не очевидной.
«Владимир Жириновский был вновь избран председателем ЛДПР. Человек-легенда, бессменно возглавляющий партию на протяжении уже 20 лет, был единственной кандидатурой. Накануне, в первый день юбилейного съезда со сцены Гостиного двора даже прозвучал призыв застолбить за Жириновским этот пост пожизненно, и зал одобрительно загудел. Единственный, кто поднял руку «против», был сам ВВЖ. Против себя вождь ЛДПР проголосовал и на официальной процедуре в понедельник» (News.Rambler.ru).
В то время как другая публикация в силу специфики темы может и не содержать каких-либо ярких позитивных выражений, однако по контексту станет ясно, что компанию рекомендуют, а сама публикация носит позитивный эмоциональный тон.
«Компания LifeGem была сформирована в 2001 году после завершения более чем трёхлетнего интенсивного исследования с целью создания уникального мемориального изделия из всех, изобретаемых когда-либо. LifeGem стремится удовлетворить растущую потребность в сегодняшней сфере похоронных услуг, обеспечив клиентов более индивидуализированным и личным подходом к увековечиванию памяти» (Membrana.ru).
Более сложный подход к кодировке тональностей включает предварительное изучение ретроспективы развития компании или бренда, предварительное же исследование предметной области в целом, а также учет специфики издания и автора, выпускающих каждую отдельно взятую публикацию. Достаточно часто бывает так, что при кодировке больших объемов сообщений лишь под конец работы становится ясно, какой именно информационный шлейф тянется за компанией на протяжении последних нескольких лет, как какие издания его трактуют и какие авторы «кормятся» с педалирования уязвимых моментов. Изучив все эти диспозиции заранее, кодировщик может оценить публикации гораздо более адекватно, нежели, не сделав этого. Стоит отметить, что такой подход применяется достаточно редко – тогда, когда речь идет о специализированных целевых аудиториях, про которые известно, что они хорошо знакомы с историей исследуемого вопроса. Про специфику источников следует сказать отдельно. Статусные издания деловой направленности, как правило, руководствуются принципом объективности и выпускают статьи с очень слабой эмоциональной нагрузкой или вовсе безоценочные. Это, однако, не означает, что такие ценные публикации необходимо априори причислять к категории нейтральных. В таких случаях в качестве маркера эмоциональной направленности используется оценка фактологических рядов, представленных в статье. Точнее – преимущественный отбор автором именно этих, а не других сведений и данных о компании или бренде. Например, если в подавляющем большинстве сообщений о «Силовых машинах» какой-либо газеты до сих пор упоминается об их причастности к аварии на Саяно-Шушенской ГЭС, можно считать, что издание демонстрирует предвзятое отношение к компании. И, наоборот, в августе 2000-го года во время пожара на Останкинской башне сообщение о том, что этот инцидент серьезно не помешал трансляции основных телеканалов, выглядело позитивным.
Перечисленные условия выполняются в отношении предметных областей, где слова и выражения употребляются по их обычному прямому или косвенному назначению. Однако, в специфических сферах, где нормой является инверсия смысла слов и событий, кодировка тональности сообщений многократно усложняется. В шоу-бизнесе, где, как известно, хорош любой пиар, кроме некролога, любое сообщение, соответственно, может быть оценено как позитивное – увеличивающее популярность персоны, о которой идет речь. Другой пример – оценка сообщений, написанных на сленге или с употреблением ненормативной лексики. Чаще всего такие сложности возникают при анализе записей блогосферы.
Кодировочные машины
Точно узнать, что именно «хотел сказать автор» в своей публикации о компании, можно лишь спросив его об этом напрямую, в то время как экспертные оценки тональностей всегда будут приблизительными даже при большой изворотливости ума аналитика. Тем не менее, ряд компаний-разработчиков программного обеспечения заявляет, что с этой задачей можно частично справиться, произведя количественный анализ текста (упоминания звуков, слов, словосочетаний и пр.).
На настоящий момент рынку предложено большое количество «кодировочных машин» как западного, так и отечественного образца, обрабатывающих сверхбольшие и сложные текстовые массивы автоматически. В большинстве случаев алгоритм их действия основан на синтезе 2-х методов: анализа семантических сетей и нейро-лингвистического программирования.
Самая известная отечественная разработка в этой области – система «VAAL». В строгом смысле она не является программой, пригодной для определения тональности текста в том смысле, которого от нее ждет медийный аналитик. Принцип фоносемантического анализа, на котором она основана, позволяет определять опознанное и неосознанное влияние словоформ, фигурирующих в тексте, на психологическое восприятие текста читателем. Степень воздействия оценивается в числовых величинах, располагаемых на шкале, образованной полярными по смыслу характеристиками («величественный» – «низменный»). Изначально разработанная как программа для спичрайтинга, VAAL, по утверждениям ее разработчиков, может учитывать тип восприятия информации различными целевыми аудиториями, а также определять психологические характеристики его автора.
Программа VAAL может измерять эмоциональный тон публикации опосредованно – через сложение тональностей отдельных слов – однако оценка общего смысла сообщения ей уже не под силу. Большим недостатком программы считается и тот факт, что она производит оценку воздействия текста в точки зрения большинства (читателей), что, безусловно, не применимо к узкоспециализированным аудиториям. «Узким местом» VAAL считается также сложность определения качественных характеристик текстов с низкой степенью эмоциональности. Например, программа, скорее всего, пропустит эмоционально пустое сообщение, содержащее перечисление негативных фактов.
Эксперты уверяют, что «смысл всегда превалирует над эмоциональным содержанием, и человек скорее и надежнее будет реагировать на приятные по содержанию смысловые контексты, чем на приятные по звучанию. Проще говоря, лучше матом сказать, что человек амнистирован, чем ласково пропеть, что он получил еще двадцать лет к своему основному тюремному сроку. Никакая фоносемантика не поможет, если смысл вашего сообщения бьет наверняка: хоть со знаком плюс, хоть со знаком минус» (специалист «Николло М» Георгий Сафронов).
Другой подход ориентирован на использование лингвистических алгоритмов и статистический разбор текстов, учитывающий эмоциональные характеристики ситуации. Среди таких программ можно назвать «Аналитический курьер», Russian Context Optimizer (RCO), Monitorix и др.
Эти программы выполняют статистическую обработку текстов документов на уровне терминов и их синтаксической взаимосвязи. В целом, алгоритм тематического анализа работает следующим образом. После выполнения комплекса процедур лингвистической обработки из текста извлекаются основные единицы смысла – понятия, выраженные эмоционально окрашенными словами и словосочетаниями. Далее устанавливаются ассоциативные связи между ними. Критерий наличия связи между парой понятий учитывает их совместное вхождение в предложения текста. Применение статистических алгоритмов последующих уровней обработки позволяет ранжировать понятия по значимости в тексте и выделить основные, которые и выступают в качестве ключевых тем документа. Комплекс этих процедур позволяет определить агрегированную эмоциональную направленность текста. При этом некоторые программы – по заявлению иx разработчиков – могут проводить такие операции и с языками отдельных субкультур (BrandSpotter).
Эти разработки тоже грешат множеством недостатков. Например, в алгоритм работы этих машин невозможно занести все варианты употребления слов различного значения («консерватор», «конформист», «расчетливость») и заставить робота определять силу выражения.
Такие программы также плохо понимают сложные сравнения («не так уж плохо, но немного лучше, чем…»). За рамками их возможностей почти всегда оказываются выражения тональности, не поддающиеся формализации (тексты – эссе, изобилующие символическими выражениями и литературными сравнениями).
Разработчики RCО, например, признаются, что система достаточно достоверно отслеживает негативные публикации, а вот с определением позитива возникают проблемы, т.к. позитив «часто оказывается скрытым негативом, иронией, особенно при анализе текстов из «желтой» прессы. В целом по тексту один негатив обычно перечеркивает весь позитив».
Механизмы функционирования таких «кодировочных машин» достаточно сложны, но по почти всеобщему мнению экспертов-аналитиков СМИ они представляют реальный интерес лишь для медиастатистики. Эти машины блестяще выполняют функции «найти» и «посчитать», однако до программирования искусственного интеллекта, самостоятельно определяющего смысл найденного и посчитанного, современная техника пока не дошла. Поэтому адекватность работы по кодировке сообщений по-прежнему находится в сильной зависимости от профессионального уровня медийных аналитиков, и именно постоянное повышение их компетенции является залогом успешной и качественной работы.
Полезность программ такого рода лежит в основном в плоскости оптимизации расходов на кодировку. Несложные скрипты и соответствующие надстройки к базам, создающиеся быстрее и дешевле, чем специализированные нейтронные сети, могут стать хорошим подспорьем для кодировщика, сокращая число движений глаз по тексту и, следовательно, время заполнения базы. Эта задача выглядит достаточно безрисковой, поскольку состоит в создании вспомогательной программы для человека, а не претендует на полную его замену.
аналитик Наталья Гурова