Видимая речь: как жесты и мимика помогают достичь взаимопонимания

Многообразие языков в мире поражает воображение и проявляется на самых глубоких уровнях. Различия между языками наблюдаются не только в грамматике, но и в базовых принципах организации мышления. По сути, каждый язык представляет собой своего рода призму, через которую его носители воспринимают мир. И если в конце XX века лингвисты еще пытались отделить язык от различных когнитивных процессов и внеязыковых аспектов культуры, то сегодня ученые все чаще признают, что подобные явления тесно связаны.
Эту тему среди прочего затрагивает лингвист Калеб Эверетт в своей книге «Мириады языков: почему мы говорим и думаем по-разному» (выпущена на русском языке в 2025 году издательством «Альпина нон-фикшн» в переводе Марии Елиферовой, научный редактор — Валерий Шульгинов). В частности, автор пишет, что понять, как в некоторых культурах люди говорят и думают о времени, невозможно, если не знать, как они при этом жестикулируют.
С разрешения издательства Forbes Education публикует отрывок из книги — в нем Эверетт рассказывает об эффекте Макгурка, феномене восприятия речи, при котором зрительная информация влияет на то, что мы слышим.
Повсеместное внедрение медицинских масок во время пандемии COVID при всей пользе для здоровья населения порой несколько затрудняло коммуникацию. В пандемию был период, когда я в маске читал лекции студентам и они тоже были в масках. Временами это бывало непросто, несмотря на то что у меня был качественный микрофон, а в аудитории размещались хорошие динамики. Непросто это было потому, что при разговоре мы не могли видеть губы друг друга. Тогда многие остро осознали, что все мы читаем по губам. Может быть, мы не читаем по губам так хорошо, как те, кто натренирован это делать, но мы делаем это постоянно.
Когда мы находимся в шумной среде, мы обращаем особенно пристальное внимание на губы собеседников. Часто полученная нами зрительная информация имеет решающее значение для понимания слов. В переполненном ресторане вы можете не расслышать, сказал ли ваш сотрапезник «благо» или «влага», поскольку на стол кто-то опрокинул стакан. В большинстве случаев контекст предложения позволяет нам без труда расшифровать, какое из двух созвучных слов было произнесено, но, конечно, так бывает не всегда. Случается так, что видимые движения губ и языка говорящего имеют особенно важное значение. Даже если вы не прослушали курс фонетики, на протяжении жизни вы всегда получаете опыт взаимодействия с собеседником лицом к лицу. Вам известно, к примеру, что при произнесении первого звука в слове «влага» нижняя губа соприкасается с верхними резцами, тогда как при произнесении первого звука «благо» нижняя губа смыкается с верхней губой. Первый звук в слове «влага» — губно-зубной согласный, тогда как первый звук в слове «благо» — губно-губной. Связь между видимыми движениями губ и звуковыми волнами, которые вы слышите при этих движениях, критически важна для восприятия речи. Подобную связь явно невозможно установить, разговаривая по телефону или с человеком в медицинской маске, из-за чего понимание речи может оказаться затрудненным — если только вы, к примеру, не слабовидящий, привыкший к общению без помощи зрения. Очное общение остается заданной по умолчанию формой коммуникации во всех культурах мира и было таковой еще до того, как Homo sapiens покинули Африку. В результате этого восприятие речи опирается на ключевые виды стимулов, получаемые нами при очном общении: звуки, исходящие изо рта человека, и зрительную информацию, исходящую от его тела — преимущественно губ, рта, но не только, как мы вскоре убедимся.
Среда очного общения
Коммуникативную пользу информации, написанной на губах, вероятно, лучше всего иллюстрирует так называемый эффект Макгурка, впервые открытый учеными в 1970-х годах. За последние несколько десятилетий его пронаблюдали в самых разнообразных экспериментальных условиях, и его легко воспроизвести даже в учебной аудитории. На своих лекциях я проигрываю аудиозапись, на которой человек произносит много раз подряд слог /ба/. Одновременно я показываю студентам видеозапись того же самого человека, повторяющего как будто бы слог /га/. Так как аудио и видеозапись идеально синхронизированы, студенты слышат /ба/ именно тогда, когда человек на экране произносит /га/. Пока студенты смотрят и слушают, я прошу их записать слог, который они слышат. Вы можете ожидать, что студенты запишут «ба» или пожалуются, что услышанное не совпадает с видео. Но происходит не это. Они записывают слоги не жалуясь, однако пишут не «ба». Чаще всего они пишут «да». Затем я прошу их закрыть глаза и прослушать тот же аудиофайл, повторяющийся вновь и вновь. Когда они прослушивают, по аудитории прокатывается волна улыбок или удивленных взглядов. Они тут же осознают, что все это время слышали /ба/, но зрение их обманывало. Затем я прошу их открывать и закрывать глаза по мере повтора аудиозаписи. Они обнаруживают, что с закрытыми глазами слышат /ба/, а с открытыми /да/ (или что-то вроде того). Удивительно, но, даже если вы хорошо понимаете, что происходит, зрительные стимулы продолжают проделывать фокусы с тем, что, как вам кажется, вы слышите. Об эффекте Макгурка я знаю уже много лет, но подвержен ему я не меньше. Когда я открываю и закрываю глаза во время этого упражнения, аудиофайл словно меняется с «да» на «ба» — вновь и вновь. Умом я понимаю, что проигрывается только «ба», но на мой слух это не влияет. Наше восприятие речи состоит не только из звуковых последовательностей, воздействующих на наши барабанные перепонки, а затем передающихся через улитку и цепочку нервов к мозгу. Восприятие речи — это целостный процесс, интегрирующий в коре мозга зрительную и слуховую информацию. Это верно для всех культур и явно было свойственно восприятию речи еще тогда, когда люди населяли только Африку. В конце концов, очное общение — это заданная по умолчанию форма бытования языка, поэтому есть своя логика в том, чтобы люди были визуально настроены на чужие лица. Однако, как мы убедились в предыдущей главе, языки различаются тем, насколько в них задействованы губные звуки, а значит, носителям некоторых языков, возможно, приходится уделять чуть больше внимания губам собеседника.
Мы также следим и за руками собеседника. Как уже говорилось, многие исследования показывают, что жестикуляция важнее для речи, чем некогда считалось. В крайних случаях, например, когда носитель неенгату жестом указывает на время, можно сказать, что знание определенных жестов требуется для того, чтобы «грамматически правильно» говорить на этом языке. В более широком плане жесты могут отражать глубинные когнитивные процессы, происходящие при речи, например, когда носитель английского языка указывает назад, говоря о прошлом. Жесты используются также для того, чтобы подчеркнуть вербальные сигналы при речи. Мы часто применяем более размашистые жесты, когда громко говорим, а некоторые особенно утрированные жесты могут соответствовать точкам эмфазы в устных предложениях. Такая скоординированная жестикуляция вместе с голосовым акцентированием дает слушателям подсказку, привлекая их внимание к ключевым моментам в речевом потоке. В среде очного общения люди обучаются уделять внимание не только акустическому потоку, исходящему из уст собеседника, но также тесно связанному с ним потоку жестов, исходящему от его рук. Этот аспект коммуникации, внимание к жестам говорящего с одновременным считыванием по его лицу, порождает недавно открытый тип мануальной интерференции в восприятии речи. Это явление, получившее название «мануальный эффект Макгурка», было открыто в ходе ряда экспериментов, опубликованных в 2021 году. Далее я расскажу об одном из этих экспериментов, в котором проверялось, как восприятие жестов влияет на слуховое восприятие словесного ударения. Однако вначале нужно немного рассказать о словесном ударении. Хотя описываемый эксперимент проводился с носителями нидерландского, для иллюстрации этого явления я буду использовать английский, поскольку он обладает такими же характеристиками словесного ударения.
Один из ключевых компонентов ударного слога в английском слове — его более высокий тон. Под «тоном» подразумевается частота, на которой вибрируют голосовые связки при произнесении звука. (Технически «тон» относится к восприятию этой частоты, но в обиходе это слово применяется к самой частоте вибрации голосовых связок говорящего.) Многие языки используют точные последовательности тонов для различения значений слов. Хотя в английском и нидерландском этого нет, тон в них используется для множества других, пусть и менее сложных целей. В числе этих целей — словесное ударение: у ударных слогов тон обычно чуть выше. Кроме того, ударные слоги обычно громче. «Громкость» также технически относится к перцептивному свойству, определяемому в речи главным образом амплитудой чужого голоса. Когда голосовые связки говорящего смыкаются более энергично, расходясь друг от друга дальше при каждом колебании, амплитуда голоса возрастает и он звучит громче. Эта повышенная громкость среди прочего служит тому, чтобы подчеркивать в речи определенные слоги. Вдобавок к усилению громкости и тона, ударный слог в слове обычно более долгий сравнительно с безударным. Хотя в английском есть и другие аспекты словесного ударения (например, безударные гласные часто редуцируются до гласного, звучащего как краткое [а]), эти три особенности — повышение тона, громкости и долготы — ключевые. Так происходит и во многих других языках, включая нидерландский. Эти три особенности настолько важны для словесного ударения, что в некоторых случаях используются для различения слов. Более того, в английском эти акустические подсказки служат для корректного выявления во многих парах существительных и глаголов, которые пишутся одинаково. Например, если вы произносите CON-vert, вы используете существительное и подразумеваете человека, обращенного в какую-либо религию. Напротив, если вы произносите con-VERT, речь идет о действии по обращению кого-то в религию. PER-mit означает «разрешение», а per-MIT — «разрешить». Если вы произнесете OB-ject, то это существительное «предмет». Но если произнести ob-JECT, то это будет глагол со значением «возражать». Не все смысловые ассоциации в парах «существительное — глагол» настолько прозрачны. Тем не менее в английском имеется более сотни слов, значение которых меняется в зависимости от ударения, в том числе record «запись/записывать», abstract «краткое изложение / извлекать», defect «дефект / перейти на сторону противника», update «обновление/обновить» и т. д.
Какое все это имеет отношение к мануальной интерференции при слуховом восприятии? Один из способов, которыми жесты интегрируются с фонетической артикуляцией речи, — координация с ударением. Если вы смотрите чью-нибудь публичную лекцию, вы можете заметить, что лектор заметнее жестикулирует, подчеркивая определенные пункты или слова. Более того, жестовые движения часто включают движения рук вниз, совпадающие с ударением на определенных словах и слогах. Одно экспериментальное исследование, проведенное в 2007 году, показало, что люди делают «ритмические жесты», а также двигают бровями и кивают при словах, которые выделены на фоне других слов. Исследование даже продемонстрировало, что, когда слушатели слышали два слова и их просили оценить акустическую «выделенность» каждого, на их ответ влияла зрительная информация. Когда они наблюдали, как кто-либо делает жест руками или двигает бровями на одном из слов, им с большей вероятностью казалось, что это слово обладает большей акустической выделенностью. Наблюдаемые ими жесты влияли на то, как их мозг обрабатывал услышанные звуки.
Новейшие экспериментальные данные свидетельствуют о том, что восприятие жестов рук влияет на восприятие слуховых стимулов и более тонко. Двадцать шесть носителей нидерландского языка прослушали вымышленные слова, звучащие как бы по-нидерландски. В каждом слове было два слога, например bagpif. Первый гласный предъявлялся таким образом, что ударение было неясным, иногда он звучал скорее как типичный ударный «а» в нидерландском, а в других случаях — как безударный. Безударный вариант этого гласного в нидерландском слегка отличается по качеству от ударного и тоже более краткий, как и в английском. Вымышленные слова варьировали по непрерывному спектру, так что некоторые из них были особенно двусмысленными — то есть неясно было, ударные они или безударные. Голландцы смотрели и слушали видеозапись человека, произносящего вымышленные слова. Что важно, говорящий также делал жесты, двигая правой рукой вверх и вниз. Хотя испытуемых не просили обращать внимание на жесты говорящего, эти жесты явно влияли на то, что они слышали. Как уже отмечалось, говорящие часто делают жесты вниз, когда что-то подчеркивают. Эта взаимосвязь между движением руки вниз и эмфазой, по-видимому, влияла на то, что действительно слышали голландцы. Когда жест вниз делался на первом слоге вымышленного слова типа bagpif, двусмысленный гласный в этом слоге реально воспринимался ближе к типичному ударному слогу. Когда носителей просили определить, слышали ли они bagpif или baagpif (второй вариант — с долгим гласным, как при типичном нидерландском ударении), они чаще сообщали, что слышат baagpif, если видели жест вниз на первом слоге. Иными словами, их зрительное восприятие влияло на их слуховое восприятие при интеграции мозгом двух потоков информации. Это явление близко к эффекту Макгурка, но в данном случае зрительные стимулы, влиявшие на слуховое восприятие, исходили не от губ говорящего, а от его рук. Поэтому авторы исследования придумали для этого явления название — «мануальный эффект Макгурка». Отметим, что не следует ожидать проявления такого когнитивного феномена у носителей всех языков в том же виде, в котором он проявляется у носителей нидерландского, поскольку во многих языках нет аналогичных типов словесного ударения.
Эффект Макгурка и недавно открытый мануальный эффект Макгурка демонстрируют, что на восприятие речи тонкими путями воздействует среда очного общения, которое было базовой формой человеческой коммуникации десятки тысяч лет и определяет то, как мы эту речь создаем.
