Rambler's Top100
ДАЙДЖЕСТ

Google не понимает ментов

[07:03 21 декабря 2010 года ] [ Slon.ru, 20 декабря 2010 ]

Лингвистический сервис Google Ngram подарил каждому шанс стать автором гениального исследования.

Тысячи любопытствующих пользователей в эти выходные опробовали новую игрушку от Google — Ngram Viewer. Вводишь в строку поиска любое слово и видишь, сколько раз оно встречается в книгах с 1800 по 2000 годы. Создатели сервиса — группа специалистов по количественным методам в социальных науках из Гарварда — в своей статье в Science выражают надежду, что Ngram поможет культурологам, лингвистам и социологам анализировать культурные тренды. Например, как менялось словоупотребление, как включалась и выключалась цензура, какие социальные явления выходили на первый план в художественной, научной, популярной литературе.

В прошлом году Google подвел промежуточные итоги проекта по оцифровке мировых библиотек. В его базе оказалось около 15 миллионов книг. Ученые во главе с Жаном-Баптистом Мишелем и Ерезом Либерманом Эйденом отобрали из них треть — 4% всех книг, когда-либо опубликованных на основных современных языках, включая русский и китайский, 2 млрд слов и выражений. Так им удалось выяснить, что словарный запас американцев за последние сто лет обогатился на 70%, при этом половина новых слов не попала в словари.

Русскоязычных книг и журналов в базе несколько десятков тысяч (хотя на некоторые запросы поиск выдает до 6,5 млн результатов на русском, — попадают разные страницы или части одной книги). В основном — из фондов главных библиотек. В базу просочилось довольно много ошибок распознавания текста при сканировании, поэтому поиск грешит определенной неточностью. К примеру, знак дефиса поисковик часто воспринимает как пробел, и топоним Хуй-хэ становится для него двумя разными словами. А неверно распознанные “элементы” и “моменты” в текстах XIX века превращаются в “ментов”.

Обычно социологи используют такой частотный анализ употребления слов в прессе или в блогах, чтобы вычислить динамику настроений, волны действия пропаганды и пиар-кампаний. Забиваешь слово “чеченец” — анализируешь контекст употребления. Похожий принцип — в работе продавцов контекстной рекламы: чтобы правильно подобрать ключевые слова, ведущие к нужной социальной группе, необходимо знать, кто и в каком контексте эти слова употребляет. Социологи — как продавцы рекламы прошлым поколениям — с помощью Ngram смогут объяснить, зачем появлялись новые слова, и что за этим стоит.

Скажем, слова “хипстер” в русскоязычной базе так и нет, а в американской оно встречается втрое чаще, чем в английской, — слово придумали американцы в 50-е, для обозначения тех, кого в России называют битниками.

Теперь же у каждого, кто имеет доступ в интернет, появился шанс стать автором гениального исследования. Но вероятность обнаружить нечто удивительное, откровенно говоря, невелика. Верная примета социолога: нашел нетривиальную закономерность — ищи ошибку. Как в случае с “ментами” и “моментами”. Правда, любопытно, что резкий всплеск популярности слова “менты” приходится не на 50-е с их мощной воровской культурой и даже не на 90-е, а на 2000-е, и скорее на их вторую половину. Вроде бы бестселлеры в карманных переплетах уже отгремели, а “ментовской беспредел” еще не начался, — но именно в те годы это жаргонное слово стало обыденным и общеупотребимым.

Пока авторы статьи в Science с помощью Ngram подтвердили, что при Сталине имя Троцкого стали упоминать реже, чем при Ленине, и показали, что у наших современников падает интерес к Фрейду и растет — к Дарвину. А самым популярным англоязычным писателем оказался Марк Твен. Вообще, пространство для лингвистического и культурологического анализа большое. Например, можно узнать, что после 1917 года русскоязычные писатели и публицисты стали намного реже употреблять слова “общество”, “любовь”, “уха” и “водка” и заменили их на “порядок”, “страх”, “самовар” и “квас” (график-1 и график-2). Рядовые блоггеры по следам гарвардцев сравнивают по популярности автомобиль с поездом и трамваем, гамбургер с сэндвичем, Элвиса Пресли с Мэрилин Монро и с удовлетворением отмечают, что слова “секс” в Советском Союзе, и правда, почти не было.

     Екатерина АЛЯБЬЕВА

Добавить в FacebookДобавить в TwitterДобавить в LivejournalДобавить в Linkedin

Что скажете, Аноним?

Если Вы зарегистрированный пользователь и хотите участвовать в дискуссии — введите
свой логин (email) , пароль  и нажмите .

Если Вы еще не зарегистрировались, зайдите на страницу регистрации.

Код состоит из цифр и латинских букв, изображенных на картинке. Для перезагрузки кода кликните на картинке.

ДАЙДЖЕСТ
НОВОСТИ
АНАЛИТИКА
ПАРТНЁРЫ
pекламные ссылки

miavia estudia

(c) Укррудпром — новости металлургии: цветная металлургия, черная металлургия, металлургия Украины

При цитировании и использовании материалов ссылка на www.ukrrudprom.ua обязательна. Перепечатка, копирование или воспроизведение информации, содержащей ссылку на агентства "Iнтерфакс-Україна", "Українськi Новини" в каком-либо виде строго запрещены

Сделано в miavia estudia.