avva: (Default)
[personal profile] avva
По наводке [livejournal.com profile] smilga прочитал небольшую статью (англ.), что-то вроде краткой истории NLP (не того, которое поп-психология, а того, которое Natural Language Processing).

Интересно и хорошо написано, рекомендуется.

Вот это только заставило меня призадуматься:

Ли цитирует знаменитый аргумент Хомского из Syntactic Structures (мне ещё предстоит это полностью прочесть):
It is fair to assume that neither sentence (1) [Colorless green ideas sleep furiously] nor (2) [Furiously sleep ideas green colorless] ... has ever occurred .... Hence, in any [computed] statistical model ... these sentences will be ruled out on identical grounds as equally “remote” from English. Yet (1), though nonsensical, is grammatical, while (2) is not.

... и добавляет от себя:
That is, we humans know that sentence (1), which at least obeys (some) rules of grammar, is indeed more probable than (2), which is just word salad; but (the claim goes), since both sentences are so rare, they will have identical statistics — i.e., a frequency of zero — in any sample of English. Chomsky’s criticism is essentially that data-driven approaches will always suffer from a lack of data, and hence are doomed to failure.
Проблема в её "is indeed more probable", которая ниоткуда не следует, на самом деле. Да, (1) укладывается в грамматическую модель языка, а (2) не укладывается; но это вовсе не означает, что у (1) больше вероятность появиться в естественной речи ("is indeed more probable"), напротив, Хомский как раз использует тот очевидный факт, что оба предложения имеют одинаково низкую пренебрежимую вероятность появления в естественной речи. Для Хомского очевидное ощущение любым носителем языка того факта, что (1) в каком-то смысле более "правильное" предложение, чем (2) (не более вероятное!) служит подтверждением сразу двух тезисов: того, что наше внутреннее понимание "грамматичности" и "неграмматичности" каких-то высказываний не основано на грубом эмпирическом анализе всех высказываний, которые мы слышали за нашу жизнь -- и того, что это наше внутреннее понимание невозможно симулировать извне таким грубым эмпирическим анализом сколь угодно огромного корпуса английских текстов.

Таким образом, Хомский стремится именно что продемонстрировать, что "грамматичность" является признаком, независимым от вероятности появления в речи (как минимум не-сводимым к такой вероятности), а Ли как раз некорректно низводит "грамматичность" до ложно понятой, смутно-необъяснённой "'вероятности" ("is indeed more probable").

Ли продолжает:
This observation turned out to be remarkably prescient: even now, when billions of words of text are available on-line, perfectly reasonable phrases are not present. Thus, the so-called sparse data problem continues to be a serious challenge for statistical NLP even today.
Здесь она совершенно меняет тему и противоречит самой себе и цитате из Хомского. Да, в каком-то смысле верно, что "perfectly reasonable phrases are not present" -- однако "colorless green ideas sleep furiously" is not a "perfectly reasonable phrase", which is the whole point!

То, в каком именно смысле "perfectly reasonable phrases are not present" -- это отдельный очень интересный вопрос, о котором мне приходилось не раз задумываться в последнее время. Постараюсь написать об этом отдельную запись.

Date: 2003-04-24 11:12 am (UTC)
From: [identity profile] ex-ilyavinar899.livejournal.com
Кстати, "грамматически правильно, но семантически бессмысленно" не такая естественная категория, как это кажется Хомскому. Я когда-то читал, как лингвист общался с южноафриканцами из народа Тсвана, кажется. Он их спрашивал: на языке Тсвана "Она на нем женилась" - это грамматически правильно? - Нет, нет, можно только "Она за него вышла замуж".

Date: 2003-04-24 12:14 pm (UTC)
From: [identity profile] avva.livejournal.com
Очень плохой пример. В языке народа Тсвана очень может быть так, что "она на нём женилась" грамматически неправильно, т.к. данный глагол (или данная форма данного глагола) принимает только субъекты мужского рода. Например, в иврите (не надо далеко ходить, к народу Тсвана) можно спросить носителя языка: "היא התחתן איתו" - это грамматически правильно? - Нет, нет, можно только "היא התחתנה איתו".

Date: 2003-04-24 12:21 pm (UTC)
From: [identity profile] ex-ilyavinar899.livejournal.com
Нет, здесь все было грамматически правильно - только так не говорят!

Re:

Date: 2003-04-24 12:26 pm (UTC)
From: [identity profile] avva.livejournal.com
Но в чём тогда состоит твой point, если ты признаёшь, что это было грамматически правильно? Что носители языка Тсвана не умеют отделять эту категорию от категории "так говорят"? Но тогда перед тобой стоит следующий выбор: либо признать, что такая категория всё же объективно существует в сознании носителей языка Тсвана, но они не умеют своё ощущение этой категории выразить на словах/передать лингвисту, либо сказать, что такой категории объективно не существует, или что она сливается с категорией "так говорят" именно для носителей языка Тсвана, но тогда оказывается безосновательным твоё утверждение о том, что "здесь было всё грамматически правильно" - согласно какой мере?

Date: 2003-04-24 07:59 pm (UTC)
From: [identity profile] ex-ilyavinar899.livejournal.com
В том-то и дело, что у нас нет вещественных доказательств того, что "грамматичи корректно но семантическая некорректно" как понятие существует не только в умах лингвистов из Кейптауна или Беркли. Сами носители языка знают только категорию "так говорят" / "так не говорят".

Re:

Date: 2003-05-03 08:30 am (UTC)
From: [identity profile] avva.livejournal.com
В том-то и дело, что у нас нет вещественных доказательств того, что "грамматичи корректно но семантическая некорректно" как понятие существует не только в умах лингвистов из Кейптауна или Беркли.

У тебя тоже есть, а ты не лингвист из Кейптауна или Беркли. У меня есть.

Сами носители языка знают только категорию "так говорят" / "так не говорят".

Это, возможно, так, но приведенные тобой свидетельства это не демонстрируют!

Date: 2003-04-24 02:28 pm (UTC)
From: [identity profile] malaya-zemlya.livejournal.com
Тут имеется одна тонкость, из-за которой исследователи теории вероятности уже давно поделились на два непримиримых лагеря - частотников (frequentist) и Байесианцев. Подозреваю, что Вы уже об этом наслышаны (если нет - то могу порекомендовать знаменитый труд Е.Т.Джейнса Probability Theory: The Logic of Science)

В данном случае авторы статьи, по всей видимости, используют Байесовский подход. В нем вероятность apriori *не* обязана соответствовать измеримой частоте событий, она должна лишь отражать наши внутренние ожидания. Эти ожидания могут быть основаны как на нашем предыущем опыте, так и на каких-то других оценках (в данном случае - нашей оценке "грамматичности").

С этой точки зрения сакраментальная фраза Colorless green ideas sleep furiously действительно получает большую apriori оценку вероятности (по английски будет даже лучше сказать likelihood, чем probability), чем ее вариант с перемешанными словами. В результате если нам почему-то придется решать какой вариант фразы выбрать (например все слова перемешались в результате помех на линии), то мы скорее всего выберем именно первый вариант. Иными словами, *в некотором роде* мы ему присвоим большую вероятность.

Все это можно формализовать и даже запрограммировать, чем и занимается изрядное число народу (Google находит слово "bayesian" 439,000 раз). Заметная доля этих людей работает в сфере AI, ибо считается, что таким способом можно эмулировать человеческий подход к решению нечетких проблем. К сожалению, в этой сфере я не спец...


Date: 2003-04-24 05:06 pm (UTC)
From: [identity profile] ex-ilyavinar899.livejournal.com
Только что подумал, что эта задача входит в категорию Minimum description length problems.

Представь себе, что мы передаем по линии английские предложения: сначала структуру предложения, а потом слова, ее населяющие. Предложение с обычной структурой (tall fat sparrows chirp incessantly, colorless green ideas sleep furiously) требуют всего несколько битов для их кодировки, а предложения с необычной, нестандартной структурой - гораздо больше. При прочих равных, мы выбираем предложение, более кратко описываемое.

Мне кажется, что человеческая память зачастую хранит структуру предложения или истории раздельно от конкретных слов. Я иногда по-существу верно, но дословно неверно вспоминаю цитаты: например, "We've got the Gatling gun, and they have not" (правильно "the Maxim gun"); "Синеокую сестру Беларусь отдать диктатору Сенегала" (правильно "синеглазую сестру Белоруссию - расчленить и отдать на откуп диктатору Камеруна"); вот (http://www.livejournal.com/users/ilyavinarsky/314923.html) я правильно вспомнил "костяк" истории, но ошибся с маркой самолета.

Date: 2003-04-24 07:41 pm (UTC)
From: [identity profile] smilga.livejournal.com
Разница между "структурой" и "наполнением" какая-то смутная. Если смотреть афазии, то бывает, действительно, аномия, когда не вспоминаются слова, а со структурой все более или менее в порядке; но, насколько я понимаю, эксперименты по афазии проводились прежде всего со спонтанной речью, а здесь могут накладываться эффекты от действия долговременной памяти.

Я очень сильно сомневаюсь, что полная синтаксическая структура для сложных фраз хранится где-то целиком. Скорее всего, хранятся только какие-то ограниченные контексты, и насколько там лексика живет отдельно, неясно. Впрочем, я вообще психолингвистику плохо знаю.

Date: 2003-04-25 12:37 am (UTC)
From: [identity profile] tacente.livejournal.com
У того же Пинкера есть немного маргинальная книжка Words and Rules, в которой он старается доказать примерно то, о чем Вы говорите. Генеральная идея примерно такова: сознание оперирует двумя типами данных - структурой и памятью, "правилами" и "словами". Он доказывает свой тезис на примере английских неправильных глаголов (и в меньшей степени - других "неправильных" частей речи и других языков) и утверждает, что обращение к "правилам" происходит всегда в ситуации сбоя в обращения к памяти. То есть если память не хранит неправильную форму глагола, то автоматически подставляется правильная (даже если это неправильно).

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 30th, 2025 12:53 am
Powered by Dreamwidth Studios