NLP, да не то
Apr. 24th, 2003 07:09 pmПо наводке
smilga прочитал небольшую статью (англ.), что-то вроде краткой истории NLP (не того, которое поп-психология, а того, которое Natural Language Processing).
Интересно и хорошо написано, рекомендуется.
Вот это только заставило меня призадуматься:
Ли цитирует знаменитый аргумент Хомского из Syntactic Structures (мне ещё предстоит это полностью прочесть):
... и добавляет от себя:
Таким образом, Хомский стремится именно что продемонстрировать, что "грамматичность" является признаком, независимым от вероятности появления в речи (как минимум не-сводимым к такой вероятности), а Ли как раз некорректно низводит "грамматичность" до ложно понятой, смутно-необъяснённой "'вероятности" ("is indeed more probable").
Ли продолжает:
То, в каком именно смысле "perfectly reasonable phrases are not present" -- это отдельный очень интересный вопрос, о котором мне приходилось не раз задумываться в последнее время. Постараюсь написать об этом отдельную запись.
Интересно и хорошо написано, рекомендуется.
Вот это только заставило меня призадуматься:
Ли цитирует знаменитый аргумент Хомского из Syntactic Structures (мне ещё предстоит это полностью прочесть):
It is fair to assume that neither sentence (1) [Colorless green ideas sleep furiously] nor (2) [Furiously sleep ideas green colorless] ... has ever occurred .... Hence, in any [computed] statistical model ... these sentences will be ruled out on identical grounds as equally “remote” from English. Yet (1), though nonsensical, is grammatical, while (2) is not.
... и добавляет от себя:
That is, we humans know that sentence (1), which at least obeys (some) rules of grammar, is indeed more probable than (2), which is just word salad; but (the claim goes), since both sentences are so rare, they will have identical statistics — i.e., a frequency of zero — in any sample of English. Chomsky’s criticism is essentially that data-driven approaches will always suffer from a lack of data, and hence are doomed to failure.Проблема в её "is indeed more probable", которая ниоткуда не следует, на самом деле. Да, (1) укладывается в грамматическую модель языка, а (2) не укладывается; но это вовсе не означает, что у (1) больше вероятность появиться в естественной речи ("is indeed more probable"), напротив, Хомский как раз использует тот очевидный факт, что оба предложения имеют одинаково низкую пренебрежимую вероятность появления в естественной речи. Для Хомского очевидное ощущение любым носителем языка того факта, что (1) в каком-то смысле более "правильное" предложение, чем (2) (не более вероятное!) служит подтверждением сразу двух тезисов: того, что наше внутреннее понимание "грамматичности" и "неграмматичности" каких-то высказываний не основано на грубом эмпирическом анализе всех высказываний, которые мы слышали за нашу жизнь -- и того, что это наше внутреннее понимание невозможно симулировать извне таким грубым эмпирическим анализом сколь угодно огромного корпуса английских текстов.
Таким образом, Хомский стремится именно что продемонстрировать, что "грамматичность" является признаком, независимым от вероятности появления в речи (как минимум не-сводимым к такой вероятности), а Ли как раз некорректно низводит "грамматичность" до ложно понятой, смутно-необъяснённой "'вероятности" ("is indeed more probable").
Ли продолжает:
This observation turned out to be remarkably prescient: even now, when billions of words of text are available on-line, perfectly reasonable phrases are not present. Thus, the so-called sparse data problem continues to be a serious challenge for statistical NLP even today.Здесь она совершенно меняет тему и противоречит самой себе и цитате из Хомского. Да, в каком-то смысле верно, что "perfectly reasonable phrases are not present" -- однако "colorless green ideas sleep furiously" is not a "perfectly reasonable phrase", which is the whole point!
То, в каком именно смысле "perfectly reasonable phrases are not present" -- это отдельный очень интересный вопрос, о котором мне приходилось не раз задумываться в последнее время. Постараюсь написать об этом отдельную запись.
no subject
Date: 2003-04-24 11:12 am (UTC)no subject
Date: 2003-04-24 12:14 pm (UTC)no subject
Date: 2003-04-24 12:21 pm (UTC)Re:
Date: 2003-04-24 12:26 pm (UTC)no subject
Date: 2003-04-24 02:28 pm (UTC)В данном случае авторы статьи, по всей видимости, используют Байесовский подход. В нем вероятность apriori *не* обязана соответствовать измеримой частоте событий, она должна лишь отражать наши внутренние ожидания. Эти ожидания могут быть основаны как на нашем предыущем опыте, так и на каких-то других оценках (в данном случае - нашей оценке "грамматичности").
С этой точки зрения сакраментальная фраза Colorless green ideas sleep furiously действительно получает большую apriori оценку вероятности (по английски будет даже лучше сказать likelihood, чем probability), чем ее вариант с перемешанными словами. В результате если нам почему-то придется решать какой вариант фразы выбрать (например все слова перемешались в результате помех на линии), то мы скорее всего выберем именно первый вариант. Иными словами, *в некотором роде* мы ему присвоим большую вероятность.
Все это можно формализовать и даже запрограммировать, чем и занимается изрядное число народу (Google находит слово "bayesian" 439,000 раз). Заметная доля этих людей работает в сфере AI, ибо считается, что таким способом можно эмулировать человеческий подход к решению нечетких проблем. К сожалению, в этой сфере я не спец...
no subject
Date: 2003-04-24 05:06 pm (UTC)Представь себе, что мы передаем по линии английские предложения: сначала структуру предложения, а потом слова, ее населяющие. Предложение с обычной структурой (tall fat sparrows chirp incessantly, colorless green ideas sleep furiously) требуют всего несколько битов для их кодировки, а предложения с необычной, нестандартной структурой - гораздо больше. При прочих равных, мы выбираем предложение, более кратко описываемое.
Мне кажется, что человеческая память зачастую хранит структуру предложения или истории раздельно от конкретных слов. Я иногда по-существу верно, но дословно неверно вспоминаю цитаты: например, "We've got the Gatling gun, and they have not" (правильно "the Maxim gun"); "Синеокую сестру Беларусь отдать диктатору Сенегала" (правильно "синеглазую сестру Белоруссию - расчленить и отдать на откуп диктатору Камеруна"); вот (http://www.livejournal.com/users/ilyavinarsky/314923.html) я правильно вспомнил "костяк" истории, но ошибся с маркой самолета.
no subject
Date: 2003-04-24 07:41 pm (UTC)Я очень сильно сомневаюсь, что полная синтаксическая структура для сложных фраз хранится где-то целиком. Скорее всего, хранятся только какие-то ограниченные контексты, и насколько там лексика живет отдельно, неясно. Впрочем, я вообще психолингвистику плохо знаю.
no subject
Date: 2003-04-24 07:59 pm (UTC)no subject
Date: 2003-04-25 12:37 am (UTC)Re:
Date: 2003-05-03 08:30 am (UTC)У тебя тоже есть, а ты не лингвист из Кейптауна или Беркли. У меня есть.
Сами носители языка знают только категорию "так говорят" / "так не говорят".
Это, возможно, так, но приведенные тобой свидетельства это не демонстрируют!