avva | NLP, да не то

По наводке

smilga прочитал небольшую статью (англ.), что-то вроде краткой истории NLP (не того, которое поп-психология, а того, которое Natural Language Processing).

Интересно и хорошо написано, рекомендуется.

Вот это только заставило меня призадуматься:

Ли цитирует знаменитый аргумент Хомского из Syntactic Structures (мне ещё предстоит это полностью прочесть):

It is fair to assume that neither sentence (1) [Colorless green ideas sleep furiously] nor (2) [Furiously sleep ideas green colorless] ... has ever occurred .... Hence, in any [computed] statistical model ... these sentences will be ruled out on identical grounds as equally “remote” from English. Yet (1), though nonsensical, is grammatical, while (2) is not.

... и добавляет от себя:

That is, we humans know that sentence (1), which at least obeys (some) rules of grammar, is indeed more probable than (2), which is just word salad; but (the claim goes), since both sentences are so rare, they will have identical statistics — i.e., a frequency of zero — in any sample of English. Chomsky’s criticism is essentially that data-driven approaches will always suffer from a lack of data, and hence are doomed to failure.

Проблема в её "is indeed more probable", которая ниоткуда не следует, на самом деле. Да, (1) укладывается в грамматическую модель языка, а (2) не укладывается; но это вовсе не означает, что у (1) больше вероятность появиться в естественной речи ("is indeed more probable"), напротив, Хомский как раз использует тот очевидный факт, что оба предложения имеют одинаково низкую пренебрежимую вероятность появления в естественной речи. Для Хомского очевидное ощущение любым носителем языка того факта, что (1) в каком-то смысле более "правильное" предложение, чем (2) (не более вероятное!) служит подтверждением сразу двух тезисов: того, что наше внутреннее понимание "грамматичности" и "неграмматичности" каких-то высказываний не основано на грубом эмпирическом анализе всех высказываний, которые мы слышали за нашу жизнь -- и того, что это наше внутреннее понимание невозможно симулировать извне таким грубым эмпирическим анализом сколь угодно огромного корпуса английских текстов.

Таким образом, Хомский стремится именно что продемонстрировать, что "грамматичность" является признаком, независимым от вероятности появления в речи (как минимум не-сводимым к такой вероятности), а Ли как раз некорректно низводит "грамматичность" до ложно понятой, смутно-необъяснённой "'вероятности" ("is indeed more probable").

Ли продолжает:

This observation turned out to be remarkably prescient: even now, when billions of words of text are available on-line, perfectly reasonable phrases are not present. Thus, the so-called sparse data problem continues to be a serious challenge for statistical NLP even today.

Здесь она совершенно меняет тему и противоречит самой себе и цитате из Хомского. Да, в каком-то смысле верно, что "perfectly reasonable phrases are not present" -- однако "colorless green ideas sleep furiously" is not a "perfectly reasonable phrase", which is the whole point!

То, в каком именно смысле "perfectly reasonable phrases are not present" -- это отдельный очень интересный вопрос, о котором мне приходилось не раз задумываться в последнее время. Постараюсь написать об этом отдельную запись.

Flat | Top-Level Comments Only

From:

ex-ilyavinar899.livejournal.com

Только что подумал, что эта задача входит в категорию Minimum description length problems.

Представь себе, что мы передаем по линии английские предложения: сначала структуру предложения, а потом слова, ее населяющие. Предложение с обычной структурой (tall fat sparrows chirp incessantly, colorless green ideas sleep furiously) требуют всего несколько битов для их кодировки, а предложения с необычной, нестандартной структурой - гораздо больше. При прочих равных, мы выбираем предложение, более кратко описываемое.

Мне кажется, что человеческая память зачастую хранит структуру предложения или истории раздельно от конкретных слов. Я иногда по-существу верно, но дословно неверно вспоминаю цитаты: например, "We've got the Gatling gun, and they have not" (правильно "the Maxim gun"); "Синеокую сестру Беларусь отдать диктатору Сенегала" (правильно "синеглазую сестру Белоруссию - расчленить и отдать на откуп диктатору Камеруна"); вот (http://www.livejournal.com/users/ilyavinarsky/314923.html) я правильно вспомнил "костяк" истории, но ошибся с маркой самолета.

smilga.livejournal.com

Разница между "структурой" и "наполнением" какая-то смутная. Если смотреть афазии, то бывает, действительно, аномия, когда не вспоминаются слова, а со структурой все более или менее в порядке; но, насколько я понимаю, эксперименты по афазии проводились прежде всего со спонтанной речью, а здесь могут накладываться эффекты от действия долговременной памяти.

Я очень сильно сомневаюсь, что полная синтаксическая структура для сложных фраз хранится где-то целиком. Скорее всего, хранятся только какие-то ограниченные контексты, и насколько там лексика живет отдельно, неясно. Впрочем, я вообще психолингвистику плохо знаю.

tacente.livejournal.com

У того же Пинкера есть немного маргинальная книжка Words and Rules, в которой он старается доказать примерно то, о чем Вы говорите. Генеральная идея примерно такова: сознание оперирует двумя типами данных - структурой и памятью, "правилами" и "словами". Он доказывает свой тезис на примере английских неправильных глаголов (и в меньшей степени - других "неправильных" частей речи и других языков) и утверждает, что обращение к "правилам" происходит всегда в ситуации сбоя в обращения к памяти. То есть если память не хранит неправильную форму глагола, то автоматически подставляется правильная (даже если это неправильно).

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Ни о какой безапелляционности в моих высказываниях не может быть и речи!

(...)

NLP, да не то

NLP, да не то

no subject

no subject

no subject

Profile

December 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags