avva: (Default)
[personal profile] avva
Что вы не знаете и хотели бы узнать?

Что вы не понимаете и хотели бы понять?

Напишите в комментариях, и может, другие люди, читающие этот журнал, смогут рассказать, объяснить или дать нужные ссылки.

(это пробный камень. Если запись оправдает себя, сделаю ее регулярной. Прошу не троллить и не паясничать, спасибо)

Date: 2009-09-30 09:14 pm (UTC)
From: [identity profile] katja-i.livejournal.com
Хотела бы найти наиболее оптимальные алгоритмы для вырезания сгустков текста из такой вот примерно каши:
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx ерунда ерунда xx ерунда ерунда xx x
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
текст нормальный  текст  который  текст  нормальный 
текст текст нормальный текст который текст  который  
текст  нормальный нормальный xxxxxxxxx снова ерунда  
и  ещё ерунда xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 
текст нормальный текст который текст  текст  текст 
текст нормальный текст  который текст который текст  
текст нормальный текст  который текст который текст  
текст нормальный текст  который текст который текст  
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xx снова ерунда  снова ерунда xxxxxxxxxxxxxxxxxxxxx
xxxxxxxxx снова ерунда снова ерундаxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxx снова ерунда снова ерундаxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

но пока ничего хорошего не попадалось. Может кто-то пальцем покажет, в какую сторону смотреть.
Edited Date: 2009-09-30 09:15 pm (UTC)

Date: 2009-09-30 09:26 pm (UTC)
From: [personal profile] ichthuss
Я бы смотрел в сторону цепей Маркова - создал бы модель нормального текста и сравнивал бы вероятность получить данный фрагмент текста с соответствующим порогом.

Date: 2009-09-30 09:31 pm (UTC)
From: [identity profile] katja-i.livejournal.com
О, спасибо за идею!

Date: 2009-09-30 09:42 pm (UTC)
From: [personal profile] ichthuss
Хотя, пожалуй, с цепями Маркова я немного маху дал, но в любом случае посоветую статистическую модель текста. Неплохое описание различных моделей есть здесь: http://algolist.manual.ru/download.php?path=/compress/standard/tcmodel.zip

Date: 2009-09-30 11:32 pm (UTC)
From: [identity profile] shuriksprivetom.livejournal.com
а что подходит под определение ерунда? случайный набор символов, или это все же случайный набор слов, только без контекста (не связаных логически)?

Date: 2009-09-30 11:41 pm (UTC)
From: [identity profile] katja-i.livejournal.com
"ерунда" тут - это какие-то фразы, может быть даже целые предложения, не связанные с основным текстом (слишком далеко отстоят от "ядра", повторяются в различных образцах и т.д.). Сложность как раз и состоит в определении ядра как такового, точнее в определении того, где именно находятся его края.

Date: 2009-09-30 11:45 pm (UTC)
From: [identity profile] shuriksprivetom.livejournal.com
извините за хитрый вопрос, конкретная задача состоит в том, чтобы с генерной интеренет-страницы вычленить рекламу и флуд и забрать только статью-пост?

Date: 2009-09-30 11:47 pm (UTC)
From: [identity profile] katja-i.livejournal.com
Да, подходит, это один из частных случаев.

Date: 2009-09-30 11:52 pm (UTC)
From: [identity profile] shuriksprivetom.livejournal.com
ну, в таком случае, делаете запрос на страницу с разницей определенный промежуток времени (час, день и тд.), и смотрите какая часть текста неизменилась. в большинстве случаев это и будет статья. вычислить комменты можно по ростущему номеру строки, да и по размеру коммент обычно меньше чем статья. извините, что ушел от ответа по глубинному анализу текста на ядро, но думаю это может помочь.

Date: 2009-10-01 12:08 am (UTC)
From: [identity profile] katja-i.livejournal.com
Спасибо, интересная идея (отслеживать страничку в исторической перспективе). Но как раз трюков подобного рода и хотелось бы избежать, вооружившись правильной математикой.

Date: 2009-10-01 12:10 am (UTC)
From: [identity profile] katja-i.livejournal.com
Отдельное спасибо за Paris Combo! Никогда не слышала прежде, очень понравилось.

Date: 2009-10-01 12:31 am (UTC)
From: [identity profile] shuriksprivetom.livejournal.com
приходите еще.

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 03:07 pm
Powered by Dreamwidth Studios