avva: (Default)
avva ([personal profile] avva) wrote2017-09-14 08:48 pm

о доступе к статьям, или как 60 терабайт спасут цивилизацию

Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?

Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.

Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:

2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.

2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.

2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.

2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.

Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.

Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.

Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.

Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.

В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.

Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.

(*) художественное преувеличение, не всех, но значительной части.

Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.

[identity profile] r-l.livejournal.com 2017-09-15 10:27 am (UTC)(link)
В каком смысле "заниматься нелегальщиной"? В каком смысле "под своим именем"? В каком смысле "университету"?
Университеты вообще все занимаются нелегальщиной. Скубенты и жиды.

[identity profile] r-l.livejournal.com 2017-09-15 10:29 am (UTC)(link)
Для гуманитарных дисциплин большой растущий архив работ - academia.edu.
Работы выкладываются авторами (часто с нарушением т.н. "прав" издательств и подписанных договоров).
Edited 2017-09-15 10:36 (UTC)

[identity profile] r-l.livejournal.com 2017-09-15 10:31 am (UTC)(link)
А другие зеркала? Типа http://gen.lib.rus.ec/

[identity profile] nikaan.livejournal.com 2017-09-15 10:33 am (UTC)(link)
это работает.

[identity profile] r-l.livejournal.com 2017-09-15 10:36 am (UTC)(link)
Вылезает мышь из холодильника, вся обвешана сосисками, колбасой, морда в сметане, в зубах кусок буженины… Видит — в углу мышеловка с кусочком засохшего сыра:
— Ну прям как дети малые, ей-богу...

(копипаста, самому лень излагать было)

(Anonymous) 2017-09-15 10:36 am (UTC)(link)
Мало, мало, не ведущих логи провайдеров. Рискну предположить, что их сейчас вообще нет, об идейных проектах после Lavabit что-то не слышно.

На всякий случай, объясню, что чем громче кто-то рекламирует "отсутствие логов" и прочую маловыполнимую в текущем юридическом климате фигню, тем сильнее он хочет обладать самым многочисленным стадом баранов, данные о действиях которых можно продавать рекламщикам и прочим тёмным личностям, получая денежки.

Технический уровень и заботу о безопасности этих всюду рекламируемых сервисов мы могли наблюдать не так давно, когда большинство из них опозорилось из-за неумения настроить свой NAT так, чтобы трафик правильно ходил в любых направлениях (вопрос минимум 15 лет как расписан в howto), позволив любому желающему деанонимизировать клиентов.

Если же вы вправду верите, что эти желающие срубить бабла по-быстрому не выдадут всех данных на официальный запрос хоть из зимбабвийских органов, что ещё сказать...

(Anonymous) 2017-09-15 10:52 am (UTC)(link)
Контроллеры ниже определённого уровня ничем не лучше soft-raid, но имеют свой собственный набор погремушек.

Контроллеры выше определённого уровня просто получают индульгенцию на свои погремушки. Но вот цена!

А вообще, к нашей теме это всё имеет опосредованное отношение, redundancy в таких энтузиаст-проектах получается именно наличием нескольких копий на разных системах (они же бэкапы). Сдох диск или сервер — ненужное хороним, нужное копируем обратно, летим на том, что есть.

[identity profile] nikaan.livejournal.com 2017-09-15 11:39 am (UTC)(link)
я пользуюсь ботом сайхаба в телеграме, а либгеном только книжки качать. Либген вообще выглядит менее защищённым чем сайхаб -- я думаю, если на них бочку начнут катить, то они закроются. И вроде бы они удаляют что-то по редким тробованиям правообладателей.

(Anonymous) 2017-09-15 11:56 am (UTC)(link)
>об идейных проектах после Lavabit что-то не слышно.

Ну да? Protonmail, tutanota навскидку.


>Если же вы вправду верите, что эти желающие срубить бабла по-быстрому не выдадут всех данных на официальный запрос

Вопрос сложный, и у меня нет рецепта.
Но как-то анализировать предложения надо.
Можно ориентироваться на прецеденты.
Типа, hidemyass в топку.
А к mullvad или protonvpn можно и присмотреться.

(Anonymous) 2017-09-15 12:01 pm (UTC)(link)
Я, разумеется, говорю не о fakeraid, а о нормальном железном рейде. И это недешево, да. Но преимущества очевидны.

>redundancy в таких энтузиаст-проектах
энтузиаст-, но не ламер- же.
сотня Тб на рейде без redundancy — это безответственно.

[identity profile] lefantasy.livejournal.com 2017-09-15 12:13 pm (UTC)(link)
Какой замечательный образец инфантилизма.

Сначала кричали: да зачем нам эта сталинистка, мы наделаем кучу зеркал.
Как дело до дела дошло: ой, что-то сложновато получается, а пусть это кто-нибудь другой сделает, только с правильными убеждениями. А мы им респекты выскажем.

[identity profile] shadow-ru.livejournal.com 2017-09-15 12:19 pm (UTC)(link)
Вы писали, что используете sci-hub несколько раз на дню. А для чего, если не секрет?

[identity profile] ziavra.livejournal.com 2017-09-15 12:24 pm (UTC)(link)
судя по тесту (https://www.host-tracker.com/InstantCheck/1/4e67e34b-109a-e711-892b-0003ff73517a), это какая-то локальная проблема с Нидерландами.

[identity profile] bbb.livejournal.com 2017-09-15 12:30 pm (UTC)(link)
Ну, я условно выразился. Как я понимаю, все эти сайты так или иначе рециклируют изначальную базу данных, накопленную в гигапедии (плюс залитое сверху после), поэтому для тех, кому нужно что-то из этой базы, может им пользоваться. Чем больше, тем лучше. То одно висит или блокируется врагами, то другое.

[identity profile] bbb.livejournal.com 2017-09-15 12:32 pm (UTC)(link)
Кстати, почему так получилось, что академия.еду остается заповедником гуманитариев? Почему прочие не подтягиваются?

[identity profile] avva.livejournal.com 2017-09-15 12:41 pm (UTC)(link)
Гигапедия просто уже давно была. У нее была неплохая база, но по моему впечатлению она меркнет в сравнении с тем, что с тех пор набрали. И лидер в этом "набирании" именно Либген (потому что другие всегда у него могут добрать, чего у них нет - и добирают).

[identity profile] mastyukov.livejournal.com 2017-09-15 01:08 pm (UTC)(link)
Да, это бывший bookzz, который с недавнего времени оффлайн. Кстати, кажется теперь у них появилась новая фича: там где стоит "удалено по просьбе правообладателя" появилось дополнение: попробуйте зайти через "Тор". И таки да, именно то, что было срочно нужно, и было "удалено" оказалось доступно через Тор.

(Anonymous) 2017-09-15 01:13 pm (UTC)(link)
Вы понимаете, кто является типичным потребителем всех этих слоганов в рекламе VPN-сервисов?

Зайдём с другой стороны: вы понимаете, что собственный VPN за те же деньги можно организовать вводом нескольких команд?

Зайдём с другой стороны: вы понимаете, что бум халявных расширений для доступа к заблокированным сайтам, изменения страны и т. д. связан с тем, что на сервере изначально стоит программа сбора статистики по каждому пользователю, данными которой авторы и торгуют (если не занимаются чем-то похуже, как Hola).

[identity profile] mastyukov.livejournal.com 2017-09-15 01:15 pm (UTC)(link)
На либгене в разделе Download прямо указано, что bookfi.org, bookzz.org, bookza.org, bookos.org - зеркала либгена.

(Anonymous) 2017-09-15 01:15 pm (UTC)(link)
>Зайдём с другой стороны: вы понимаете, что собственный VPN за те же деньги можно организовать вводом нескольких команд?

Да можно. Админить некогда.
И, в целом, я не вижу причин для спора.

[identity profile] avva.livejournal.com 2017-09-15 01:20 pm (UTC)(link)
да, но я думаю, что они зеркала в смысле "у них есть все наши файлы, и мы можем легко давать на них ссылки", но не в смысле "это копии нашей базы данных". Мне в bookzz et al попадались время от времени книги, которых не было в Либгене, просто редко. Я думаю, что совершенно другие люди, другие (непрозрачные в отличие от либгена) проекты, другие цели - но действительно зеркалят целиком Либген. И молодцы.

[identity profile] kostya-h.livejournal.com 2017-09-15 01:37 pm (UTC)(link)
Не исключаю.

[identity profile] avva.livejournal.com 2017-09-15 02:00 pm (UTC)(link)
Несколько раз в неделю, а не несколько раз на дню. Меня постоянно интересуют самые разные вопросы, по котором самые квалифицированные ответы есть в научных статьях, вот я их и читаю. Иногда это медицина, иногда социология или психология, иногда математика-физика.

(Anonymous) 2017-09-15 02:50 pm (UTC)(link)
Я просто не перевариваю ненаучное гадание по потрошкам — "эти вроде не замечены", "у этих иконка красивая" — в ситуации, когда явно невозможно гарантировать ничего (и никаких усилий по изменению ситуации никто из продавцов таких услуг предпринимать не собирается).

А админить там нечего: сгенерировал один раз ключи и пользуйся на автомате точно так же, как платным.

[identity profile] myugor.livejournal.com 2017-09-15 04:03 pm (UTC)(link)
Для меня libgen куда полезнее (хотя поиск по заголовку скорее неудобство, для поиска есть scholar). Весь архив старых публикаций - в нем, книжный тоже. Прочесть сегодня свежие номера журналов я не рвусь, а через полгода они уже окажутся в libgen. Но открытые журналы, особенно то, что ими занялись такие киты как группы Nature и Science - полезнее обоих. Настоящее направление - здесь, а не в scihub.
Плюс researchgate и подобные, разумеется.
Edited 2017-09-15 16:09 (UTC)

Page 2 of 3