avva | о доступе к статьям, или как 60 терабайт спасут цивилизацию

Entry tags:

о доступе к статьям, или как 60 терабайт спасут цивилизацию

Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?

Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.

Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:

2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.

2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.

2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.

2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.

Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.

Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.

Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.

Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.

В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.

Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.

(*) художественное преувеличение, не всех, но значительной части.

Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.

Threaded | Top-Level Comments Only

Я сомневаюсь что университету/фирме/лаборатории сподручно заниматься нелегальщиной под своим именем

В сем же сомневаюсь :(

В другом проекте, Libgen, все скопленные данные

Звучит как "оскопленные" :))). Правильно - "накопленные данные".

Чтобы менять мир, надо быть немножко ебанутым.

Очень часто подтверждается.

Ok, спасибо :)

Пока, да несподручно, а ведь что такое полтинник терабайт? Ничего. У меня дома штук восемь.

Копирайты эти - кормление уже даже не ленивых наследников, но даже не творцов - странных посредников. Надеюсь, их (копирайты) переживу.

Тут у нас борятся за копирайт для обезъяны, и даже заработали settlement

https://en.wikipedia.org/wiki/Monkey_selfie_copyright_dispute

одним человеком, которая страдает

Это в контексте логично, но ощущается всё равно аграмматично.

Новое зеркало/клон бывшей гигапедии с продолжающимся пополнением - http://b-ok.org

ну вот у меня через vpn Женевского университета libgen.io не открывается. Видимо, заблокирован, потому что там просто в открытом доступе всё лежит. а sci-hub почему-то не заблокирован.

лайк

Информация наше все.
Репостну

О, спасибо огромное. У Вас я нашел ответ на свой вопрос.

60 ТБ... Можно конечно и дисков накупить... А если положить на всякие яндекс или гугль диски?

А почему ты думаешь, что это именно клон гигапедии? У меня нет информации, что это не так, но я скорее склонен был считать, что это независимый сайт, зеркалящий в том числе раздел книг Либгена (плюс еще какие-то источники, не представляющиеся очень значительными). В прошлом он же (думаю, сужу по интерфейсу) назывался bookzz.

Он удобен как еще одно, быстрое зеркало Либгена для скачивания (и в качестве такого обычно приводится на странице результатов поиска Либгена), но хуже его в том смысле, что нет открытого доступа к контенту типа вышеописанных торрентов, нет форума и возможности самому залить книги etc.

Я не знаю специфики российских облачных дисков, но на западных (Гугл, Амазон, Майкрософт итд.) вам это намного дороже обойдется на данный момент, чем свои диски покупать.

Понятно.

А если "поделить ответственность", мне вот например медицина нужна, а знакомым кому физика, кому химия. Возможно, наверно, оценить, сколько нужно для твоего раздела и его стащить. Диск на 10 ТБ вполне бюджетен...

гугл скорее всего выпилит рано или поздно "по просьбе правообладателей", такой случай был уже в прошлом месяце

Кстати, да. С европейского айпишника (Нидерланды) тоже глухо. Похоже, блочат западные IP от греха подальше.:)

а не в чем и сомневаться. Фраза "А если вы еще и продолжите сидить это все" должна продолжаться словами "то за вами совершенно точно придут полицейские с дубинками". Ну для нашей уютненькой европки это так по крайней мере, израильские и русские знакомые торентами пользуются без опасений пока что.

Через vpn.
Airvpn, protonvpn -- мало ли провайдеров, не ведущих логи.
Траффик здесь все же не порнографических масштабов.

а автор может статью, опубликованную в платном журнале, выложить потом в пабмед или арксив?

Самой собой.
Нужны свои диски.
Но это, конечно, дорого.
Если заложить 130 Тб в расчете на рост базы, это уже 13 дисков по 10Тб, плюс избыточность хотя бы на уровне raid6, это еще два диска.
Итого 15 дисков, плюс контроллер с батарейкой -- не softraid же устраивать, плюс приличный ups. 7-8 k$ итого.

математики так делают. наверное, нельзя, но проблем ни у кого, насколько я знаю, не было. Издательствам лень проверять.

Окончательную статью — нельзя. А предпоследнюю редакуцию в авторском оформлении обычно без проблем. Это в Архив.
А ПабМед, насколько знаю, это нечто иное — база индексов типа ДОИ.

Чаще всего может (далеко не все так делают, впрочем). Проблема может возникнуть, например, если автор где-нибудь в 97 году умер. Вторая проблема - это часто еще сложнее искать, чем по сайтам журналов разных издательств.

Threaded | Top-Level Comments Only

Page 1 of 3

о доступе к статьям, или как 60 терабайт спасут цивилизацию

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject