avva: (Default)
avva ([personal profile] avva) wrote2017-09-14 08:48 pm

о доступе к статьям, или как 60 терабайт спасут цивилизацию

Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?

Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.

Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:

2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.

2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.

2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.

2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.

Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.

Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.

Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.

Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.

В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.

Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.

(*) художественное преувеличение, не всех, но значительной части.

Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.

[identity profile] dmpogo.livejournal.com 2017-09-14 06:03 pm (UTC)(link)
Я сомневаюсь что университету/фирме/лаборатории сподручно заниматься нелегальщиной под своим именем

[identity profile] xgrbml.livejournal.com 2017-09-14 06:19 pm (UTC)(link)
В сем же сомневаюсь :(

[identity profile] igor734.livejournal.com 2017-09-14 06:28 pm (UTC)(link)

В другом проекте, Libgen, все скопленные данные


Звучит как "оскопленные" :))). Правильно - "накопленные данные".

(Anonymous) 2017-09-14 06:28 pm (UTC)(link)
Чтобы менять мир, надо быть немножко ебанутым.

Очень часто подтверждается.

[identity profile] avva.livejournal.com 2017-09-14 06:31 pm (UTC)(link)
Ok, спасибо :)

[identity profile] nihao-62.livejournal.com 2017-09-14 06:37 pm (UTC)(link)
Пока, да несподручно, а ведь что такое полтинник терабайт? Ничего. У меня дома штук восемь.

Копирайты эти - кормление уже даже не ленивых наследников, но даже не творцов - странных посредников. Надеюсь, их (копирайты) переживу.

[identity profile] dmpogo.livejournal.com 2017-09-14 07:49 pm (UTC)(link)
Тут у нас борятся за копирайт для обезъяны, и даже заработали settlement

https://en.wikipedia.org/wiki/Monkey_selfie_copyright_dispute

[identity profile] spamsink.livejournal.com 2017-09-14 07:58 pm (UTC)(link)
одним человеком, которая страдает

Это в контексте логично, но ощущается всё равно аграмматично.

[identity profile] bbb.livejournal.com 2017-09-14 07:59 pm (UTC)(link)
Новое зеркало/клон бывшей гигапедии с продолжающимся пополнением - http://b-ok.org

[identity profile] nikaan.livejournal.com 2017-09-14 09:01 pm (UTC)(link)
ну вот у меня через vpn Женевского университета libgen.io не открывается. Видимо, заблокирован, потому что там просто в открытом доступе всё лежит. а sci-hub почему-то не заблокирован.

[identity profile] azangru.livejournal.com 2017-09-14 10:49 pm (UTC)(link)
лайк

[identity profile] notes4myfamily.livejournal.com 2017-09-15 06:16 am (UTC)(link)
Информация наше все.
Репостну

[identity profile] rusty-spur.livejournal.com 2017-09-15 06:40 am (UTC)(link)
О, спасибо огромное. У Вас я нашел ответ на свой вопрос.

60 ТБ... Можно конечно и дисков накупить... А если положить на всякие яндекс или гугль диски?

[identity profile] avva.livejournal.com 2017-09-15 06:42 am (UTC)(link)
А почему ты думаешь, что это именно клон гигапедии? У меня нет информации, что это не так, но я скорее склонен был считать, что это независимый сайт, зеркалящий в том числе раздел книг Либгена (плюс еще какие-то источники, не представляющиеся очень значительными). В прошлом он же (думаю, сужу по интерфейсу) назывался bookzz.

Он удобен как еще одно, быстрое зеркало Либгена для скачивания (и в качестве такого обычно приводится на странице результатов поиска Либгена), но хуже его в том смысле, что нет открытого доступа к контенту типа вышеописанных торрентов, нет форума и возможности самому залить книги etc.

[identity profile] avva.livejournal.com 2017-09-15 06:44 am (UTC)(link)
Я не знаю специфики российских облачных дисков, но на западных (Гугл, Амазон, Майкрософт итд.) вам это намного дороже обойдется на данный момент, чем свои диски покупать.

[identity profile] rusty-spur.livejournal.com 2017-09-15 06:59 am (UTC)(link)
Понятно.

А если "поделить ответственность", мне вот например медицина нужна, а знакомым кому физика, кому химия. Возможно, наверно, оценить, сколько нужно для твоего раздела и его стащить. Диск на 10 ТБ вполне бюджетен...

[identity profile] xxxxx.livejournal.com 2017-09-15 07:12 am (UTC)(link)
гугл скорее всего выпилит рано или поздно "по просьбе правообладателей", такой случай был уже в прошлом месяце

[identity profile] kostya-h.livejournal.com 2017-09-15 07:46 am (UTC)(link)
Кстати, да. С европейского айпишника (Нидерланды) тоже глухо. Похоже, блочат западные IP от греха подальше.:)

[identity profile] xxxxx.livejournal.com 2017-09-15 07:49 am (UTC)(link)
а не в чем и сомневаться. Фраза "А если вы еще и продолжите сидить это все" должна продолжаться словами "то за вами совершенно точно придут полицейские с дубинками". Ну для нашей уютненькой европки это так по крайней мере, израильские и русские знакомые торентами пользуются без опасений пока что.

(Anonymous) 2017-09-15 08:27 am (UTC)(link)
Через vpn.
Airvpn, protonvpn -- мало ли провайдеров, не ведущих логи.
Траффик здесь все же не порнографических масштабов.

[identity profile] freedom_of_sea.livejournal.com 2017-09-15 08:30 am (UTC)(link)
а автор может статью, опубликованную в платном журнале, выложить потом в пабмед или арксив?

(Anonymous) 2017-09-15 08:32 am (UTC)(link)
Самой собой.
Нужны свои диски.
Но это, конечно, дорого.
Если заложить 130 Тб в расчете на рост базы, это уже 13 дисков по 10Тб, плюс избыточность хотя бы на уровне raid6, это еще два диска.
Итого 15 дисков, плюс контроллер с батарейкой -- не softraid же устраивать, плюс приличный ups. 7-8 k$ итого.

[identity profile] nikaan.livejournal.com 2017-09-15 09:03 am (UTC)(link)
математики так делают. наверное, нельзя, но проблем ни у кого, насколько я знаю, не было. Издательствам лень проверять.

[identity profile] http://users.livejournal.com/__const__/ 2017-09-15 10:01 am (UTC)(link)
Окончательную статью — нельзя. А предпоследнюю редакуцию в авторском оформлении обычно без проблем. Это в Архив.
А ПабМед, насколько знаю, это нечто иное — база индексов типа ДОИ.

[identity profile] cass1an.livejournal.com 2017-09-15 10:10 am (UTC)(link)
Чаще всего может (далеко не все так делают, впрочем). Проблема может возникнуть, например, если автор где-нибудь в 97 году умер. Вторая проблема - это часто еще сложнее искать, чем по сайтам журналов разных издательств.

Page 1 of 3