avva: (Default)
[personal profile] avva
Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?

Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.

Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:

2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.

2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.

2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.

2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.

Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.

Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.

Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.

Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.

В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.

Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.

(*) художественное преувеличение, не всех, но значительной части.

Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.

Date: 2017-09-14 06:19 pm (UTC)
From: [identity profile] xgrbml.livejournal.com
В сем же сомневаюсь :(

Date: 2017-09-15 07:49 am (UTC)
From: [identity profile] xxxxx.livejournal.com
а не в чем и сомневаться. Фраза "А если вы еще и продолжите сидить это все" должна продолжаться словами "то за вами совершенно точно придут полицейские с дубинками". Ну для нашей уютненькой европки это так по крайней мере, израильские и русские знакомые торентами пользуются без опасений пока что.

Date: 2017-09-15 08:27 am (UTC)
From: (Anonymous)
Через vpn.
Airvpn, protonvpn -- мало ли провайдеров, не ведущих логи.
Траффик здесь все же не порнографических масштабов.

Date: 2017-09-15 10:36 am (UTC)
From: (Anonymous)
Мало, мало, не ведущих логи провайдеров. Рискну предположить, что их сейчас вообще нет, об идейных проектах после Lavabit что-то не слышно.

На всякий случай, объясню, что чем громче кто-то рекламирует "отсутствие логов" и прочую маловыполнимую в текущем юридическом климате фигню, тем сильнее он хочет обладать самым многочисленным стадом баранов, данные о действиях которых можно продавать рекламщикам и прочим тёмным личностям, получая денежки.

Технический уровень и заботу о безопасности этих всюду рекламируемых сервисов мы могли наблюдать не так давно, когда большинство из них опозорилось из-за неумения настроить свой NAT так, чтобы трафик правильно ходил в любых направлениях (вопрос минимум 15 лет как расписан в howto), позволив любому желающему деанонимизировать клиентов.

Если же вы вправду верите, что эти желающие срубить бабла по-быстрому не выдадут всех данных на официальный запрос хоть из зимбабвийских органов, что ещё сказать...

Date: 2017-09-15 11:56 am (UTC)
From: (Anonymous)
>об идейных проектах после Lavabit что-то не слышно.

Ну да? Protonmail, tutanota навскидку.


>Если же вы вправду верите, что эти желающие срубить бабла по-быстрому не выдадут всех данных на официальный запрос

Вопрос сложный, и у меня нет рецепта.
Но как-то анализировать предложения надо.
Можно ориентироваться на прецеденты.
Типа, hidemyass в топку.
А к mullvad или protonvpn можно и присмотреться.

Date: 2017-09-15 01:13 pm (UTC)
From: (Anonymous)
Вы понимаете, кто является типичным потребителем всех этих слоганов в рекламе VPN-сервисов?

Зайдём с другой стороны: вы понимаете, что собственный VPN за те же деньги можно организовать вводом нескольких команд?

Зайдём с другой стороны: вы понимаете, что бум халявных расширений для доступа к заблокированным сайтам, изменения страны и т. д. связан с тем, что на сервере изначально стоит программа сбора статистики по каждому пользователю, данными которой авторы и торгуют (если не занимаются чем-то похуже, как Hola).

Date: 2017-09-15 01:15 pm (UTC)
From: (Anonymous)
>Зайдём с другой стороны: вы понимаете, что собственный VPN за те же деньги можно организовать вводом нескольких команд?

Да можно. Админить некогда.
И, в целом, я не вижу причин для спора.

Date: 2017-09-15 02:50 pm (UTC)
From: (Anonymous)
Я просто не перевариваю ненаучное гадание по потрошкам — "эти вроде не замечены", "у этих иконка красивая" — в ситуации, когда явно невозможно гарантировать ничего (и никаких усилий по изменению ситуации никто из продавцов таких услуг предпринимать не собирается).

А админить там нечего: сгенерировал один раз ключи и пользуйся на автомате точно так же, как платным.

Date: 2017-09-16 04:17 am (UTC)
From: (Anonymous)
>Технический уровень и заботу о безопасности этих всюду рекламируемых сервисов мы могли наблюдать не так давно, когда большинство из них опозорилось из-за неумения настроить свой NAT так, чтобы трафик правильно ходил в любых направлениях (вопрос минимум 15 лет как расписан в howto), позволив любому желающему деанонимизировать клиентов.

А расскажите что там было? Сходу не нагуглил ничего такого и с трудом понимаю, что бы это могло быть.

Date: 2017-09-20 08:14 am (UTC)
From: (Anonymous)
"Port Fail"

https://www.perfect-privacy.com/blog/2015/11/26/ip-leak-vulnerability-affecting-vpn-providers-with-port-forwarding/

Все бросились обзывать это "vulnerability", хотя настоящая причина в том, что ламерьё в этих лавочках не задалось тривиальнейшим вопросом, что будет происходить, если клиент за NAT попытается обратиться к другому клиенту за тем же NAT по внешнему адресу (хороший вопрос на собеседованиях, даёт понять, что человек хотя бы читал мануалы).

June 2025

S M T W T F S
123 4 5 6 7
8 910 11 12 13 14
15 16 17 1819 20 21
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 21st, 2025 06:29 pm
Powered by Dreamwidth Studios