![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Ну как, о том, как Элбакян сначала забанила Sci-Hub (http://sci-hub.cc/) в России, а потом разбанила через три дня, уже забыли?
Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.
Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:
2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.
2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.
2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.
2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.
Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.
Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.
Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.
Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.
В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.
Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.
(*) художественное преувеличение, не всех, но значительной части.
Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.
Самое время поговорить о доступе к научным статьям, как без этого не обойтись и как это сохранить в будущем. Во время скандала с Элбакян было много записей и комментариев от ученых в разных дисциплинах в России, от студентов и сотрудников в лабораториях, о том, как без Sci-Hub они не представляют свою научную деятельность. Я обращаюсь ко всем этим людям и призываю их обратить внимание на проект Либген (http://libgen.io или http://gen.lib.rus.ec) и задуматься о его поддержке.
Еще раз подчеркну, что я не пытаюсь умалить вклад Александры Элбакян в дело свободного доступа к научным статьям - и этот вклад, и тот личный риск, на который она пошла и идет, несомненны (не забудем о судьбе Аарона Шварца - Элбакян ведь, по сути, выполнила и перевыполнила план, попытка заняться которым привела к аресту Шварца, уголовному делу против него и его самоубийству). Хронологически вклад Элбакян вместе с работой анонимных хранителей проекта Либген, в деле доступа к научным статьям, выглядит примерно так:
2011 - Элбакян запускает Sci-Hub. В первой версии проект позволяет вам заходить на сайты издателей, где лежат статьи, через чужие прокси с доступом; вы сами должны находить, где нажать, чтобы скачать статью, и скачанная статья остается только у вас и нигде не сохраняется.
2013 - проект Либген начинает давать доступ к научным статьям, с начальной базой примерно в 20 миллионов статей (источник этой начальной базы мне неизвестен). Они кооперируются с Sci-Hub, так что статьи, скачанные через Sci-Hub, автоматически копируются в базу данных Либген.
2014 - Элбакян переписывает движок Sci-Hub так, что он автоматически находит для пользователя, как скачать статью с сайта производителя, и скачивает ее (это чрезвычайно повышает удобство проекта). Она также запускает собственные сервера для хранения скачанных статей, чтобы не скачивать их снова и снова у издателя. При этом копии продолжают поступать в базу данных Либген. Элбакян копирует на свои сервера 20 миллионов статей Либгена.
2014-2017 - вдобавок к тем статьям, что скачиваются по запросам пользователей, Элбакян инициирует систематическое скачивание всех статей через свой движок из множества журналов и сайтов издателей. Эти два источника - запросы пользователей и скачивание по собственной инициативе проекта - доводят общее кол-во статей с 20 миллионов до 60 миллионов. Копии продолжают поступать в Либген.
Вклад Элбакян состоит в: 1) централизованной организации доступа к многим разным базам данных научных статей, пользуясь для этого множеством разных логинов/паролей, собранных за кулисами (предположительно пожертвованных добровольцами или добытых хакерами или и то и другое); 2) автоматизации скачивания PDF-версии статьи из каждой такой базы данных, и хранения на кэш-серверах, чтобы не надо было скачивать снова и снова; 3) автоматической догрузки множества статей по собственной инициативе проекта, для пополнения базы данных.
Вклад Либгена состоит в: 1) базе данных для всех статей, включая Sci-Hub'овские, с работающим поиском по именам и заголовкам (в Sci-Hub нет поиска, надо знать точный идентификатор конкретной статьи) 2) начальной базе в 20 миллионов статей 3) все статьи, весь код проекта, все базы данных - все открыто и может быть скачано и скопировано всеми желающими.
Ну и конечно, надо добавить сюда, что статьи это только одна из баз данных Либгена. Кроме этого, там есть художественная литература по-русски, на других языках, комиксы, и что самое важное - научные книги, первоначальный фокус этого проекта. Его ценность невозможно переоценить, по-моему; для меня лично он был и есть еще ценнее, чем Sci-Hub - хоть я понимаю, что для многих работащих ученых Sci-Hub важнее. Не будь Sci-Hub и раздела статей в Либгене, статьи все равно можно доставать через сообщества волонтеров с доступом, высылающих статьи желающим (главный способ получения статей до Sci-Hub). Не будь сотен тысяч оцифрованных книг в Либгене - включающих в себя практически полный набор учебников любого уровня по многим важным дисциплинам, и значительную часть монографий - их нигде больше не добыть, кроме как придя на своих двоих в библиотеку большого университета.
Но вернемся к научным статьям. Сейчас, в 2017-м году, больше 60 миллионов уже скачанных научных статей - по некоторым оценкам, более 60% массива современных научных статей - лежат на сайтах двух проектов: Sci-Hub и Libgen. Новые статьи, которые качаются через Sci-Hub, поступают в оба проекта. Но в одном из них, в Sci-Hub, никто не может сделать зеркало всех статей, а только смотреть по одной через капчу. Никто не может посмотреть на код проекта или сделать копию его базы данных. Все сервера и доступ к ним контролируются одним человеком, которая страдает от запредельного, галактического ЧСВ, и на почве этих страданий готова вырубать доступ целым странам, если ей не понравилась чья-то критика. Если завтра Элбакян вздумается закрыть проект, никакой копии Sci-Hub нет.
В другом проекте, Libgen, все накопленные данные (и статьи, и книги, и все остальное) раздаются всем желающим через торренты. Код проекта открытый. Периодические копии базы данных доступны к скачиванию прямо с сайта. Есть несколько зеркал. Хранители проекта, известные только под псевдонимами и не страдающие желанием прославиться, движимы судя по всему желанием раздать все это богатство как можно шире и поощряют создание зеркал и копирование данных.
Поэтому, вот что я хочу сказать, например, научному работнику в России - или любой другой стране, где у него нет легального доступа к необходимым базам данных и очень нужен доступ к научным статьям. Если, предположим, вы работаете в институте или большой научной лаборатории и идеология свободного доступа к научным статьям очень вам по душе. Если вас беспокоит возможность того, что Sci-Hub завтра закроют враги или закроет его же создательница по очередному капризу. У меня есть для вас очень дельный совет из двух частей. Во-первых, по адресу http://libgen.io/dbdumps/scimag/ скачайте дамп текущей версии базы данных всей статей. Цена вопроса - 7 гигабайт, или 26GB текстового файла в развернутом виде, и вот у вас есть все метаданные 66 миллионов статей. Я запустил скрипт на этой базе данных и посчитал, что общий объем всех статей - 54 терабайта. Поэтому вторая часть совета напрашивается. 54TB это много, но в рамках бюджета целого университета или большой научной лаборатории или фирмы - не очень много. Поднимите сервер или сервера с такими объемами жестких дисков и поставьте качать все торренты с http://libgen.io/scimag/repository_torrent/. Это займет какое-то время, может пару месяцев, но в конце этого процесса у вас будет копия всех (*) научных статей западного мира. Своя мини-копия достижений научной цивилизации. У вас на диске. Под вашим контролем. А еще примерно 30TB дадут вам возможность и все торренты книг тоже скачать. А если вы еще и продолжите сидить это все, так и вообще цены вам нет.
(*) художественное преувеличение, не всех, но значительной части.
Будущее свободного доступа к научной литературе - будущее вашего доступа к научной литературе - в ваших руках.
no subject
Date: 2017-09-14 06:03 pm (UTC)no subject
Date: 2017-09-14 06:19 pm (UTC)(no subject)
From:(no subject)
From: (Anonymous) - Date: 2017-09-15 08:27 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 10:36 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 11:56 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 01:13 pm (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 01:15 pm (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 02:50 pm (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-16 04:17 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-20 08:14 am (UTC) - Expandno subject
Date: 2017-09-14 06:37 pm (UTC)Копирайты эти - кормление уже даже не ленивых наследников, но даже не творцов - странных посредников. Надеюсь, их (копирайты) переживу.
(no subject)
From:no subject
Date: 2017-09-15 10:27 am (UTC)Университеты вообще все занимаются нелегальщиной. Скубенты и жиды.
no subject
Date: 2017-09-14 06:28 pm (UTC)В другом проекте, Libgen, все скопленные данные
Звучит как "оскопленные" :))). Правильно - "накопленные данные".
no subject
Date: 2017-09-14 06:31 pm (UTC)no subject
Date: 2017-09-14 06:28 pm (UTC)Очень часто подтверждается.
no subject
Date: 2017-09-14 07:58 pm (UTC)Это в контексте логично, но ощущается всё равно аграмматично.
no subject
Date: 2017-09-14 07:59 pm (UTC)no subject
Date: 2017-09-14 10:49 pm (UTC)no subject
Date: 2017-09-15 06:42 am (UTC)Он удобен как еще одно, быстрое зеркало Либгена для скачивания (и в качестве такого обычно приводится на странице результатов поиска Либгена), но хуже его в том смысле, что нет открытого доступа к контенту типа вышеописанных торрентов, нет форума и возможности самому залить книги etc.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-09-14 09:01 pm (UTC)no subject
Date: 2017-09-15 07:46 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2017-09-15 10:31 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-09-15 06:16 am (UTC)Репостну
no subject
Date: 2017-09-15 06:40 am (UTC)60 ТБ... Можно конечно и дисков накупить... А если положить на всякие яндекс или гугль диски?
no subject
Date: 2017-09-15 06:44 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From: (Anonymous) - Date: 2017-09-15 08:32 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 10:52 am (UTC) - Expand(no subject)
From: (Anonymous) - Date: 2017-09-15 12:01 pm (UTC) - Expand(no subject)
From:(no subject)
From: (Anonymous) - Date: 2017-09-16 07:52 am (UTC) - Expand(no subject)
From:(no subject)
From: (Anonymous) - Date: 2017-09-20 08:29 am (UTC) - Expand(no subject)
From:no subject
Date: 2017-09-15 08:30 am (UTC)no subject
Date: 2017-09-15 09:03 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2017-09-15 10:29 am (UTC)Работы выкладываются авторами (часто с нарушением т.н. "прав" издательств и подписанных договоров).
no subject
Date: 2017-09-15 12:32 pm (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2017-09-15 12:13 pm (UTC)Сначала кричали: да зачем нам эта сталинистка, мы наделаем кучу зеркал.
Как дело до дела дошло: ой, что-то сложновато получается, а пусть это кто-нибудь другой сделает, только с правильными убеждениями. А мы им респекты выскажем.
no subject
Date: 2017-09-15 04:38 pm (UTC)А эту?
no subject
Date: 2017-09-15 12:19 pm (UTC)no subject
Date: 2017-09-15 02:00 pm (UTC)no subject
Date: 2017-09-15 04:03 pm (UTC)Плюс researchgate и подобные, разумеется.
no subject
Date: 2017-09-15 08:07 pm (UTC)Все что превышает по размеру возможности обычного ПК хранить и раздавать информацию пытаться сделать массовым движением энтузиастов просто утопия.
Привлечь ресурсы университетов вообще подстава и университета и работника который так попытается сделать. Всегда есть конфликты и такой крючок как нелегальное копирование обязательно кто то использует.
Просто надо обязательно зафиксировать факт -- это (система свободного доступа к информации) есть и успешно _много_ лет работает эволюционно адаптировавшись к куче _реальных_ организационных и технических проблем.
"Быстрый интернет" есть теперь везде и локальные копии (зеркала) имеют смысл только для регионов с плохой внешней связанностью (хотя еще вопрос остались ли такие вообще).
2. Все же эти "камингауты" увы продолжают быть объективно вредны этой сложившейся системе свободного доступа к информации.
Если так хочется помочь, то действительно можно работать над развитием софта Либгена в сторону снижения требований к ресурсам, распределёности, легкости зеркалирования-кеширования. То есть заниматься абсолютно легальной и полезной для проекта деятельностью доступной профессионалу в области программирования.
То что часть софта (обеспечивающего откровенно нарушающую копирайт деятельность) прячется "от общественности", так это _абсолютно_ правильно. Зачем выставлять код, в котором можно найти путем анализа его устройства, возможность (пусть гипотетическую) автоматизации деаномизации (и наказания на эти самые миллионы исковые долларов) действующих прокси?
PS Таким образом резюмируем -- Надо просто не мешать "быть Данко" тем, у кого есть для этого достаточно решимости и сил. (по крайней мере хотя бы постоянно "не вкладывать персты в рану" этим Данко)
no subject
Date: 2017-09-16 06:37 pm (UTC)Интересно, на сколько терабайт уберется вся культурная информация, накопленная человечеством и с какой скоростью ее количество растет?
no subject
Date: 2017-09-19 03:38 am (UTC)Лично я новые статьи читаю, и буду не очень рад, если sci-hub прекратит деятельность по их добыче.
no subject
Date: 2018-02-09 12:57 pm (UTC)Единственно что: плата за доступ таки должна быть, но:
1) за доступ к публикациям младше определённого срока (допустим, 30 лет).
2) Плата не за статью, а за доступ. Абонентская и небольшая. Т.е. как на ряде сайтов: базовые услуги для всех и премиум-доступ - для подписчиков.
Причём премиум можно получить на какой-то срок за ряд достижений:
1) Пополнение сайта новыми публикациями.
2) Дополнение карты ареала вида (по публикациям). Есть занятный сайтик: https://www.gbif.org В нём на карте отмечены находки того или иного вида. По публикациям. Ясен пень, что по русскоязычным или китае\японоязычным там данных мало или вообще нет. Но можно данные забить.
3) Дополнение данных по публикациям: забивание ключевых слов и т.п.
Т.е. сам сайт представляет собой компиляцию идей, осуществлённых на разных ресурсах.
Страница вида может быть типа как на данном сайте: http://www.wsc.nmbe.ch
Вот пример: http://www.wsc.nmbe.ch/species/56416
Это научный сайт, база данных по паукам. На странице вида указаны кое-какие данные и о нём. И, самое главное, СПИСОК ПУБЛИКАЦИЙ, где этот вид упомянут. Причём на странице публикации (вот, к примеру - http://www.wsc.nmbe.ch/refincluded/14059) можно посмотреть, какие вообще виды пауков в ней упомянуты.
И по каждому упомянутому виду есть ссылка на его страницу. Ну и статью можно скачать, если её залили на сайт.