Месяц назад я прочитал лекцию по истории математики на иврите. С тех пор много раз собирался сесть и расшифровать ее запись в текстовый формат, чтобы легче было отредактировать и подготовить версию на русском или английском. Но все время это откладывал, потому что жалко было времени, и жалко было так скучно его тратить. Я не так быстро набираю на иврите, как по-русски или по-английски, и мне ясно было, что перевести час лекции в текст займет у меня как минимум 5, а то и 10 часов времени.
Почему-то идея заплатить кому-то, а не делать самому, мне всегда приходит на ум с большим опозданием. Но вот наконец она пришла, и я поискал услуги расшифровки аудиозаписи в текст. Оказалось, что израильские компании, занимающиеся этим, в основном заточены под расшифровку телефонных разговоров для судебных заседаний, и берут за это солидные деньги (некоторые из них, по крайней мере; большинство сайтов, в лучших традициях израильского бизнеса, не публикуют свои расценки, а просят, чтобы им позвонили или оформили запрос). Но зато я обнаружил, что по-английски такую расшифровку успешно делают задешево с помощью Mechanical Turk - платформы Амазона, позволяющей предложить армии анонимных работников умственного труда любые задания за любую плату, на которую они согласятся. Я ни разу не пользовался Механическим Турком и давно хотел попробовать, так что решил, что вот удобный случай.
Так вот, отчитываюсь. Если вкратце, то эксперимент прошел удачно. Я получил полную текстовую расшифровку своей часовой лекции на иврите, заплатив за нее примерно $30. Расшифровка отличного качества, кроме фамилий математиков и некоторых математических терминов (но этого я ожидал). До того, как я попробовал сделать это через Турка, я был готов заплатить за этот результат какому-то агентству в 3-5 раз больше (но не нашел, кому заплатить).
Теперь подробности. Я следовал почти точно рекомендациям в этой блог-записи: Cheap, Easy Audio Transcription with Mechanical Turk. Ей почти семь лет, но советами в ней можно пользоваться практически без изменений. Вот что я сделал:
- записал аудио своей лекции в отдельный MP3-файл
- с помощью программы Mp3splt нарезал звук на 5-минутные куски, всего вышло 13 кусков. Не пытался специально разбивать на паузах или еще как-то хитрить, просто по-тупому 5 минут 00 секунд на каждый кусок.
- скопировал эти 13 файлов в свой Dropbox, чтобы можно было дать на них ссылки
- зарегистрировался на сайте Турка. Вообще-то сайт требует, чтобы работодатель был из Америки, и просит ввести американский адрес. Но я ввел случайный адрес из Fake Name Generator и его это удовлетворило; баланс на своем счету оплатил израильской кредиткой без всяких проблем.
- создал шаблон задания на сайте Турка, начав с их шаблона транскрипции. Я изменил его, подчеркнув несколько раз в заголовке и описании, что речь идет о тексте на иврите, и нужно знать иврит, чтобы выполнить задание. Я полагал изначально, что на сайте можно будет каким-то образом указать, что я требую работников со знанием такого-то языка, но ничего такого я не нашел.
- следуя указаниям в той записи, на основании шаблона сделал партию из 13 заданий, каждое со своей ссылкой на свой mp3-файл, который нужно прослушать и транскрибировать. Указал, что хочу заплатить $2 за каждое задание (расшифровка 5 минут аудио). Судя по другим обсуждениям, что я нашел, за расшифровку англоязычных записей обычно платят еще раза в два меньше, но я решил, что на иврите рынок намного меньше, конкуренции меньше и цены скорее всего выше; кроме того, если честно, мне было неловко предлагать еще меньше.
(я не знаю, кто эти люди, которые выполняют задания на Турке - какие у них типичные жизненные обстоятельства. Подозреваю, что часто это бедные студенты или неработающие люди, которые зарабатывают этим не на жизнь, а на карманные деньги и мелкие расходы)
- Это важно: по умолчанию Амазон ввел на мое задание ограничение "Master Workers" - это значит, что только работники определенного элитного статуса могут его выполнять. За это ограничение Амазон также берет комиссионные 30% от всей суммы платежа. Я не хотел ограничивать пул потенциальных работников, учитывая мое требование знания иврита, так что убрал это ограничение, и это снизило мне комиссионные до стандартных 10%.
- Я дал срок в неделю на все задания, но в итоге все 13 заданий были выполнены за двое суток.
- Было несколько недоразумений, 3-4 раза, когда я в виде ответа получал что-то странное или оборванное посредине. Обычно мне тут же приходило письмо от работника, который объяснял, что случайно нажал на кнопку конца работы, и просил не отвергать задание (это влияет на их статистику, за которой следят работодатели). Во всех случаях я договаривался с ними, что они просто пришлют мне остаток по мейлу, и все это сделали. Я также мог просто открыть новый запрос на то же задание и ждать другого работника (и любопытства ради два раза так сделал).
- Несколько раз приходили уточняющие вопросы от работников. Меня удивило, что при переписке работника с работодателем Амазон просто посылает мейл от одного к другому, используя их реальные имена и адреса, и дальше они продолжают просто по мейлу. Я был уверен, что будет какая-то схема с сообщениями только с "работником/работодателем номер такой-то" через сайт.
- Я все время заходил на сайт и проверял, не сделали ли еще задания, потому что мне было любопытно и боязно, что никто не захочет делать, но я зря тратил на это время. Если бы я отнесся к этому с полным пофигизмом, то 15 минут на подготовку файлов и шаблона было бы все мои затраты времени, и я бы все равно получил те же результаты, заплатив на пару долларов больше.
Итог: 13 кусков текста. У меня заняло полчаса склеить их, пройтись и исправить основные имена/термины. Результатом очень доволен. Впредь несомненно буду пользоваться Турком для работ такого рода.
Почему-то идея заплатить кому-то, а не делать самому, мне всегда приходит на ум с большим опозданием. Но вот наконец она пришла, и я поискал услуги расшифровки аудиозаписи в текст. Оказалось, что израильские компании, занимающиеся этим, в основном заточены под расшифровку телефонных разговоров для судебных заседаний, и берут за это солидные деньги (некоторые из них, по крайней мере; большинство сайтов, в лучших традициях израильского бизнеса, не публикуют свои расценки, а просят, чтобы им позвонили или оформили запрос). Но зато я обнаружил, что по-английски такую расшифровку успешно делают задешево с помощью Mechanical Turk - платформы Амазона, позволяющей предложить армии анонимных работников умственного труда любые задания за любую плату, на которую они согласятся. Я ни разу не пользовался Механическим Турком и давно хотел попробовать, так что решил, что вот удобный случай.
Так вот, отчитываюсь. Если вкратце, то эксперимент прошел удачно. Я получил полную текстовую расшифровку своей часовой лекции на иврите, заплатив за нее примерно $30. Расшифровка отличного качества, кроме фамилий математиков и некоторых математических терминов (но этого я ожидал). До того, как я попробовал сделать это через Турка, я был готов заплатить за этот результат какому-то агентству в 3-5 раз больше (но не нашел, кому заплатить).
Теперь подробности. Я следовал почти точно рекомендациям в этой блог-записи: Cheap, Easy Audio Transcription with Mechanical Turk. Ей почти семь лет, но советами в ней можно пользоваться практически без изменений. Вот что я сделал:
- записал аудио своей лекции в отдельный MP3-файл
- с помощью программы Mp3splt нарезал звук на 5-минутные куски, всего вышло 13 кусков. Не пытался специально разбивать на паузах или еще как-то хитрить, просто по-тупому 5 минут 00 секунд на каждый кусок.
- скопировал эти 13 файлов в свой Dropbox, чтобы можно было дать на них ссылки
- зарегистрировался на сайте Турка. Вообще-то сайт требует, чтобы работодатель был из Америки, и просит ввести американский адрес. Но я ввел случайный адрес из Fake Name Generator и его это удовлетворило; баланс на своем счету оплатил израильской кредиткой без всяких проблем.
- создал шаблон задания на сайте Турка, начав с их шаблона транскрипции. Я изменил его, подчеркнув несколько раз в заголовке и описании, что речь идет о тексте на иврите, и нужно знать иврит, чтобы выполнить задание. Я полагал изначально, что на сайте можно будет каким-то образом указать, что я требую работников со знанием такого-то языка, но ничего такого я не нашел.
- следуя указаниям в той записи, на основании шаблона сделал партию из 13 заданий, каждое со своей ссылкой на свой mp3-файл, который нужно прослушать и транскрибировать. Указал, что хочу заплатить $2 за каждое задание (расшифровка 5 минут аудио). Судя по другим обсуждениям, что я нашел, за расшифровку англоязычных записей обычно платят еще раза в два меньше, но я решил, что на иврите рынок намного меньше, конкуренции меньше и цены скорее всего выше; кроме того, если честно, мне было неловко предлагать еще меньше.
(я не знаю, кто эти люди, которые выполняют задания на Турке - какие у них типичные жизненные обстоятельства. Подозреваю, что часто это бедные студенты или неработающие люди, которые зарабатывают этим не на жизнь, а на карманные деньги и мелкие расходы)
- Это важно: по умолчанию Амазон ввел на мое задание ограничение "Master Workers" - это значит, что только работники определенного элитного статуса могут его выполнять. За это ограничение Амазон также берет комиссионные 30% от всей суммы платежа. Я не хотел ограничивать пул потенциальных работников, учитывая мое требование знания иврита, так что убрал это ограничение, и это снизило мне комиссионные до стандартных 10%.
- Я дал срок в неделю на все задания, но в итоге все 13 заданий были выполнены за двое суток.
- Было несколько недоразумений, 3-4 раза, когда я в виде ответа получал что-то странное или оборванное посредине. Обычно мне тут же приходило письмо от работника, который объяснял, что случайно нажал на кнопку конца работы, и просил не отвергать задание (это влияет на их статистику, за которой следят работодатели). Во всех случаях я договаривался с ними, что они просто пришлют мне остаток по мейлу, и все это сделали. Я также мог просто открыть новый запрос на то же задание и ждать другого работника (и любопытства ради два раза так сделал).
- Несколько раз приходили уточняющие вопросы от работников. Меня удивило, что при переписке работника с работодателем Амазон просто посылает мейл от одного к другому, используя их реальные имена и адреса, и дальше они продолжают просто по мейлу. Я был уверен, что будет какая-то схема с сообщениями только с "работником/работодателем номер такой-то" через сайт.
- Я все время заходил на сайт и проверял, не сделали ли еще задания, потому что мне было любопытно и боязно, что никто не захочет делать, но я зря тратил на это время. Если бы я отнесся к этому с полным пофигизмом, то 15 минут на подготовку файлов и шаблона было бы все мои затраты времени, и я бы все равно получил те же результаты, заплатив на пару долларов больше.
Итог: 13 кусков текста. У меня заняло полчаса склеить их, пройтись и исправить основные имена/термины. Результатом очень доволен. Впредь несомненно буду пользоваться Турком для работ такого рода.
no subject
Date: 2015-06-07 10:39 pm (UTC)no subject
Date: 2015-06-08 01:41 am (UTC)пошла искать задания на русском, нашлось одно, 20 минут, оплата – 8 ЦЕНТОВ
8 ЦЕНТОВ
как это вообще
no subject
Date: 2015-06-08 02:31 am (UTC)no subject
Date: 2015-06-08 04:31 am (UTC)no subject
Date: 2015-06-08 06:26 am (UTC)no subject
Date: 2015-06-08 03:15 am (UTC)no subject
Date: 2015-06-08 05:00 am (UTC)P.S. Интересно, это мы у них позаимствовали традицию не публиковать цены на сайтах или они у нас? :)
no subject
Date: 2015-06-08 05:31 am (UTC)Остановлен бег
Вкалывают роботы,
Счастлив человек.
no subject
Date: 2015-06-08 05:49 am (UTC)no subject
Date: 2015-06-08 06:48 am (UTC)no subject
Date: 2015-06-08 06:52 am (UTC)no subject
Date: 2015-06-08 07:03 am (UTC)no subject
Date: 2015-06-08 10:26 am (UTC)Был опыт. Труд действительно нечеловеческий и очень, очень малооплачиваемый.
no subject
Date: 2015-06-08 10:33 am (UTC)no subject
Date: 2015-06-08 11:19 am (UTC)Если вдруг кто-то наловчился печатать на компьютере быстрее, чем обычная речь человека, он может ставить mp3-файл с увеличенной скоростью (т.е. в среднем обрабатывать минуту речи менее, чем за минуту своего труда). Не знаю, насколько это реально.
2. Люди могут заниматься какой-то деятельностью не столько ради денег, сколько ради ощущения нужности, что ли. Я и сам иногда на математические вопросы неизвестных людей из интернета отвечаю -- тратя на это много времени (не ради денег). Конечно, выглядит странным, что кто-то может добровольно переводить лекцию по математике с голоса в текст. Но кто знает, люди всякие бывают, моя жена тоже долго не могла поверить, что можно нужную неизвестно кому математическую задачу решать бесплатно в выходной день.
no subject
Date: 2015-06-08 06:08 am (UTC)Английский-русский-иврит.
no subject
Date: 2015-06-08 06:25 am (UTC)no subject
Date: 2015-06-08 10:10 am (UTC)> на Турке - какие у них типичные жизненные обстоятельства.
> Подозреваю, что часто это бедные студенты или неработающие
> люди, которые зарабатывают этим не на жизнь, а на карманные деньги
У NPR подкаста Planet Money был эпизод про работников Mechanical Turk, как раз на эти вопросы там пытаются ответить:
http://www.npr.org/sections/money/2015/01/30/382657657/episode-600-the-people-inside-your-machine
no subject
Date: 2015-06-08 10:26 am (UTC)no subject
Date: 2015-06-08 11:01 am (UTC)no subject
Date: 2015-06-08 04:12 pm (UTC)no subject
Date: 2015-06-09 08:15 am (UTC)