«Переведем Coursera»: как сделать платформу для перевода лучших курсов мира на русский язык

24 марта ABBYY Language Services и центр Digital October объявили об официальном запуске краудсорсингового проекта «Переведем Coursera». Его цель — на волонтерской основе перевести лучшие курсы Coursera на русский язык и сделать их доступными для всех пользователей Рунета. Зарегистрироваться и приступить к переводу лекций можно уже сейчас на сайте проекта.

Пока мы разрабатывали и готовили к запуску этот проект, произошло много интересного. Мы решили массу организационных и технических задач, познакомились с большим количеством интересных людей, в том числе с яркой командой и основателями Coursera, а также с командой нашего локального партнера по этому проекту Digital October. Думаем, что вам будет интереснее узнать про технологии, поэтому сейчас расскажем, из чего состоит и что умеет платформа, которую мы разработали. Почти наверняка это не последний пост о проекте, так что пишите в комментариях, о чем еще вы бы хотели узнать.

Разработка началась в прошлом году, и до вчерашнего дня платформа находилась в стадии закрытого бета-тестирования, участие в котором приняли сотрудники ABBYY, Digital October, а также студенты и молодые специалисты Московского государственного университета, Российского государственного гуманитарного университета, Московского городского психолого-педагогического университета и других вузов. Благодаря комментариям первых переводчиков наши специалисты смогли доработать платформу, сделать ее более удобной и полностью подготовить к работе.

В основе ресурса лежит разрабатываемая ABBYY Language Services облачная платформа для автоматизации перевода SmartCAT. Как вы помните, эта система позволяет использовать в работе современные технологии переводческой индустрии: память переводов, автоматизированную поддержку целостности терминологии, машинный перевод. Все это собрано в удобном интерфейсе редактора, который устроен так, чтобы максимально повысить производительность пользователя. В «Переведем Coursera» эти профессиональные технологии доступны всем желающим — для «включения» в работу не потребуется специальная подготовка. Чтобы проект был интересен волонтерам, наши разработчики добавили в систему несколько дополнительных функций, о которых мы расскажем ниже.

Все желающие могут зарегистрироваться на сайте проекта, выбрать любой понравившийся курс и приступить к работе с ним. Тексты лекций поделены на предложения, временных рамок для перевода нет: только вы решаете, сколько времени потратить на участие — перевести 2–3 предложения или же 20 страниц. При этом для каждого предложения можно добавить несколько вариантов перевода, если у вас не получается выбрать лучший.

После регистрации у каждого участника появляется собственный профиль, в котором помимо персональных данных отображается информация о количестве переведенных предложений, рейтинге, переводимых курсах и результатах голосования других участников. Волонтеры смогут обсуждать переводы друг с другом прямо в процессе работы, а самые старательные будут получать виртуальные награды за свои достижения.

Не менее важный этап — голосование за лучший вариант перевода. Голосовать можно прямо в редакторе перевода; также на сайте есть специальный виджет.

Затем варианты перевода отправятся на утверждение эксперту и затем попадут в субтитры Coursera. В роли экспертов выступают преподаватели соответствующих специальностей российских вузов.

Активность пользователей выражается в виде персонального рейтинга. На главной странице есть список лидеров проекта, в котором участники соревнуются за звание самого активного переводчика Coursera.

лидеры

Рейтинг складывается из следующих параметров:

1. Количество добавляемых пользователем переводов;

2. Количество голосов других участников, отданных за переводы этого пользователя;

3. Количество голосов, отдаваемых пользователем за чужие переводы;

4. Количество переводов пользователя, которые эксперт выбрал в качестве итоговых.

Наибольший вклад в рейтинг дают параметры 2 и 4, поэтому выгодно переводить меньше, но лучше.

Как было сказано выше, платформа имеет автоматизированную поддержку целостности терминологии. Для каждого из переводимых курсов предварительно составляется глоссарий: специальная программа анализирует лекции и выбирает часто встречающиеся слова. Полученный список терминов проверяют опытные редакторы ABBYY Language Services, «отсеивают» лишнее и переводят — так получается парный набор терминов на исходном языке и языке перевода. В рабочем интерфейсе переводчика система подсвечивает термины, показывает их перевод и позволяет подставить в поле для редактирования. Благодаря этому обеспечиваются единообразие и целостность перевода всего курса.

В редакторе перевода есть специальная панель, в которой пользователи могут просматривать видеокурс, который переводят. Во-первых, это помогает лучше понять смысл текста; во-вторых, каждый участник проекта сразу видит, как его вариант перевода выглядит на видеофрагменте лекции: в момент редактирования пользователь в реальном времени наблюдает за изменением субтитров на видео и может вручную задавать места переносов строк субтитров. Таким образом, у участников есть возможность подбирать для перевода фразы, которые будут гармонично смотреться на экране. Кроме того, система позволяет быстро перемотать видео на тот фрагмент, который сейчас переводит пользователь, и наоборот — перейти к предложению, звучащему в данный момент. Для отображения видео мы взяли веб-плеер с открытым кодом. Он может проигрывать субтитры, которые принимает в виде .srt-файлов через API: SmartCAT динамически разбивает текст перевода на строки субтитров, генерирует из них .srt-файл и передает его плееру.

редактор

Мы очень хотели бы рассказать вам о подробностях разработки платформы, но наших специалистов пока отвлекать ну никак нельзя, так что чуть позже познакомим вас с другими техническими деталями. А пока присоединяйтесь к переводу Coursera! Все вопросы, пожелания и предложения присылайте на наш адрес: coursera@abbyy-ls.com или просто отставляйте здесь в комментариях. Подробнее о проекте, его миссии и Coursera вы узнаете из нашего блога.

Читайте также: