Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки.
Общий размер базы вырос до 7226 часов, из которых 5591 час уже подтверждены как валидные. Всего в наборе данных более 5,5 миллиона звуковых клипов. Средняя продолжительность клипа 4,7 секунды.
С обновлением набора данных выросло количество языков, представленных более 5000 спикерами: теперь это английский, немецкий, французский, итальянский и испанский. Для них можно сказать, что вариативность достаточно высока для построения действительно универсальной системы распознавания и синтеза речи. Демографические характеристики спикеров представлены на иллюстрации слева.
Количество языков с более чем 500 часами записи достигло семи: английский, немецкий, французский, каталонский, испанский, кабильский и руанда (киньяруанда).
В идеале Mozilla хочет, чтобы на платформе Common Voice были представлены все языки, существующие в разговорной речи на земном шаре. Теоретически, если для каждого языка будут представлены все фонемы и все слова с транскрипцией, то можно разработать идеальный универсальный переводчик с распознаванием и синтезом речи на любом языке мира.
Mozilla уже начала работать в данном направлении. Сейчас опубликован первый целевой сегмент со словами, которые обозначают цифры от нуля до девяти, а также словами «да», «нет», «эй» и «файрфокс». Данный целевой сегмент на 18-ти языках включает в себя 120 часов записи, в том числе 64 валидированных часа. Он создан усилиями более 11 тыс. контрибуторов со всего мира.
Mozilla пишет, что этот целевой сегмент поможет проверить точность их опенсорнсного движка для распознавания речи Deep Speech на разных языках.
Комментариев нет:
Отправить комментарий