Дообучение ruGPT-3 5 13B с LoRA Хабр

rugpt-3 как пользоваться

В противном случае получится лонгрид, так что я буду разбавлять текст левыми пикчами, просто держу в курсе. В результате в директории output появится файл pytorch_model.bin, и будет весить примерно 56Гб, по времени процедура слияния занимает примерно минут. Как я упомянул ранее, на Хабре мелькала публикация о проекте rulm, автор данной публикации подробно рассказал о том, как ему удалось собрать большой русскоязычный датасет и выполнить дообучение множества различных моделей, включая LLaMA (2) и ruGPT-3.5. По мотивам указанных изысканий я опубликовал на Дзене в своём блоге пост под названием ИИ в каждый дом!

RuGPT3XL. Примеры генерации на русском языке (zero-shot coding)

Модель ruGPT-3 13B содержит 13 миллиардов параметров и способна продолжать тексты на русском и английском языках, а также на языках программирования. При использовании данной нейросети в качестве инструмента необязательно знать структуру кода или хитросплетения слоёв нейронов, но нужно понимать некоторые гиперпараметры, необходимые для настройки, так как они будут сильно влиять на результат. Проще всего отметить несколько универсальных стилей работы с данной моделью на примере задачи генерации текста. Длина контекста модели составляет 2048 токенов + используется реализация sparse attention из DeepSpeed.

Шаг 3 – Слияние LoRA слоя и базовой модели

Современная модель генерации текста для русского языка на основе архитектуры GPT-3 от OpenAI. Продемонстрируем еще один пример использования данной сети и создадим рекомендательную систему по кинематографическим предпочтениям. Для примера будет взят пользователь из сайта Кинопоиск и сгенерированы фильмы, rugpt-3 как пользоваться которые он смотрел на основе 2-х любых просмотренных из его истории, дальше проведено банальное сравнение, есть ли эти фильмы у него также в истории.

rugpt-3 как пользоваться

Получается, что ruGPT-3 XL – эффективный инструмент для создания контента, но результаты  деятельности нейросети нужно проверять. Большое значение имеет то, что нейросеть может функционировать без few-shot обучения и работать с определенными наборами информации. Чтобы начать пользоваться сетью, следует зайти на GitHub, там находится архив с документацией и сама нейросеть. Плюс есть возможность попробовать демо-версию и с ее помощью протестировать генерацию текстов. Подключите свое приложение к самой большой нейросети для русского языка ruGPT-3. RuGPT-3 – это нейросеть от SberDevices, которая является русскоязычным аналогом GPT-3, самой объемной языковой модели, используемой в ChatGPT.

Они также позволяют совершать поездки на отдых, деловые поездки и посещать родственников и друзей.Кроме того, автомобили используются для перевозки грузов и товаров, что является необходимым для развития экономики и бизнеса. Поэтому важно использовать автомобили с учетом экологических факторов и переходить на более экологичные виды транспорта, такие как велосипеды или общественный транспорт.

Пилим поддержку кастомного датасета

  • Как я упомянул ранее, на Хабре мелькала публикация о проекте rulm, автор данной публикации подробно рассказал о том, как ему удалось собрать большой русскоязычный датасет и выполнить дообучение множества различных моделей, включая LLaMA (2) и ruGPT-3.5.
  • При использовании данной нейросети в качестве инструмента необязательно знать структуру кода или хитросплетения слоёв нейронов, но нужно понимать некоторые гиперпараметры, необходимые для настройки, так как они будут сильно влиять на результат.
  • Потрогать ruPrompts можно в Colab-ноутбуках и там же при желании – обучить затравку на собственных данных.
  • Со стороны SberDevices лидерскую роль в этом процессе взяло на себя Управление экспериментальных систем машинного обучения, а со стороны Sberbank.AI — команда AGI NLP.

К моему удивлению, GptQLora вообще не предусматривает возможность обучения на пользовательских данных. Квантованная модель (с пониженной битностью) ломается во время обучения стандартным тренером и превращается в битую гадость, которая потом отказывается работать, обнаруживая в своих тензорах крайние значения. Это можно объяснить тем, что в них обычно два действующих лица и в повествовании главную роль играет косвенная речь, а не прямая.Это доказывает самую главную проблему, которую я озвучу далее.

Поиск затравки градиентным спуском

В NSFW тестах результаты всё ещё лучше, примерно 3/5 успешных сценариев со вступлением, выдержанным повествованием и логичным концом. Модель зацикливается буквально на ровном месте, так что в дальнейшем я буду использовать исключительно top_p семплинг. Свято место пусто не бывает, кто-то должен был начать это монетизировать. Этим занялись сами создатели архитектуры – OpenAI, которые решили пойти против своего названия и запустить сайт, с чат интерфейсом своей новой версии GPT3, дообученной на контексте разметки чата – ChatGPT.

При этом обучались модели как с чередованием блоков трансформера с разреженным sparse и полным dense механизмами внимания, так и модели, в которых все блоки внимания были полными. Дело в том, что в оригинальной работе от OpenAI говорится о чередовании блоков, но не приводится их конкретная последовательность. Если все блоки внимания в модели будут полными, это увеличивает вычислительные затраты на обучение, но гарантирует, что предсказательный потенциал модели будет использован в полной мере. Несмотря на некоторые ограничения, ruGPT-3 является достаточно мощной и полезной нейросетью для создания текстов на русском языке. Ее простота в использовании и возможность бесплатного тестирования делают ее доступной для широкого круга пользователей. Разработчики постоянно работают над улучшением модели, что дает надежду на еще более точные результаты в будущем.

Дообучение ruGPT-3.5 13B с LoRA

Нейросеть ruGPT-3 может генерировать разные виды контента, а также редактировать тексты, находить грамматические и пунктуационные ошибки, вести диалог с пользователем и создавать код. Получается, что эта нейросеть является прототипом для Artificial General Intelligence – общего ИИ, который сможет помогать с любыми задачами во всех спектрах деятельности. Нейросеть демонстрирует state-of-the-art возможности для русского языка и умеет продолжать любой текст. Для обучения гигантских трансформерных моделей нужны значительные вычислительные ресурсы. Не получится просто взять современную видеокарту и обучить такую модель на домашнем компьютере. Если же взять самый большой вариант модели со 175 млрд параметров, то результата придётся дожидаться почти 500 лет.

ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной функции. Мы выкладываем несколько затравок, обученных на задачах обработки текста (text-2-text) и генерации в определённом стиле. Все затравки обучены для модели ruGPT-3 Large, но мы планируем расширять как список задач, так и список моделей. Следить за актуальным списком предобученных затравок можно в разделе документации. Несмотря на свою простоту, ruGPT-3 имеет некоторые ограничения, которые следует учитывать при ее использовании.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top
Open chat
1
Scan the code
SNL Avenue
Welcome to SNL.

How can I help you today?