ML engineer (GigaChat)
вакансия от 15.08.2025Зарплата договорная
Работодатель: СБЕР
Показать контакты
Показать контакты
График работы: Полный рабочий день
TVtoken
Дополнительный заработок в свободное время за просмотр обзоров товаров и услуг. Получай деньги на карту! Никаких вложений, кроме 5 минут в день вашего времени!
Должностные обязанности
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс. Обязанности чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback; генерить синтетические данные; разбираться с токенизацией; кластеризовать данные; писать дедупликацию на Rust; оптимизировать MapReduce → Spark, тысячи ядер; экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики. Ожидания от кандидата выпускник Факультета компьютерных наук/Факультета инноваций и высоких технологий имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет. Будет Плюсом навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов инструментальное владение AI для анализа, генерации и автоматизации. Условия комфортный современный офис ул. Розы Люксембург 56а возможность выбрать удобный график – офис/гибрид/удаленка ежегодный пересмотр зарплаты и годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.
Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс. Обязанности чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback; генерить синтетические данные; разбираться с токенизацией; кластеризовать данные; писать дедупликацию на Rust; оптимизировать MapReduce → Spark, тысячи ядер; экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики. Ожидания от кандидата выпускник Факультета компьютерных наук/Факультета инноваций и высоких технологий имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет. Будет Плюсом навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов инструментальное владение AI для анализа, генерации и автоматизации. Условия комфортный современный офис ул. Розы Люксембург 56а возможность выбрать удобный график – офис/гибрид/удаленка ежегодный пересмотр зарплаты и годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.
Требования к кандидату
Образование: Не указано
Опыт работы: не требуется
Образование: Не указано
Опыт работы: не требуется
Адрес места работы
Свердловская область, г Екатеринбург
Свердловская область, г Екатеринбург