Илья Козиев

Илья Козиев Email and Phone Number

LLM NLP python developer @ SberDevices
Илья Козиев's Location
Cherepovets, Vologda, Russia, Russian Federation
About Илья Козиев

I'm a generative AI/ML researcher and developer. I develop NLP models and accompanying pipelines for text content generation (NLG).As part of this project, I solve the following tasks:1) Review of current approaches andf SOTAs, searching for recent articles and code relating LLM training, inferencing and evaluation.2) Training data acquisition: scraping, crowdsourcing; data exploration, cleaning and formatting. Synthetic data generation and augmentation using langchain, ChatGPT and other LLMs, prompt engineering.3) Building pipelines for language model pretraining in the cloud infrastructure: generative GPT-like models (Llama, Gemma, etc.), T5, encoder models (Roberta).4) Evaluation of foundation language models.5) Finetune of LMs for different tasks for the NLP domain: classification, text generation, sentiment analysis, various seq2seq problems.6) Evaluating the models after/during finetuning on downstream tasks: automatic metrics, human side-by-side benchmarks, ChatGPT prompting for sbs.7) Model deployment: web services.8) Performing experiments to find ways to improve the product: alternative neural network architectures, baselines, training data improvements and augmentations.9) Implementation of various auxiliary tasks such as: syntactic, morphological, semantic, sentiment analysis, grammar error correction, etc.Tools: python, pytorch, scikit-learn, S3-compatible cloud, computing cluster.

Илья Козиев's Current Company Details
SberDevices

Sberdevices

View
LLM NLP python developer
Илья Козиев Work Experience Details
  • Sberdevices
    Senior Software Developer
    Sberdevices Aug 2021 - Present
    Moscow, Russia
    I'm a generative AI/ML researcher and developer. I develop NLP models and accompanying pipelines for text content generation (NLG).As part of this project, I solve the following tasks:1) Review of current approaches andf SOTAs, searching for recent articles and code relating LLM training, inferencing and evaluation.2) Training data acquisition: scraping, crowdsourcing; data exploration, cleaning and formatting. Synthetic data generation and augmentation using langchain, ChatGPT and other LLMs, prompt engineering.3) Building pipelines for language model pretraining in the cloud infrastructure: generative GPT-like models (Llama, Gemma, etc.), T5, encoder models (Roberta).4) Evaluation of foundation language models.5) Finetune of LMs for different tasks for the NLP domain: classification, text generation, sentiment analysis, various seq2seq problems.6) Evaluating the models after/during finetuning on downstream tasks: automatic metrics, human side-by-side benchmarks, ChatGPT prompting for sbs.7) Model deployment: web services.8) Performing experiments to find ways to improve the product: alternative neural network architectures, baselines, training data improvements and augmentations.9) Implementation of various auxiliary tasks such as: syntactic, morphological, semantic, sentiment analysis, grammar error correction, etc.Tools: python, pytorch, scikit-learn, S3-compatible cloud, computing cluster.
  • Mts Group
    Computational Linguist
    Mts Group Dec 2019 - Aug 2021
    Moscow, Russian Federation
    Разработка NLP инструментов: синтаксический и морфологический разбор текстов; выделение клауз; выделение сущностей; коррекция ошибок; классификация текстовых сообщений.Сбор и аугментация датасетов для обучения и валидации моделей. Генерация синтетических датасетов.Разработка на Питоне и C#, с использованием различных библиотек общего назначения (scikit-learn, keras, pytorch) и решающих отдельные задачи обработки текста (nltk, UDPipe, spacy, DeepPavlov). Создание моделей с использованием классических методов машинного обучения и нейросетевых архитектур (сверточные и рекуррентные сетки, трансформеры), эмбеддинги разного вида (w2v, fasttext, BERT, ELMO).Подбор готовых решений и их доработка под технические требования. Прототипирование, анализ проблем, организация дообучения моделей для улучшения качества (Spacy, UDPipe). Анализ проблем со производительностью, профилирование, оптимизация кода.
  • Зао
    Ведущий Разработчик Бд
    Зао "Эсдиай Солюшен"​ May 2014 - Dec 2019
    Москва
    Поддержка и разработка нового функционала в СУБД Oracle, MS SQL, FireBird - оптимизация запросов, написание хранимого кода на PL/SQL, T-SQL и PSQL.Разработка веб-сервисов C# (REST, SOAP, интеграция со сторонними сервисами).Разработка утилит на C++ (подсистема обновления баз данных у клиентов)
  • Ruspo.Ru
    Ведущий Программист
    Ruspo.Ru Mar 2011 - May 2014
    Москва, Россия
    Удаленная работа с использованием инструментария MS VisualStudio 2008, MS SQL Server ManagementStudio, Firebug, Fiddler. штатные средства VS для интеграции с TFS.Основное направление работы - разработка на C# многопоточного парсинга и загрузки данных (web scrapping) с сайтов туроператоров, хранение данных в БД MS SQL с использованием .NET и библиотек типа HTMLAgilityPath, ABot. применением регулярных выражений, XPath и т.д. для разбора текстового контента.Интеграция со сторонними SOAP/REST сервисами для загрузки данных по отелям/турам.При подключении в ряде случаев выполнялся анализ протокола обмена (с помощью инструментов типа Fiddler) и html верстки, если данные были доступны только в неструктурированном виде (в основном с помощью Firebug).Доработка административных частей веб-портала на ASP.NET WebForms/jQuery и ASP.MVC.При необходимости реализовывалась и поддерживалась бизнес-логика в виде хранимых процедур и триггеров БД.Из-за высокой пользовательской нагрузки на портал большое внимание уделялось оптимизации запросов и вопросам изоляции транзакций, чтобы обеспечить непрерывную работу пишущих в БД роботов и пользовательского поиска отелей и туров.Оптимизация архитектуры (многопоточность на стороне C# кода, правильная разбивка данных по таблицам и индексы на стороне MS SQL) для максимальной утилизации связки из одной БД MS SQL и нескольких пишущих в БД роботов, что для сервера на базе Xeon вылилось в полную загрузку всех шести ядер CPU и отсутствие блокировок на БД.Анализ дополнительной информации по отелям - пользовательских отзывов, в виде связки из нескольких модулей. Разбор HTML кода и очистка выполнялась средствами HTMLAgilityPack и регулярных выражений. NLP (сегментация текста на предложения и слова, морфологический и синтаксический разбор) выполнялся специальным парсером, написанным на C++. Аспектный анализ сентимента (упоминаемые сущности и их оценка) - набор правил на C#. Промежуточные и конечные результаты хранятся в БД.

Илья Козиев Education Details

  • Обнинский Институт Атомной Энергетики, Филиал Национального Исследовательского Ядерного Университета «Мифи»
    Обнинский Институт Атомной Энергетики, Филиал Национального Исследовательского Ядерного Университета «Мифи»
    Ядерные Энергетические Установки

Frequently Asked Questions about Илья Козиев

What company does Илья Козиев work for?

Илья Козиев works for Sberdevices

What is Илья Козиев's role at the current company?

Илья Козиев's current role is LLM NLP python developer.

What schools did Илья Козиев attend?

Илья Козиев attended Обнинский Институт Атомной Энергетики, Филиал Национального Исследовательского Ядерного Университета «мифи».

Free Chrome Extension

Find emails, phones & company data instantly

Find verified emails from LinkedIn profiles
Get direct phone numbers & mobile contacts
Access company data & employee information
Works directly on LinkedIn - no copy/paste needed
Get Chrome Extension - Free

Aero Online

Your AI prospecting assistant

Download 750 million emails and 100 million phone numbers

Access emails and phone numbers of over 750 million business users. Instantly download verified profiles using 20+ filters, including location, job title, company, function, and industry.