отзывы пациентов о посещенных ими медицинских учреждениях по трем категориям: положительные, отрицательные и нейтральные.
Основу архитектуры сети составляют двунаправленные GRU и LSTM слои, после которых применены слои свертки. На вход сети подаются последовательности токенов, соответствующих уникальным словам текстовых отзывов. В слой вложения (embedding_layer) сети загружена матрица 500-размерных векторов предобученной модели word2vec, в котрой каждому токену соответствует определенный вектор. Таким образом, каждому слову сопоставлен вектор, передающий семантику слова. На выходе сеть выдает предсказания по трем классам в виде one-hot векторов.
Точность модели на тестовых данных 88%.
!При использовании обученной модели для классификации новых данных необходимо переводить тексты в последовательности токенов на основе словаря токенов, использованного при обучении модели!
Структура проекта:
Model.ipynb - исходный код модели;
Model_1-v3.2.hdf5 - обученная модель;
Using_the_model_for_predictions.ipynb - пример использования обученной модели для классификации новых данных;
Data_preprocessing.ipynb - код для предобработки текстовых данных;
more_data.csv - дополнительные данные, собранные из открытых источников интернета.
Требования к окружению для запуска:
Исходный код модели написан на языке Python.
Наиболее удобным вариантом для работы с данной моделью является применение пакета Anaconda c установленной библиотекой глубокого обучения Keras. Данный пакет может использовать на linux, windows, macOS.