COMPARATIVE PERSONALITY AND CHARACTER TYPE DETERMINATION USING CONVOLUTIONAL NEURAL NETWORKS AND FACIAL LANDMARKS
Abstract and keywords
Abstract (English):
This paper examines methods utilizing Convolutional Neural Networks (CNN) and facial landmark detection using dlibrary to determine psychological personality types described in MBTI and MMPI scales based on analysing 72,000 photographs (profile and frontal views). The authors create an image dataset to evaluate algorithm performance, categorized by combinations of MBTI personality types. The aim of this work is to develop a classification model capable of predicting personality typology from images, employing MBTI and MMPI scales. The paper uses such methods as an original dataset structured into directories corresponding to dichotomy combinations; employs specialized neural networks (VGG, FaceNet) alongside face feature extraction algorithms based on FaceToFate. For assessing the performance of the developed algorithms, the paper uses Accuracy, Recall, Precision, and F1 Score metrics. When exploring the approach using neural networks, binary classification models are implemented. Frontal-view images serve as input for distinguishing between the classes E/I, N/S, and T/P. In the current approach, binary models are trained separately for the first three dichotomy letters using frontal orientation and for the fourth letter using profile orientation. This combination results in an average accuracy of approximately 65%. Additionally, another model is trained to predict the first three letters using embedding vectors generated from pre-trained FaceNet architecture as inputs. This model achieves an average accuracy of roughly 33%. Furthermore, convolutional neural networks (CNNs) are also applied to train models on MMPI categories. On average, they yield an accuracy level of about 20%. The second approach uses key facial landmarks extracted by the pre-trained dlib framework. Coordinates of facial points are used to compute measurements of facial features such as nose length, eye shape, lip width, and face contours. These extracted features represent the first three dichotomy letters based on frontal images. This method achieves an average accuracy of around 30%. Findings show that overall, when determining MBTI dichotomies from images accounting for face orientation, the best performance is observed using binary classification models.

Keywords:
CNN, MBTI, MMPI, image dataset, dlib, classification mode
Text
Text (PDF): Read Download

Введение

Типология Майерс-Бриггс (MBTI) – это популярная психологическая концепция, основанная на теории личности Карла Юнга [7]. Она предлагает уникальный взгляд на то, как мы воспринимаем мир и принимаем решения.

MBTI выделяет 16 различных типов личности, каждый из которых определяется сочетанием четырех дихотомий:

  • экстраверсия/интроверсия (E/I),
  • интуиция/сенсорика (N/S),
  • мышление/чувство (T/F)
  • суждение/восприятие (J/P).

MBTI нашла широкое применение в различных сферах, от карьерного консультирования до построения эффективных команд. Зная свой тип личности по MBTI, люди могут лучше понять свои сильные стороны и предпочтения, а также выявить области для развития. Кроме того, эта типология помогает улучшить коммуникацию в межличностных отношениях, поскольку позволяет людям осознать различия в их восприятии мира.

Наряду с MBTI, классическим способом оценки личности считается шкала MMPI (Миннесотский многофазный личностный опросник). MMPI – это объективный психологический тест, направленный на выявление различных психологических особенностей, включая клинически значимые симптомы. Он основан на эмпирическом подходе и охватывает широкий спектр черт личности, от тревожности до психопатических тенденций. MMPI даёт возможность оценить психическое здоровье и выявить потенциальные проблемы, в то время как MBTI скорее помогает понять свои сильные стороны и предпочтения в межличностных отношениях и профессиональной деятельности.

Как правило в MMPI выделяют 8 клинических шкал:

1. Шизоидный (Sc)

2. Нарцисс (Ma)

3. Параноидальный (Pa)

4. Компульсивный (Pt)

5. Психопатический (Pt)

6. Истерический (Hy)

7. Депрессивный (D)

8. Мазохистический (Hs)

Базовым методом определения типа личности является анкетирование. Однако результаты определения типологии, таким образом, могут существенно варьироваться в зависимости от времени проведения теста, настроения испытуемого, формулировки вопросов, искажения ответов в значимых ситуациях (когда от ответов на тест, например, зависит трудоустройство) [2].

По мере развития современных технологий в психодиагностике открываются новые горизонты для более точного и глубокого понимания человеческой личности. В частности, появляются инновационные методы определения типологий MBTI и MMPI основанные на технологии машинного обучения и искусственного интеллекта. В работах Самойловой Л. (2024) [1], предлагается прогнозировании типов личности на основе текстовых постов пользователей социальных сетей и рекуррентных нейронных сетей. В работе [6] исследуется применение методов машинного обучения, таких как "Наивный Байес" и ансамблевые методы, для определения психологических типов людей по MBTI на основе их текстовых сообщений в социальных сетях на казахском языке.

А Мэк Фулфер (2004) [3] в своей книге “Искусство чтения по лицу”, в которой опираясь на многочисленные примеры и исследования, показывает, что между внешним обликом человека и его внутренним миром существует тесная связь, давая основание для предположения что если специалисты могут составлять психологические портреты по фотографиям, а нейросети успешно применяются для идентификации личности по изображениям, то психотип человека можно предсказывать по фотографии.

В работе [8], используя данные из социальной сети Instagram, авторы разработали модель, способную с точностью 55% классифицировать пользователей по шкале MBTI на основе анализа их фотографий. Результаты исследования свидетельствуют о возможности автоматизированной оценки типа личности без необходимости прохождения традиционных психологических тестов.

В целом, следует помнить, что несмотря на способ оценивания, саму типологию нужно рассматривать только лишь как направление на раскрытия потенциала людей, а результаты требуют проверки и верификации специалистов.

На сегодняшний день сложилось противостояние нескольких моделей стуктуры личности в психологии. Исторически первой появилась классификация MBTI, потом MMPI. Эти классификации более популярны в бизнесе. Сегодня в научной сфере чаще используется концепция Big Five В работе [5] была показана возможность консолидации всех трех моделей. В определенном смысле Big Five = MBTI + MMPI. Можно предположить, что эмоциональная стабильность или не стабильность Big Five описывается 8 типами характера MMPI. Тогда у каждого из 16 типов личности MBTI будут 8 вариаций с типом характера MMPI. То есть вариантов сочетаний 16*8 становится уже 128.

 

Таблица 1.

Модели MBTI, Big Five и MMPI

Table 1.

MBTI, Big Five, and MMPI models

 

Ранее с участием студентов ИРИТ делали работу по определению MMPI. [4].  Тогда исходно использовали 44 000 фотографий. При этом у одного человека могло быть 2–3 фото. После процедуры обрезки фото (овал лица) остались годными уже 40 581 фото. Примерно, по 4 000 фото на каждый ТХ. Созданный нами проверочный датасет показал 30% правильных ответов, что сравнимо с процентами, полученными при бумажном тестировании.

Проблема исследования. ВЦИОМ каждые 2 года делает мониторинг доли выпускников, не работающих по специальности после окончания Вуза. Как правило, цифры получаются в интервале 58-63%. То есть, около 2/3 выпускников не работают по специальности. В 2014 году Полозов А.А. создал сайт для профессионального тестирования – profurfu.ru. Для определения будущей профессии оказались нужны данные абитуриента по MBTI и MMPI. Тип личности MBTI определяет направленность интересов личности. Тип характера MMPI определяет специфику взаимоотношения с окружающими, стиль поведения.  Главное затруднение состояло в том, что только 15-25% студентов определяли свои MBTI MMPI верно и при повторном тестировании уже своего мнения не меняли. Сложность задачи легко понять если представить себе сочетания шизоидный экстраверт или истерический интроверт. В итоге фотографии прошедших двойное тестирование стали исходной точкой накопления датасета. Поскольку проблема не решена, то любой профориентационный тест приносит больше вреда чем пользы. Абитуриент сам ошибается в самоидентификации, а тест дает ему по запросу неверную рекомендацию. Поэтому необходимо определить направление, способ решения данной задачи, необходимый инструментарий.

Цель исследования - получить модель, определяющая по фотографии типологии пользователя по шкалам MBTI и MMPI

Задачи исследования

Для достижения поставленной цели необходимо исследовать подходы с использованием нейронных сетей и использованием ключевых точек лица. При использовании нейронных сетей, необходимо определить оптимальное количество моделей необходимых для получение качественного результата, методы дополнительного извлечения признаков из фотографии, оптимальную архитектуру сети. Подход, использующий ключевые точки требует формализации количества измерений, формирования критериев для определения итогового класса.

  1. Материалы, модели, эксперименты, методы и методики

Сбор данных является одним из наиболее значимых этапов в рамках реализации проектов в сфере машинного обучения. Поэтому первым шагом стало создание датасета, который позволял бы определять не только MBTI, но и MMPI типы личности. С помощью экспертной оценки, тестированию добровольцев и поиску открытых источников удалось сформировать датасет из 72 000 изображений разделенный по все возможным сочетаниям типов дихотомий. Всего было сформировано 128 директорий, соответствующие всем возможным сочетанием дихотомий. По мере необходимости, при решении задачи с помощью разных подходов, структура данных форматировалась в соответствии классам. На рисунке 1 приведён пример изображений датасета.

 

Рис. 1. Примеры фото из датасета

Fig 1. Examples of photos from the dataset

Для решения задачи определения типа личности было реализовано несколько подходов. Первый основан на использовании алгоритма определения ориентации лица (фас, профиль) и модели классификации психотипа. Второй подход основан на определении наличия у человека характерных для каждого типа черт лица и финальной классификации на основе полученной информации.

Подход, основанный на определении ориентации лица и модели классификации

Для решения задачи ориентации лица (фас, анфас, профиль) изображения распределяются по трем папками соответствующие классам. Пример используемых изображений для каждого класса приведен на рисунке 2.

Для расширения набора данных, используемых при обучении моделей добавляются следующие аугментации (в случайных комбинациях):

- поворот изображения на углы от 0 до 20 градусов;

- смещение по горизонтали до 20% от исходной ширины;

- смещение по вертикали до 20% от исходной высоты;

- горизонтальное отражение;

- масштабирование на случайную величину из диапазона [0; 0.2].

Рис. 2. Примеры классов: анфас, фас, профиль

Fig 2. Examples of classes: full face, en face, profile

В основе задачи определения ориентации лица лежит архитектура сверточной нейронной сети (CNN). Это модель глубокого обучения, предназначенная для обработки структурированных данных, похожих на сетку, таких как изображения. Оно состоит из нескольких слоев, включая сверточный, пулинговый и полносвязный. CNN очень эффективны для таких задач, как классификация изображений, обнаружение объектов и сегментация изображений, благодаря своим возможностям извлечения иерархических признаков. Сверточные слои модели позволяют извлекать локальные признаки из изображений, такие как края, текстуры и формы, а пулинговые слои сокращают размерность данных и делают модель более инвариантной к пространственным преобразованиям [Nigam]. Использованная архитектура нейронной сети состоит из

- входного слоя 256x256,

- трех последовательных блоков, состоящих из

- сверточных слоёв с увеличивающимися размерами фильтра от 32 до 256, фиксированным размером ядра равный 3 с шагом 1 и функцией активации «ReLU»

- слоёв MaxPooling.

Для предотвращения переобучения добавляется слой Dropout с параметром 0.5, обеспечивающий фильтрацию избыточной информации. Логистическая сигмоида используется в качестве финального активационного слоя для определения класса. В качестве алгоритма оптимизации обучения модели используется метод Адама с коэффициентом 0,001.

Классификации психотипа с помощью бинарных моделей

Подход основан на определении каждой буквы MBTI с помощью бинарной классификации — четыре нейросети, каждая из которых отвечает за одну из двух букв дихотомий: E/I, N/S, T/F, J/P. Для определения первых трех букв типа личности используются изображения с ориентацией фас, ориентация профиль используется для определения четвертого типа дихотомии. Такой подход максимально согласуется с описанными в работе [3] чертами лица каждого типа личности.

В качестве основы для бинарных моделей берется предобученная модель VGG16 [10] с использованием технологии transfer learning при которой слои, обученные на большом датасете, в нашем случае это ImageNet, извлекают общие признаки (например, края, текстуры). При повторном обучении они замораживаются, то есть остаются фиксированными. Затем к модели присоединяют слои, отвечающие за конкретную задачу, и обучаются на новых данных. Для решения нашей задачи мы присоединили следующие слои:

- слоя Flatten;

- полносвязный слой Dense c Relu активацией;

- слоя DropOut с коэффициентом 0.5;

- слой активации с сигмоивидной функцией.

В качестве алгоритма оптимизации обучения модели используется метод Адама с коэффициентом 0.0001.

Классификация психотипа с помощью многоклассовой модели

В данном подходе первые три буквы дихотомии, использующие фотографии с ориентацией фас, объединяются в одну сверточную нейронную сеть. В качестве входных данных используется не сама фотография, а её эмбэдинг – вектор представляющий фотографию в сжатом евклидовом пространстве. Он вычисляется с помощью предобученной нейронной сети FaceNet [11] представляющей собой сиамскую сеть. Сиамская сеть — тип архитектуры нейросети, который обучается диффиренцированию входных данных. То есть, позволяет научиться понимать какие изображения похожи, а какие нет. Сиамские сети состоят из двух идентичных нейронных сетей, каждая из которых имеет одинаковые точные веса. Каждая сеть принимает одно из двух входных изображений в качестве входных данных. Затем выходы последних слоев каждой сети отправляются в функцию, которая определяет, содержат ли изображения одинаковые идентификаторы. В нашем случае модель пересчитывает изображение в вектор в евклидовом пространстве, таким образом, чтобы все похожие лица были ближе расположены друг к другу.  Вычисленный эмбэдинг подается на вход модели классификации со следующими слоями:

- входной слой размером 128;

- полносвязный слой, размером 256, с активацией Relu;

- слой нормализации;

- слой DropOut;

- полносвязный слой размером 128, с активацией Relu;

- слой нормализации;

- слой DropOut;

- полносвязный слой размером 128, с активацией SoftMax;

В качестве алгоритма оптимизации обучения модели используется метод Адама с коэффициентом 0.001.

Классификация психотипа по шкале MMPI с помощью многоклассовой модели

Определение дихотомии по MMPI шкале реализовано с помощью сверточной нейронной сети со следующей архитектурой:

- входной слой размером 224х224х3

- три блока слоёв свертки c увеличением количества фильтров от 32 до 128 и MaxPooling

- полносвязный слой с активацией Relu

- слой DropOut с коэфициентом 0,5

- полносвязный слой с активацией SoftMax и количеством классов

При обучении модели предварительно фильтровались фотографии с ориентацией фас.

Подход с использованием классификации MBPI по ключевым характеристикам лица

Подход использует формализацию основных признаков черт лица по шкале MBTI. Например, чаще всего, типу с классом E присущи такие черты лица как полные губы и широкий нос в отличии от интровертов. Таким образом, выделены классы для каждой черты лица:

- нос: длинный, маленький, широкий

- глаза: большие, узкие, маленькие

- брови: дугообразные, круглые, прямые,

- форма лица: круглая, овальная, квадратная, треугольная

- губы: средние, узкие, толстые

На фотографиях с помощью фреймворка dlib предварительно определяются 68 ключевых точек на лице. Пример точек приведен на рисунке.

 

Рис. 3. Ключевые точки лица

Fig. 3. Key points of the face

 

 Затем производится вычисление следующих размеров:

  • Ширина лица/рта/носа (пиксели)
  • Расстояние между глазами (пиксели)
  • Расстояние между глазами и бровями(пиксели)
  • Длина лица/носа (пиксели)

Пример вычисления приведен на рисунке 4.

 

 

Рис 4. Измерения черт лица

Fig 4. Facial Features Measurements

 

По найденным значениям выносится оценка принадлежности к классу. Затем по каждой букве дихотомии производится оценка наличия присущей черты лица и выносится итоговый балл.

Примером затруднения в оценке выделенных признаков является верхняя губа (Рис. 5). Если толщина верхней и нижней губы равны или близки, то речь идет об экстраверсии. Однако это очевидно если точка фотографирования находится прямо напротив верхней губы. Смещение этой точки вверх или вниз может давать неверный ответ.

 

Рис. 5. Изменение восприятия толщины верхней губы при фото с верху и снизу

Fig. 5. Change in the perception of the thickness of the upper lip when photographed from above and below

 

  1. Результаты

Обучение модели определения ориентации лица проводилась на 200 эпохах с использованием 2000 фотографий. Средняя метрика при валидации достигла 81%. В таблице 1 представлены метрики Recall, Precision и F1.

 

Таблица 2.

Метрики качества модели классификации ориентации лица

Table 2.

Quality metrics of the face orientation classification model

Метрики

Class1(Анфас)

Class2(Фас)

Class3(Профиль)

Recall

0.68

0.85

0.93

Precision

0.75

0.75

0.99

F1

0.72

0.80

0.96

accuracy

0.81

Изображений в тестовом наборе

300

 

Бинарные модели обучались в течение 200 эпох, при оценке качества были использованы 1460 изображений для каждой модели. Метрики качества бинарных моделей для классов E/I, N/S, F/T представлены в таблицах 1, 2, 3, 4.

 

Таблица 3.

Бинарная модель классификации для классов E/I.

Table 3.

Binary classification model for classes E/I.

 

Metrics

Train

Class1 (E)

Class2 (I)

Recall

0.94

0.84

Precision

0.86

0.94

F1

0.90

0.89

AUC

0.65

Accuracy

0.65

 

Таблица 4.

Бинарная модель классификации для классов N/S.

Table 4.

Binary classification model for N/S classes.

Метрики

Class1 (N)

Class2 (S)

Recall

0.95

0.83

Precision

0.85

0.94

F1

0.90

0.88

AUC

0.66

Accuracy

0.66

Таблица 5.

Бинарная модель классификации для классов F/T.

Table 5.

Binary classification model for F/T classes.

Метрики

Class1 (F)

Class2 (T)

Recall

0.96

0.79

Precision

0.82

0.95

F1

0.88

0.86

AUC

0.64

Accuracy

0.64

 

 

Для классификации классов J/P типов использовалась модель с использованием эмбединга и полносвязных слоев. Полученные метрики приведены в таблице 4.

 

Таблица 6.

Бинарная модель классификации для классов J/P.

Table 6.

Binary classification model for J/P classes.

Train

Class1 (J)

Class2 (P)

Recall

0.92

0.77

Precision

0.80

0.90

F1

0.86

0.83

AUC

0.58

Accuracy

0.57

 

Модель классификации с 8 классами MBTI для изображений с ориентацией фас продемонстрировала метрики качества представленные в таблице 5.

 

Таблица 7.

Метрики качества модели с 8 классами MBTI

Table 7.

Quality metrics for models with 8 MBTI classes

Class

Recall

Precision

F1

ENF

0.31

0.3

0.31

ENT

0.31

0.31

0.31

ESF

031

0.32

0.31

EST

0.33

0.31

0.32

INF

0.35

0.3

0.32

INT

0.27

0.34

0.3

ISF

0.38

0.3

0.34

IST

0.24

0.36

0.28

 

Модель классификации 8 классов MMPI на основе сверточных слоев, слоев maxPooling, полносвязного слоя, слоя регуляризации и функцией активации softmax обученная на 10 эпохах продемонстрировала метрики качества представленные в таблице 6.

 

Таблица 8.

Метрики качества модели с 8 классами MBTI

Table 8.

Quality metrics for models with 8 MBTI classes

Train

Recall

Precision

F1

Accuracy

Депрессивный

0.04

0.09

0.05

0.2059

Истерический

0.10

0.13

0.12

Компульсивный

0.05

0.14

0.07

Мазохистический

0.05

0.13

0.08

Нарциссический

0.03

0.10

0.04

Параноидальный

0.07

0.11

0.09

Психопатический

0.56

0.18

0.28

Шизоидный

0.10

0.12

0.11

 

Оценка метода использующий ключевые точки лица производилась на фотографиях с ориентацией Фас для 3 букв дихотомий по шкале MBTI. Полученные метрики приведены в таблице 7.

 

Таблица 9.

Бинарная модель классификации для классов E/I.

Table 9.

Binary classification model for classes E/I.

Класс

Accuracy

Recall

Precision

E

0.51

0.31

0.30

I

0.51

0.31

0.30

N

0.50

0.12

0.13

S

0.50

0.12

0.13

F

0.47

0.29

0.28

T

0.47

0.29

0.28

 

Заключение

Для решения поставленной цели были исследованы подходы с использованием сверточных нейронных сетей и ключевых точек лица.

При исследовании подхода с использованием нейронных сетей были реализованы бинарные модели использующие в качестве входа изображения в фас для определения классов E/I, N/S, T/P. Для этого создана и обучена дополнительная модель классификации ориентации лица на фотографии по трем классам: анфас, фас, профиль. При обучении модель был достигнута средняя точность 81%. В текущем подходе были обучены бинарные модели для определения классов дихотомий по первым трем буквам с ориентацией фас и четвертая буква по ориентации профиль. Этот вариант обеспечил среднюю точность порядка 65%. Также обучены модель по трем первым буквам с использованием эмбединга в качестве входных данных. Он вычислялся на основе изображений с использованием предобученной сети FacеNet. Такое решение показала среднюю точность 33%.  Сверточные нейронные сети так же применялись пир обучении модели по классам MMPI. Средняя точность при этом составила порядка 20%.

Второй подход использовал ключевые точки определяемые предобученной модель фреймворка dlib. По полученным координатам были определены размеры и характеристики черт лица: нос, глаза, рот, форма лица. Полученные классы характеризовали первые три буквы дихотомии по фотографиям с ориентацией фас. Такое подход обеспечил среднюю точность порядка 30%.

В результате поставленные задачи были выполнены и первый подход с использованием бинарных моделей сверточных нейронных сетей с предварительным определением ориентации лица показал лучшие результаты. Представленный результат может служит дополнительным источником информации в случае выбора направления в профессии или определения методов обучения, а также может открыть новые возможности в жизни человека, помогая лучше понять свой внутренний мир.

References

1. Samoilova L., Danilovsky V.M. Prediction of Personal Characteristics MBTI Using Recurrent Neural Network LSTM and Text Data of Social Networks. Vestnik Nauki. 2024;4-6(75):1176-1184.

2. Shmelev A.G. No Longer Socionics, But Not Yet Differential Psychology. Bulletin of the South Ural State University. Series: Psychology. 2010;27(203):104-108.

3. Fulfer M. Amazing Face Reading. Samsonov PA, translator. Minsk: Popourri; 2004. 176 p.

4. Polozov A.A., Stark M.P., Polozova K.A., et al. Determining of Person’s Character Type by Convolutional Neural Network (Using the MMPI Methodology). Models, Systems, Networks in Economics, Technology, Nature and Society. 2023;1:149-163. DOIhttps://doi.org/10.21685/2227-8486-2023-1-10.

5. Polozov A.A. Modules of Psychological Structure in Sports. Moscow: Sovetsky Sport; 2009. 400 p.

6. Myngzhassar A., Kuldzhabekov A.B., Daribayev S., Temirbekov A.N. Using Machine Learning Methods to Determine Myers-Briggs Type Index (Mbti) Types of People. Bulletin of the National Engineering Academy of the Republic of Kazakhstan. 2021;1(79):32-39. DOIhttps://doi.org/10.47533/2020.1606-146x.58.

7. Myers I.B., Myers P.B. Gifts Differing: Understanding Personality Type. Mountain View, CA: Davies-Black Publishing; 1980. 263 p.

8. Mussayeva D, Kuandykova A, Talasbek A, et al. MBTI Type Prediction Using Images from Instagram. Herald of the Kazakh-British Technical University. 2021;18(3):42-45. DOIhttps://doi.org/10.55452/1998-6688-2021-18-3-42-45.

9. Nigam V. Understanding Neural Networks. From Neuron to RNN, CNN, and Deep Learning [Internet]. 2018 [cited 2020 Feb 17]. Available from: https://towardsdatascience.com/understanding-neural-networks-from-neuron-to-rnn-cnn-and-deep-learning-cd88e90e0a90.

10. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. 2015. DOIhttps://doi.org/10.48550/arXiv.1409.1556.

11. Schroff F., Kalenichenko D., Philbin J. FaceNet: A Unified Embedding for Face Recognition and Clustering. 2015. DOIhttps://doi.org/10.48550/arXiv.1503.03832.

Login or Create
* Forgot password?