Фрагмент для ознакомления
2
ВВЕДЕНИЕ
Методы машинного обучения применяются в разнообразных областях и помогают решать множество задач: от обнаружения спама и актов мошенничества до распознавания и генерации изображений и музыкальных композиций. Важным и перспективным применением методов машинного обучения является анализ данных кадровой службы предприятия. В частности, оценка при приеме на работу, прогнозирование карьеры, оценка возможности увольнения, эмоционального выгорания и т.п.
На сегодняшний день в отделе кадров накапливаются огромные массивы разнородных данных, а с совершенствованием и внедрением новых технологий, в том числе компьютерных, скорость их накопления постоянно растет. Большую роль играют текстовые и числовые данные,
находящиеся в документах сотрудников. В связи с этим существует потребность в их обработке и анализе, а также применения методов искусственного интеллекта для получения новых знаний.
Выявление эмоционального выгорания сотрудников популярной задачей классификации.
Следовательно, целью исследования дипломной работы выступает создание автоматического классификатора с применением методов машинного обучении. Для достижения
цели поставлены следующие задачи:
Провести обзор задач машинного обучения и существующих решений;
Формализовать задачу анализа данных кадровой службы;
Провести обзор и выбрать средства разработки для анализа данных кадровой службы предприятия;
Цель работы – Исследование методов машинного обучения для выявления выгорания сотрудников.
Объект исследования – методы машинного обучения.
Предмет исследования – алгоритмы машинного обучения для классификации выгорания сотрудников предприятия.
Актуальность данной работы обуславливается необходимостью
выявления мнений и настроений сотрудников.
Практическая значимость исследования состоит в подборе и описании таких методов машинного обучения, которые помогут отделу кадров предсказывать выгорание сотрудников.
1. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В УПРАВЛЕНИИ ПЕРСОНАЛОМ ПРЕДПРИЯТИЯ
1.1 Задачи машинного обучения
Из-за появления возможности машинного обучения (ML) программист теперь может не разрабатывать все инструкции, которые учитываю все возможные проблемы и выводящие все решения. Взамен этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного поиска решения задачи методом комплексной обработки статистических данных, из которых выводятся закономерности и далее на основе которых делаются прогнозы.
Технология машинного обучения на основе анализа данных зародилась 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетия общий принцип работы не изменился. На сегодня, благодаря взрывному росту вычислительных ресурсов компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.
Для запуска процесса машинного обучение необходимо поместить в компьютер Датасет (некоторое количество исходных данных), на основе которых алгоритм будет учиться обрабатывать запросы и находить взаимосвязи между данными. Например, могут быть представлены фотографии собак и кошек, на которых присутствуют метки, обозначающие к какому именно виду животных эти фото относятся. После процесса обучения, программа может самостоятельно узнавать собак и котов на новых изображениях. Обучение продолжается и после выдачи прогнозов, чем больше обучающих данных мы передали в программу, тем более точно она работает и выполняет свои задачи.
С помощью алгоритмов машинного обучения компьютеры учатся определять на фото и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что применительно текста, то и здесь активно применяется машинное обучение: возможность проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Кроме того, уже существует программное обеспечение, способное в отсутствие человека генерировать новостные статьи (на тему экономики и, к примеру, спорта).
Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий:
классификация - определение класса объекта по его характеристикам. В этой задаче множество возможных классов заранее известно.
Регрессионная задача - прогнозирование значения числовой переменной (обычно называемой зависимой переменной) на основе значений одной или нескольких переменных-предикторов (независимых переменных), которые могут быть числовыми или категориальными. Например, можно спрогнозировать годовой доход человека на основе его возраста, пола (мужского или женского) и уровня образования.
Задача ассоциации. При поиске ассоциативных правил цель - определение определенных зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости могут быть представлены в виде правил и используются как для лучшего понимания анализируемых данных, так и для предсказания появления неких событий.
Задача кластеризации - найти независимые группы (кластеры) и их характеристики во всем наборе анализируемых данных. Решение этой проблемы приводит к ясности в природе данные. Кроме того, группировка однородных объектов позволяет уменьшить их количество и тем самым облегчить анализ.
Обучение с учителем (англ. Supervised learning) – один из способов машинного обучения, здесь программа принудительно обучается с помощью примеров «пример-ответ». То есть имеется учитель, который знает правильный ответ. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между входами и эталонными выходами (пример-ответ) может существовать некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов – пар «пример-ответ», которая называется обучающей выборкой. На основе этих данных требуется восстановить зависимость (построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов, так же как и в обучении на примерах, может вводиться функционал качества.
Данный эксперимент является одним из случаев кибернетического эксперимента с обратной связью. Постановка данного эксперимента предполагает наличие экспериментальной системы, метода обучения и метода испытания системы или измерения характеристик.
Экспериментальная система в свою очередь состоит из испытываемой (используемой) системы, пространства стимулов, получаемых из внешней среды, и системы управления подкреплением (регулятора внутренних параметров). В качестве системы управления подкреплением может быть использовано автоматическое регулирующие устройство (например, термостат) или человек-оператор (учитель), способный реагировать на реакции испытываемой системы и стимулы внешней среды путём применения особых правил подкрепления, изменяющих состояние памяти системы.
Различают два варианта: (1) когда реакция испытываемой системы не изменяет состояние внешней среды, и (2) когда реакция системы изменяет стимулы внешней среды. Эти схемы указывают принципиальное сходство такой системы общего вида с биологической нервной системой.
Обучение без учителя (самообучение, спонтанное обучение, англ.
Unsupervised learning) - один из способов машинного обучения, при котором испытуемая система самостоятельно обучается выполнять поставленную задачу без вмешательства извне. Это также один из видов кибернетического эксперимента. Как правило, это пригодно только для задач, в которых известны описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задается «правильный ответ», и требуется найти зависимость между стимулами и реакциями системы.
Обучение с подкреплением (англ. Reinforcement learning) - один из способов машинного обучения, при котором обучается тестовая система (агент), взаимодействующая с некоторой средой. С точки зрения кибернетики, это своего рода кибернетический эксперимент. Реакция среды (а не специальной системы управления подкреплением, как это имеет место в обучении учителей) на принимаемые решения являются сигналами подкрепления, поэтому такое обучение является частным случаем обучения учителей, но учитель-это среда или ее модель.
Следует также иметь в виду, что некоторые правила подкрепления основаны на имплицитном учителе, например, в случае
искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к неконтролируемому обучению.
Агент влияет на среду, а среда влияет на агента. Говорят, что такая система имеет обратную связь. Такую систему следует рассматривать как единое целое, и поэтому разграничительная линия между средой и агентом достаточно условна. Конечно, с анатомической или физической точки зрения между средой и агентом (организмом) существует определенная граница, но если рассматривать эту систему с функциональной точки зрения, то деление становится нечетким.
Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, формирующего кусок мрамора, либо частью материала, которым пытается манипулировать нервная система.
1.2. Интерактивный анализ данных кадровой службы предприятия. Существующие решения.
Современные системы поддержки принятия решений используют в своей работе следующие технологии: хранилища данных, инструменты оперативной аналитической обработки информации (On-Line Analytical Processing), инструменты извлечения данных (Data Mining), текстов (Text Mining) и визуальных образов (Image Mining), а также имитационное моделирование, искусственные нейронные сети и методы искусственного интеллекта.
Принятие решения происходит в результате действия человека в роли управляющего звена
Фрагмент для ознакомления
3
1. Айвазян С.А. Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян [и др.]. – М.: Финансы и статистика, 1989. – 607 с.
2. Вандерплас Д. Python для сложных задач: наука о данных и машинное обучение. – СПб.: Питер, 2018. – 576 с.
3. Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей / А.Н. Горбань // Сиб. журн. вычисл. математики. – 1998. – Т. 1, № 1. – С. 11–24.
4. Кобзарь А. И. Прикладная математическая статистика. – М.: Физматлит, 2006. – 626–628 с.
5. Кохонен Т. Самоорганизующиеся карты / пер. 3-го англ. изд. – М.: БИНОМ. Лаборатория знаний, 2014. – 655 с.
6. Кочетов А.Г. Методы статистической обработки медицинских данных: Методические рекомендации для ординаторов и аспирантов медицинских учебных заведений, научных работников / А.Г. Кочетов [и др.]. – М.: РКНПК, 2012. – 42 с.
7. Фадеев П.А. Болезни почек. Пиелонефрит. – М.: Мир и Образование, 2011. – 180 с.
8. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А.А. Слинкина. – М.: ДМК Пресс, 2015. – 400 с.
9. Хайкин С. Нейронные сети: Полный курс / пер. с англ. Н.Н. Куссуль, А.Ю. Шелестова. – 2-е изд., испр. – М.: Издательский дом Вильямс, 2008. – 1103 с.
10. Bauer E. An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants / E. Bauer, R. Kohavi // Machine Learning. – 1999. – P. 105–139.
11. Boughorbel S. Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric / S. Boughorbel, F. Jarray, M. El-Anbari // PLoS ONE 12(6). – 2017. – 17 p.
12. Breiman L. Bagging Predictors / L. Breiman // Machine Learning. – 1996. – P. 123–140.
13. D’Agostino R.B. An omnibus test of normality for moderate and large sample size / R.B. D’Agostino // Biometrika. – 1971. – Vol. 58, No. 2. – P. 341–348.
14. Gopika S. Machine learning Approach of Chronic Kidney Disease Prediction using Clustering Technique / S. Gopika, Dr.M. Vanitha // International Journal of Innovative Research in Science, Engineering and Technology. – 2017. – Vol. 6, No. 7. – P. 14488–14496.
15. Hornik K. Approximation Capabilities of Muitilayer Feedforward Networks / K. Hornik // Neural Networks. – 1990. – Vol. 4. – P. 251–257.
16. Kazemi Y. A novel method for predicting kidney stone type using ensemble learning / Y. Kazemi, S.A. Mirroshandel // Artificial Intelligence in Medicine. – 2017. – Vol. 79, No. 3. – P. 1696–1707.
17. Lambodar J. Distributed Data Mining Classification Algorithms for Prediction of Chronic Kidney Disease / J. Lambodar, K. Narendra // International Journal of Emerging Research in Management and Technology. – 2015. – Vol. 4, No. 11. – P. 110–180.
18. Ramya S. Diagnosis of Chronic Kidney Disease Using Machine Learning Algorithms / S. Ramya, N. Radha // International Journal of Innovative Research in Computer and Communication Engineering. – 2016. – Vol. 4, No. 1. – P. 812–820.
19. Scott D.W. On Optimal and Data-Based Histograms / D.W. Scott // Biometrika. – 1979. – Vol. 66, No. 3. – P. 605–610.
20. United States Patent № US 7,657,521 B2, 02.02.2010. System and method for parsing medical data [text] / Fred E. Masarie, Stuart Lopez, Michael I. Lieberman // United States Patent № US 7657521 B2. 2010.
21. Yoruk U. Automatic Renal Segmentation for MR Urography Using 3D-GrabCut and Random Forests / U. Yoruk, B.A. Hargreaves, S.S. Vasanawala // International Society for Magnetic Resonance in Medicine. – 2017. – Vol. 79, No. 3. – P. 1696–1707.
22. Documentation of scikit-learn 0.19.1 [Электронный ресурс]. – URL: http://scikit-learn.org/stable/documentation.html
23. Documentation Apache POI [Электронный ресурс]. – URL: https://poi.apache.org/apidocs/index.html
24. Hyndman R.J. The problem with Sturges’ rule for constructing [Электронный ресурс]. – URL: https://robjhyndman.com/papers/sturges.pdf
25. Воронцов К.В. Лекции по алгоритмическим композициям. – 2007. – 45 с. [Электронный ресурс]. – URL: http://www.ccas.ru/voron/download/Composition.pdf
26. Воронцов К.В. Лекции по логическим алгоритмам классификации [Электронный ресурс]. – URL: http://www.ccas.ru/voron/download/LogicAlgs.pdf
27. Воронцов К.В. Математические методы обучения по прецедентам. – 2007. – 141 с. [Электронный ресурс]. – URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf