Читать онлайн полностью бесплатно Джейд Картер - Машинное обучение

Машинное обучение

Книга представляет комплексное руководство по применения МО в сфере бизнеса. Автор исследует различные аспекты МО и его роль в современных бизнес-процессах, а также предлагают практические рекомендации по использованию этих технологий для достижения конкурентных преимуществ и улучшения результатов.

Книга издана в 2023 году.

Список сокращений

1. МО – машинное обучение

2. ИИ – искусственный интеллект

3. СЗ – супервизированное обучение

4. БЗ – безнадзорное обучение

5. ПЗ – полузаданные обучение

6. НС – нейронная сеть

7. SVM – метод опорных векторов

8. RF – случайный лес

9. CNN – сверточная нейронная сеть

10. RNN – рекуррентная нейронная сеть

11. MLP – многослойный персептрон

12. SGD – стохастический градиентный спуск

13. NLP – обработка естественного языка

14. CV – компьютерное зрение

15. DL – глубокое обучение

16. ROI – возврат инвестиций

17. KPI – ключевые показатели эффективности

18. CRM – управление взаимоотношениями с клиентами

19. ERP – система планирования ресурсов предприятия

20. BI – бизнес-аналитика


Глава 1: Введение в машинное обучение и его роль в бизнесе

1.1. Основные понятия и термины в машинном обучении

Обучение с учителем – форма машинного обучения, где системе предоставляется обучающая выборка с входными данными и соответствующими выходными значениями.

Признаки – характеристики или свойства объектов, которые описывают данные.

Метки (выходные значения, целевые переменные) – значения, которые система должна предсказывать или классифицировать на основе входных данных.

Модель – математическая функция, которая принимает входные данные и выдает предсказания или классификации.

Обучение – процесс, в ходе которого модель настраивается на основе обучающей выборки для минимизации ошибки предсказания.

Тестирование – процесс оценки производительности модели на новых данных, не участвующих в обучении, с целью оценки ее обобщающей способности.

Переобучение – состояние модели, когда она становится слишком сложной и настраивается на шум в данных, в результате чего ее способность обобщения страдает.

Недообучение – состояние модели, когда она слишком проста и не способна выявить сложные закономерности в данных, что приводит к низкой производительности на новых данных.

Гиперпараметры – параметры модели, которые задаются вручную перед началом обучения и влияют на ее поведение и производительность, например, скорость обучения, количество эпох и размер скрытых слоев в нейронной сети.

Алгоритмы обучения – методы и процедуры, используемые для обучения моделей на основе обучающих данных, например, линейная регрессия, метод опорных векторов (SVM), деревья решений, нейронные сети и другие.

Регуляризация – техника, используемая для предотвращения переобучения модели путем добавления штрафов или ограничений на значения параметров модели.

Кросс-валидация – метод оценки производительности модели, который заключается в разделении обучающей выборки на несколько подмножеств (фолдов) для обучения и тестирования модели, с последующим усреднением результатов.

Метрики оценки – числовые значения, используемые для измерения качества предсказаний модели, например, точность, полнота, F-мера, среднеквадратическая ошибка (MSE) и другие.

Разделение выборки – процесс разбиения общего набора данных на обучающую, тестовую и, иногда, валидационную выборки для обучения, тестирования и настройки модели соответственно.

Размер выборки – количество образцов данных, доступных для обучения модели.

Препроцессинг данных – этап подготовки данных перед обучением модели, включающий операции, такие как нормализация, масштабирование, заполнение пропущенных значений, кодирование категориальных признаков и другие.

Распределение данных – статистическая характеристика данных, которая описывает их вероятностные свойства, такие как среднее значение, дисперсия и форма распределения.

Ансамбли моделей – методы, которые объединяют предсказания нескольких моделей для получения более точного и устойчивого результата, например, бэггинг, случайный лес и градиентный бустинг.

Большие данные – наборы данных, которые характеризуются объемом, разнообразием и скоростью обновления, требующие специальных подходов и инструментов для их анализа и обработки.

Параметры модели – внутренние настраиваемые переменные, которые определяют ее поведение и способность предсказывать выходные значения. При обучении модели параметры настраиваются таким образом, чтобы минимизировать ошибку предсказания.

Функция потерь – математическая функция, которая измеряет расхождение между предсказанными и фактическими значениями модели. Цель обучения заключается в минимизации значения функции потерь.

Градиентный спуск – метод оптимизации, используемый для настройки параметров модели путем поиска оптимальных значений, исходя из градиента функции потерь. Градиентный спуск позволяет модели постепенно приближаться к минимуму функции потерь.

Регрессия – задача машинного обучения, которая связана с предсказанием непрерывных выходных значений на основе входных данных. Например, регрессионная модель может прогнозировать цену недвижимости на основе ее характеристик.

Классификация – задача машинного обучения, которая заключается в присвоении входным данным определенных категорий или классов. Классификационная модель может, например, определять, является ли электронное письмо спамом или не спамом.

Нейронные сети – модели машинного обучения, которые состоят из искусственных нейронов, объединенных в слои. Нейронные сети способны обрабатывать сложные входные данные и выявлять скрытые закономерности. Они широко используются в различных областях, таких как компьютерное зрение и естественный язык.



Другие книги автора Джейд Картер
Ваши рекомендации