Базы данных - MySQL - статьи


Создание модели добычи данных


Процесс создания, обучения и тестирования модели - самая трудная часть создания приложения. На самом деле, создание самого приложения - это простое программирование, мы обсудим это далее в этом документе. Перед тем, как вы начнете создавать модель добычи данных, вы должны собрать ваши данные, скорее всего в хранилище данных, и почистить их. SQL Server 2005 Data Mining может извлекать данные как из реляционной базы данных, так и из кубов Analysis Services.

Наилучшей фигурой для разработки модели добычи данных является сотрудник со знаниями как бизнеса, так и информационных технологий. Разработчику модели поможет знание статистики, понимание ключевых задач бизнеса, с которыми сталкивается предприятие, знание данных и взаимосвязей между ними, а также умение работать с инструментами SQL Server 2005 для манипулирования данными и их сохранения. Таким человеком скорее всего окажется член команды, работающей с хранилищем данных.

Как новичок в области добычи данных, приготовьтесь потратить несколько недель на то, чтобы разобраться с данными, инструментами и альтернативными алгоритмами во время создания прототипа модели. Используйте сервер разработки, на котором у вас будут права администратора базы данных. Начальные этапы создания модели являются исследовательскими - вероятно, вы захотите реструктурировать ваши данные и поэкспериментировать с разными подходами. Также вы скорее всего захотите в начале работать с небольшим набором данных, увеличивая набор данных по мере того, как начнете яснее видеть дизайн модели. В фазе прототипирования не беспокойтесь о создании "промышленного" приложения. Используйте Integration Services или другие инструменты, которые вам наиболее удобны, для выполнения необходимых манипуляций с данными. Ведите журнал с указанием всех необходимых изменений, но не ждите, что все, что вы сделаете, станет частью рабочего приложения.

Вам нужно будет приготовить два набора данных, один для разработки моделей и один для тестирования точности моделей, для того, чтобы выбрать лучшую модель для решения вашей бизнес-задачи. Когда вы будете решать, как выделить набор данных из всех данных, убедитесь, что данные выбираются непредвзято. Например, выбирайте каждого десятого покупателя или выделите набор данных, ориентируясь по первому символу фамилии, или по любому другому атрибуту.


В процессе разработки модели добычи данных требуется сделать выбор в таких вопросах, как:


  • Входной набор данных,
  • Входные поля,
  • Алгоритм добычи данных и
  • Параметры, используемые во время работы этого алгоритма.


Если вы не знаете, какой тип алгоритма лучше использовать для решения вашей бизнес задачи, вам лучше начать с алгоритма деревьев принятия решений или алгоритма Naïve Bayes для исследования данных. Если вы не знаете, какие атрибуты выбрать в виде параметров алгоритма, выберите их все. Используйте окно сетевых зависимостей, чтобы создать представление, которое поможет вам упростить сложную модель.

В течение фазы разработки прототипа модели вам, возможно, захочется создать связанные модели (related models), чтобы оценить их и выбрать лучшие алгоритм и модель. Используйте диаграмму Mining Accuracy для определения, какая модель делает самое точное прогнозирование. Вероятно, вам также захочется создать связанные модели, чтобы провести анализ различными алгоритмами на одном и том же наборе данных. Эти модели отработают быстрее, если будут определены как связанные, а не независимые модели.

Когда вы создадите и протестируете прототип модели, вы можете создать и протестировать реальную модель добычи данных. Если вам понадобится преобразование данных перед их передачей ядру добычи данных, то для этого вам следует разработать рабочий процесс. В некоторых случаях вы можете захотеть заполнить модель добычи данных напрямую из канала Integration Services. Если прототип модели был разработан на основе небольшого набора данных, вам понадобится оценить альтернативные модели еще раз на полном наборе обучающих данных.


Содержание раздела