Чтобы понять мир, машинам нужны обучающие данные, что делает обучающие данные основным требованием для любой модели машинного обучения. Эффективность нашей модели в значительной степени зависит от качества и информации, предоставленной в обучающем наборе. Хотя большинство задач после качественного тренировочного набора могут выполняться машинами, нам определенно нужен человеческий интеллект для выполнения задач по сбору тренировочных данных, таких как:

  • определение объектов на фото или видео,
  • транскрибирование аудиозаписей или изучение деталей данных.

Это становится еще сложнее, когда у нас есть огромная коллекция данных (в современном мире больших данных мы должны ожидать, что данные будут храниться в гигабайтах, если уже не в терабайтах). Традиционно подобные задачи выполнялись путем найма большой временной рабочей силы, что отнимало много времени, было дорого и трудно масштабировалось, либо не выполнялось.

Краудсорсинговые платформы очень удобны в таких ситуациях. Две популярные платформы, о которых нужно знать:

  1. Механическая задача Amazon. Amazon Mechanical Turk (MTurk) управляет торговой площадкой для работы, требующей человеческого интеллекта. Веб-сервис MTurk позволяет компаниям программно получать доступ к этому рынку и разнообразной рабочей силе по запросу. Разработчики могут использовать этот сервис для встраивания человеческого интеллекта непосредственно в свои приложения.
  2. Рисунок 8. Платформа Figure 8 преобразует неструктурированные данные из реального мира — текст, изображения, аудио, видео — в высококачественные крупномасштабные структурированные обучающие наборы данных в масштабе предприятия.

Теперь вы можете расслабиться и отдохнуть, когда объем данных огромен. Вам просто нужно обратиться к одной из вышеперечисленных платформ Crowd Sourcing, и ваша задача будет выполнена с гораздо меньшими затратами и временем выполнения по сравнению с традиционными подходами.

Использованная литература:

[1] https://www.mturk.com/

[2] https://www.figure-eight.com/platform/training-data/