Платформы краудсорсинга - для человеческого интеллекта в машинном обучении

Чтобы понять мир, машинам нужны обучающие данные, что делает обучающие данные основным требованием для любой модели машинного обучения. Эффективность нашей модели в значительной степени зависит от качества и информации, предоставленной в обучающем наборе. Хотя большинство задач после качественного тренировочного набора могут выполняться машинами, нам определенно нужен человеческий интеллект для выполнения задач по сбору тренировочных данных, таких как:

определение объектов на фото или видео,
транскрибирование аудиозаписей или изучение деталей данных.

Это становится еще сложнее, когда у нас есть огромная коллекция данных (в современном мире больших данных мы должны ожидать, что данные будут храниться в гигабайтах, если уже не в терабайтах). Традиционно подобные задачи выполнялись путем найма большой временной рабочей силы, что отнимало много времени, было дорого и трудно масштабировалось, либо не выполнялось.

Краудсорсинговые платформы очень удобны в таких ситуациях. Две популярные платформы, о которых нужно знать:

Механическая задача Amazon. Amazon Mechanical Turk (MTurk) управляет торговой площадкой для работы, требующей человеческого интеллекта. Веб-сервис MTurk позволяет компаниям программно получать доступ к этому рынку и разнообразной рабочей силе по запросу. Разработчики могут использовать этот сервис для встраивания человеческого интеллекта непосредственно в свои приложения.
Рисунок 8. Платформа Figure 8 преобразует неструктурированные данные из реального мира — текст, изображения, аудио, видео — в высококачественные крупномасштабные структурированные обучающие наборы данных в масштабе предприятия.

Теперь вы можете расслабиться и отдохнуть, когда объем данных огромен. Вам просто нужно обратиться к одной из вышеперечисленных платформ Crowd Sourcing, и ваша задача будет выполнена с гораздо меньшими затратами и временем выполнения по сравнению с традиционными подходами.

Использованная литература:

[1] https://www.mturk.com/

[2] https://www.figure-eight.com/platform/training-data/

материалы по теме:

Новые материалы

Технологии для нетехнологов 6: Простое объяснение языков программирования

Одним словом, программирование — это автоматизация, но в более широком смысле — это способ «поручить компьютеру выполнять различные задачи». Инструкции отправляются кодом, и этот код может быть..

CS373 Summer 2018: Миранда Фуленчек

CS373 Summer 2018: Миранда Фуленчек Неделя 1: 4 июня — 10 июня Что вы делали на прошлой неделе? Занятия начались на этой неделе, поэтому большую часть времени я потратил на..

Как развивается смешанно-целочисленное программирование, часть 7

Унифицированная техника раннего завершения для первично-двойственных алгоритмов в смешанно-целочисленном коническом программировании (arXiv) Автор : Ювэнь Чэнь , Кэтрин Нин , Поль Гулар..

Как научить модель Keras распознавать текст переменной длины

Я некоторое время играл с официальным примером Keras image_ocr.py и хочу поделиться своими выводами в этом посте. В официальном примере выполняется только обучение модели, но отсутствует..

Практическая пакетная нормализация

История начинается после использования инициализации He вместе с ELU (или любым вариантом ReLU) может значительно снизить опасность проблем с исчезающими/взрывающимися градиентами в начале..

Поэзия онлайн-кодирования: путешествие пикселей и страсти

В мире, наполненном инновациями, онлайн-обучение программированию становится холстом, на котором обретает форму полотно вашей мечты. Это больше, чем просто создание строк кода; это сродни..

Обработка изображений с помощью Python - размытие и повышение резкости для начинающих

Как применить ядра свертки к цветным изображениям? В этой статье мы обсудим, как применять ядра размытия и повышения резкости к изображениям. Эти базовые ядра составляют основу многих более..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Java Computer Science Development NLP Tech Programming Languages Algorithms Python Programming Angular HTML Javascript Tips ChatGPT Data Reactjs Developer API Code Data Visualization Tutorial Neural Networks CSS Computer Vision Statistics