Что такое обработка естественного языка (NLP)?

Простыми словами Обработка естественного языка (NLP) — это ветвь искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком. НЛП опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.

Область обработки естественного языка началась в 1940-х годах, после Второй мировой войны. В то время люди осознали важность перевода с одного языка на другой и надеялись создать машину, которая могла бы выполнять такой перевод автоматически.

Что такое естественный язык?

Естественный язык или обычный язык – это любой язык, который естественным образом развился у людей в результате использования и повторения без сознательного планирования или предварительного обдумывания. Естественные языки могут принимать различные формы, такие как речь или пение.

Потребность в НЛП

Самым большим преимуществом NLP для бизнеса является способность технологии обнаруживать и обрабатывать огромные объемы текстовых данных в цифровом мире, в том числе; платформы социальных сетей, онлайн-обзоры, новостные репортажи и другие.

Реальные приложения

1. Контекстная реклама. Мы можем видеть таргетированную рекламу на основе нашего повседневного поиска в социальных сетях и разговоров с друзьями.

2. Почтовые клиенты — фильтрация спама, умный ответ

3. Социальные сети — удаление контента для взрослых, сбор мнений, например, анализ настроений в твиттере по тенденциям.

4. Поисковые системы. Поисковые системы Google используют НЛП.

5. Чат-боты. Мы видим, что на популярных веб-сайтах есть чат-боты. Чат-боты помогают решать проблемы на начальном уровне.

Общие задачи НЛП-

1. Классификация текстовых документов

2. Анализ настроений

3.Поиск информации — предположим, если нам нужно извлечь определенные сущности из данных. Поисковые системы используют это для извлечения определенных сущностей.

4. Части речевой маркировки — это важно в процессе обработки текста. При создании чат-ботов или системы ответов на вопросы нам необходимо анализировать значение слова за словом.

5. Определение языка и машинный перевод-

6.системы графа знаний и контроля качества-

7.Обобщение текста-

Подходы к НЛП:

Техники, используемые для построения НЛП

  1. Эвристические методы
  2. Модели на основе машинного обучения
  3. Модели на основе глубокого обучения

Эвристические методы-

Эвристики — это умственные сокращения, которые позволяют людям решать проблемы и выносить суждения быстро и эффективно. Эти эмпирические стратегии сокращают время принятия решений и позволяют людям работать, не останавливаясь постоянно, чтобы обдумать свой следующий план действий.

Примеры-

  1. Регулярные выражения. Мы можем искать определенные шаблоны. Например, мы хотим искать приветствия в абзаце.
  2. Word Net (лексический словарь) - слова здесь хранятся упорядоченно на основе их отношений с другими словами.
  3. Непредубежденный здравый смысл - Здравомыслящие факты в языке сохраняются.

Модели на основе машинного обучения

Большое преимущество перед эвристическим подходом

Человек не может устанавливать правила в открытых задачах. Но в моделях на основе машинного обучения у нас есть алгоритмы для решения проблем.

Алгоритмы:

  1. Наивно-байесовский
  2. Логистическая регрессия
  3. Машина опорных векторов
  4. LDA (для тематического моделирования)
  5. Скрытые марковские модели

Методы глубокого обучения:

Одна из основных проблем, присутствующих в подходе машинного обучения, заключалась в том, что модели машинного обучения не могут читать тексты последовательно. Sequential означает, что в английском языке предложение формируется слева направо. ex-Мне нравится машинное обучение. Так что здесь в предложении порядок имеет значение. Но в моделях машинного обучения Sequential не может читать тексты. Но в подходе глубокого обучения текстовые данные считываются последовательно. Вот почему на сцену вышли модели глубокого обучения.

Алгоритмы:

  1. RNN-это дает лучший результат в данных временных рядов.
  2. LSTM (долговременная кратковременная память). Он может сохранять длинный контекст. Поэтому он наиболее часто используется.
  3. GRU (Grated Recurrent Unit) — используется в генерации текста.
  4. CNN-В основном используется классификация изображений.
  5. Трансформеры — обращают внимание на определенную часть предложения. Благодаря трансформерам НЛП достигло новых высот.

BERT. Как правило, языковые модели считывают входную последовательность в одном направлении: либо слева направо, либо справа налево. Этот вид однонаправленного обучения хорошо работает, когда цель состоит в том, чтобы предсказать/сгенерировать следующее слово. Но для более глубокого понимания языкового контекста BERT использует двунаправленное обучение. Иногда его также называют «ненаправленным». Таким образом, он одновременно учитывает как предыдущий, так и следующий токены. BERT применяет двунаправленное обучение Transformer к языковому моделированию, изучает текстовые представления. Обратите внимание, что BERT — это просто кодировщик. У него нет декодера. Кодер отвечает за чтение ввода и обработку текста. Декодер отвечает за прогнозирование задачи.

Проблемы использования естественного языка обработки-

  1. Время разработки. ИИ должен оценить миллионы точек данных, чтобы быть адекватно обученным; обработка всех этих данных может занять всю жизнь, если вы используете маломощный ПК.

2. Формулировка двусмысленности. Человеку трудно преобразовать то, что кто-то имеет в виду, когда кто-то говорит что-то неопределенное. При внимательном изучении их утверждений не будет найдено ясного, краткого смысла. Чтобы решить эту проблему, система НЛП должна уметь искать контекст, который поможет ей понять фразу. Иногда может быть необходимо получить разъяснения от пользователя.

3. Орфографические ошибки. Ошибки — это простая проблема для людей; мы можем быстро связать слово с ошибкой с его правильно написанным эквивалентом и понять оставшуюся часть фразы. Ошибки, с другой стороны, может быть труднее обнаружить машине.

4.Слова с несколькими значениями: например, я побежал в магазин, потому что у нас заканчивалось молоко. Такие предложения создают проблемы в НЛП.

5. Ирония и сарказм. Ирония и сарказм создают проблемы для моделей машинного обучения, потому что они обычно используют слова и фразы, которые строго по определению могут быть положительными или отрицательными, но на самом деле означают.

Словесная ирония. Мать говорит: «Мне очень нравятся грязные отпечатки лап на моем новом белом ковре».

Сарказм — Свекровь говорит той же матери: «Белый цвет — отличный выбор для твоего нового ковра». Он отлично сочетается с 2 детьми и 3 собаками.

Это мой Первый блог. Надеюсь, это поможет вам понять НЛП. Спасибо за прочтение.