Юлиц Васильев - Обработка естественного языка. Python и spaCy на практике
Название: | Обработка естественного языка. Python и spaCy на практике | |
Автор: | Юлиц Васильев | |
Жанр: | Учебники и самоучители по компьютеру | |
Изадано в серии: | Библиотека программиста | |
Издательство: | неизвестно | |
Год издания: | - | |
ISBN: | неизвестно | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Обработка естественного языка. Python и spaCy на практике"
Читаем онлайн "Обработка естественного языка. Python и spaCy на практике". [Страница - 5]
BI-аналитикой
и разрабатывает модели машинного обучения для Online Partnerships
Group в компании Google, специализируясь на монетизации мобильных приложений.
Введение
Все чаще, позвонив в банк или поставщику услуг Интернета, мы можем
услышать нечто вроде: «Здравствуйте, я ваш виртуальный помощник.
Слушаю вас!» С каждым днем роботы становятся умнее и уже могут
общаться с людьми на естественном языке. Но как работают такие
технологии и как их использовать в своих проектах?
Обработка естественного языка (NLP) — одно из направлений искусственного интеллекта (ИИ), ставящее перед собой цель научить
машины понимать человеческие языки и реагировать на высказывания. Без этой базовой технологии невозможен ни один виртуальный
помощник. Книга поможет вам обрести навыки, необходимые для
создания собственного чат-бота и NLP-приложений, способных решать
реальные задачи, такие как анализ предложений, улавливание смысла
текста, составление текстов и т. д.
Применение языка Python для обработки
естественного языка
Существует широкий спектр утилит и технологий, которые можно использовать при создании NLP-приложения. Все примеры в книге реализованы на языке Python с использованием библиотеки spaCy NLP.
Приведу несколько убедительных аргументов в пользу выбора Python
и spaCy для создания приложений обработки естественного языка.
Python — высокоуровневый язык программирования со следующими
особенностями.
Простота. Если вы новичок в программировании, Python — отличный язык для начала знакомства с этим увлекательным миром. Python исключительно прост в изучении, на нем можно
16
Введение
писать понятный код. Простота Python помогает разработчикам
чат-ботов сотрудничать с лингвистами, не имеющими опыта программирования.
Широкая распространенность. Python — один из самых популярных
языков. У абсолютного большинства широко используемых API
есть обертки для языка Python, легко устанавливаемые с помощью
утилиты pip. Возможность установки оберток Python посредством
pip упрощает процесс получения сторонних утилит, которые могут
понадобиться в NLP-приложениях.
Присутствие в экосистеме ИИ в значительных объемах. В экосистеме ИИ существует множество библиотек Python, что позволяет
выбрать наиболее подходящую из них для решения конкретной
задачи. Это существенно упрощает разработку NLP-приложений.
Библиотека spaCy
В книге используется spaCy — популярная библиотека Python, содержащая все лингвистические данные и алгоритмы, необходимые для обработки текстов на естественном языке. По ходу чтения вы убедитесь,
что spaCy крайне проста в работе благодаря объектам-контейнерам,
которые соответствуют элементам текста на естественном языке, например предложениям и словам. У этих объектов, в свою очередь, есть
атрибуты, соответствующие лингвистическим признакам, — например,
принадлежность к той или иной части речи. На момент написания
книги в spaCy были включены предобученные модели для английского, немецкого, греческого, испанского, французского, итальянского,
литовского, норвежского стандарта букмол1, нидерландского и португальского языков, а также многоязыковая модель2. Кроме того, в spaCy
есть встроенные средства визуализации, позволяющие генерировать
1
Один из двух основных стандартов (форм) норвежского языка. — Здесь и далее
примеч. пер.
2
На момент выпуска русского издания книги к ним добавились модели для китайского, японского, польского и румынского языков. На GitHub можно найти неофициальные модели и для русского языка (например, по адресам https://github.com/
buriy/spacy-ru и https://github.com/aatimofeev/spacy_russian_tokenizer).
Для кого предназначена книга 17
наглядное представление о синтаксической структуре предложений
или об именованных сущностях документа.
Библиотека spaCy предлагает нативную поддержку продвинутых возможностей NLP, отсутствующую в других популярных библиотеках
NLP для языка Python. Например, spaCy, в отличие от пакета Natural
Language Toolkit (NLTK), может похвастаться нативной поддержкой векторов слов (подробнее о них см. в главе 5). При использовании NLTK пришлось бы обратиться к сторонней утилите наподобие
Gensim — реализации алгоритма word2vec для языка Python.
При работе со spaCy можно настроить под себя уже существующие
модели или отдельные компоненты моделей, обучить собственные
модели с нуля в соответствии с потребностями своих приложений (как
это сделать, описано в --">
и разрабатывает модели машинного обучения для Online Partnerships
Group в компании Google, специализируясь на монетизации мобильных приложений.
Введение
Все чаще, позвонив в банк или поставщику услуг Интернета, мы можем
услышать нечто вроде: «Здравствуйте, я ваш виртуальный помощник.
Слушаю вас!» С каждым днем роботы становятся умнее и уже могут
общаться с людьми на естественном языке. Но как работают такие
технологии и как их использовать в своих проектах?
Обработка естественного языка (NLP) — одно из направлений искусственного интеллекта (ИИ), ставящее перед собой цель научить
машины понимать человеческие языки и реагировать на высказывания. Без этой базовой технологии невозможен ни один виртуальный
помощник. Книга поможет вам обрести навыки, необходимые для
создания собственного чат-бота и NLP-приложений, способных решать
реальные задачи, такие как анализ предложений, улавливание смысла
текста, составление текстов и т. д.
Применение языка Python для обработки
естественного языка
Существует широкий спектр утилит и технологий, которые можно использовать при создании NLP-приложения. Все примеры в книге реализованы на языке Python с использованием библиотеки spaCy NLP.
Приведу несколько убедительных аргументов в пользу выбора Python
и spaCy для создания приложений обработки естественного языка.
Python — высокоуровневый язык программирования со следующими
особенностями.
Простота. Если вы новичок в программировании, Python — отличный язык для начала знакомства с этим увлекательным миром. Python исключительно прост в изучении, на нем можно
16
Введение
писать понятный код. Простота Python помогает разработчикам
чат-ботов сотрудничать с лингвистами, не имеющими опыта программирования.
Широкая распространенность. Python — один из самых популярных
языков. У абсолютного большинства широко используемых API
есть обертки для языка Python, легко устанавливаемые с помощью
утилиты pip. Возможность установки оберток Python посредством
pip упрощает процесс получения сторонних утилит, которые могут
понадобиться в NLP-приложениях.
Присутствие в экосистеме ИИ в значительных объемах. В экосистеме ИИ существует множество библиотек Python, что позволяет
выбрать наиболее подходящую из них для решения конкретной
задачи. Это существенно упрощает разработку NLP-приложений.
Библиотека spaCy
В книге используется spaCy — популярная библиотека Python, содержащая все лингвистические данные и алгоритмы, необходимые для обработки текстов на естественном языке. По ходу чтения вы убедитесь,
что spaCy крайне проста в работе благодаря объектам-контейнерам,
которые соответствуют элементам текста на естественном языке, например предложениям и словам. У этих объектов, в свою очередь, есть
атрибуты, соответствующие лингвистическим признакам, — например,
принадлежность к той или иной части речи. На момент написания
книги в spaCy были включены предобученные модели для английского, немецкого, греческого, испанского, французского, итальянского,
литовского, норвежского стандарта букмол1, нидерландского и португальского языков, а также многоязыковая модель2. Кроме того, в spaCy
есть встроенные средства визуализации, позволяющие генерировать
1
Один из двух основных стандартов (форм) норвежского языка. — Здесь и далее
примеч. пер.
2
На момент выпуска русского издания книги к ним добавились модели для китайского, японского, польского и румынского языков. На GitHub можно найти неофициальные модели и для русского языка (например, по адресам https://github.com/
buriy/spacy-ru и https://github.com/aatimofeev/spacy_russian_tokenizer).
Для кого предназначена книга 17
наглядное представление о синтаксической структуре предложений
или об именованных сущностях документа.
Библиотека spaCy предлагает нативную поддержку продвинутых возможностей NLP, отсутствующую в других популярных библиотеках
NLP для языка Python. Например, spaCy, в отличие от пакета Natural
Language Toolkit (NLTK), может похвастаться нативной поддержкой векторов слов (подробнее о них см. в главе 5). При использовании NLTK пришлось бы обратиться к сторонней утилите наподобие
Gensim — реализации алгоритма word2vec для языка Python.
При работе со spaCy можно настроить под себя уже существующие
модели или отдельные компоненты моделей, обучить собственные
модели с нуля в соответствии с потребностями своих приложений (как
это сделать, описано в --">
Книги схожие с «Обработка естественного языка. Python и spaCy на практике» по жанру, серии, автору или названию:
Эл Свейгарт - Python. Чистый код для продолжающих Жанр: Python Год издания: 2022 Серия: Библиотека программиста |
Другие книги из серии «Библиотека программиста»:
Стивен Холзнер - XSLT Жанр: Другие языки и системы программирования Год издания: 2002 Серия: Библиотека программиста |
Брайан Хоган - HTML5 и CSS3. Веб-разработка по стандартам нового поколения Жанр: Интернет Год издания: 2014 Серия: Библиотека программиста |
Жаклин Нолис - Data Science для карьериста Жанр: Околокомпьютерная литература Год издания: 2021 Серия: Библиотека программиста |
Франсуа Шолле - Глубокое обучение на Python Жанр: Python Год издания: 2023 Серия: Библиотека программиста |