Визуалиация данных

Voyant Tools

Voyant Tools -- веб-приложение для анализа текста, который можно загрузить из файла, нескольких файлов или по ссылке. Оно поддерживает много языков и позволяет посчитать частотность слов, построить по ним облака тегов и красивые графики.

Вот здесь документация по самым азам работы с Voyant Tools, вот здесь -- описание всех доступных инструментов, а вот здесь -- примеры исследований, сделанных с его помощью.

В языке есть служебные слова, которые нам обычно не нужны для текстовой аналитики. Чтобы их отфильтровать, используются списки стоп-слов. В voyant-tools есть встроенные списки стоп-слов для многих языков, но можно их задать самостоятельно. Вот, например, мой список русских стоп-слов для художественной литературы, составленный на основе яндексовского. Чтобы загрузить его в Voyant Tools, нужно зайти в настройки (кнопка мужду вопросом и значком Windows, похожая на ползунок, в окне с облаком тегов), вставить стоп-слова в специальное окошко и сохранить список.

Потренироваться можно на любом тексте -- например, на "Капитанской дочке" А.С. Пушкина.

Облака тегов

Облако тегов (word cloud) -- это визуализация ключевых слов (тегов) из какого-либо текста, где размер слова указывает на его частотность. Такая картинка украсит любую научную работу. :) Существует много простых и удобных онлайн-сервисов для создания облаков тегов; вот некоторые из них.

  • Word Clouds -- тонкие настройки, разные формы облаков, фильтрация стоп-слов, можно загрузить файл
  • Wordle -- настройка формы облака, шрифта и цвета слов, работа с небольшими текстами
  • Word It Out -- настройки цвета и размера слов, работа с небольшими текстами
  • Tagxedo -- настройка ориентации слов, цветовой схемы, формы облака
  • Word Cloud by Jason Davies -- настройка количества слов и их ориентации

Пример облака тегов по статье '"Cats" из Википедии, нарисованного с помощью сервиса Word Clouds.

Можно использовать не только встроенные формы, но и загружать свои картинки (облако нарисовано по первой главе романа Дж. Джойса "Улисс").

results matching ""

    No results matching ""