Визуализация данных

Типы диаграмм

Круговая диаграмма
  • Показать, из чего состоит целое.
Гистограмма
  • Временное распределение
  • Частотное сравнение двух показателей

Линейная диаграмма
  • Тренды (например, распределение по годам)

Точечная диаграмма
  • Корреляция – взаимосвязь между двумя переменными

более подробный алгоритм:

Voyant Tools

Voyant Tools – веб-приложение для анализа текста, который можно ввести, загрузить из файла (форматы DOC, TXT, HTML, XML, PDF, RTF), нескольких файлов или по ссылке. Оно поддерживает много языков и позволяет посчитать частотность слов, построить по ним облака тегов и красивые графики.

Вот здесь документация по самым азам работы с Voyant Tools, вот здесь – описание всех доступных (и недоступных) инструментов, а вот здесь – примеры исследований, сделанных с его помощью.

В языке есть служебные слова, которые нам обычно не нужны для текстовой аналитики. Чтобы их отфильтровать, используются списки стоп-слов. В voyant-tools есть встроенные списки стоп-слов для многих языков, но можно их задать самостоятельно. Вот, например, список русских стоп-слов для художественной литературы, составленный на основе яндексовского. Чтобы загрузить его в Voyant Tools, нужно зайти в настройки (кнопка мужду вопросом и значком Windows, похожая на ползунок, в окне с облаком тегов), вставить стоп-слова в специальное окошко и сохранить список.

Потренироваться можно на любом тексте – например, на "Капитанской дочке" А.С. Пушкина.

Можно менять инструменты:

Можно экспортировать любой раздел страницы (Export a URL for this view (Tools and Data):

Облака тегов

Облако тегов (word cloud) – это визуализация ключевых слов (тегов) из какого-либо текста, где размер слова указывает на его частотность. Существует много простых и удобных онлайн-сервисов для создания облаков тегов; вот некоторые из них.

  • Word Clouds – тонкие настройки, разные формы облаков, фильтрация стоп-слов, можно загрузить файл
  • Wordle – настройка формы облака, шрифта и цвета слов, работа с небольшими текстами
  • Word It Out – настройки цвета и размера слов, работа с небольшими текстами
  • Tagxedo – настройка ориентации слов, цветовой схемы, формы облака (многое зависит от браузера)
  • Word Cloud by Jason Davies – настройка количества слов и их ориентации

Пример облака тегов по статье «Cats» из Википедии, нарисованного с помощью сервиса Word Clouds.

Можно использовать не только встроенные формы, но и загружать свои картинки (облако нарисовано по первой главе романа Дж. Джойса «Улисс»).

Полезные ссылки

Voyant Tools Help (подробное описание всех инструментов)

Разбор типов диаграмм

Charts Workshop

More on charts

results matching ""

    No results matching ""