18.11.2018
хэштег

Добавь хэштег в Instagram — потренируй искусственный интеллект

Рейтинг:  5 / 5

Звезда активнаЗвезда активнаЗвезда активнаЗвезда активнаЗвезда активна
 

Невероятно, но факт: хэштеги в привычной нам сегодня форме индексирования различных групп сообщений в социальных сетях начали использоваться в 2007 году.

Тогда Крис Мессина (Chris Messina) в Twitter спросил, как общественность относится к тому, чтобы использовать символ «#» для обозначения разных групп. В Америке хэштеги стали популярными в 2007 году во время лесных пожаров в Сан-Диего, когда Нейт Риттер (Nate Ritter) использовал хэштег «#sandiegofire», чтобы быть в курсе всех обновлений, связанных с катастрофой. На международном уровне хэштег стал практикой для записи сообщений Twitter в 2009-2010 годах во время иранских выборов. В 2014 году Оксфордский словарь зарегистрировал слово «хэштег», а сегодня оказывается, что у этого типа маркировки появилась еще одна – обучающая функция. Детали – в адаптированном переводе материала из издания Popular Science.

Хэштег – учебник для визуальных компьютерных систем

Рассмотрим хэштеги Instagram. Когда человек загружает фотографию на платформу, принадлежащей компании Facebook, он может добавить хэштег. К примеру, #технологии, #мода, #фотодня. Эти метки иллюстрирующие абстрактные понятия, впрочем, существует множество более конкретных описаний, как вот #бурыймедведь, которые, как ни странно, сопровождают именно фото мишек.

И хотя хэштеги – прекрасный инструмент сортировки, что помогает людям увидеть миллионы фотографий путешествие в одном месте, разработчики Facebook использовали фотографии с ярлыками для другого – тренировки ПО по распознаванию изображений, что является одним из разновидностей искусственного интеллекта под названием «компьютерное зрение», с помощью которого компьютер учат распознавать то, что находится на изображении. Компания использовала около 3,5 млрд фотографий из Instagram (из открытых учетных записей) и 17 тыс. хэштэгов для подготовки системы компьютерного зрения, которая, по их мнению, сейчас является лучшей из созданных ими. Директор по технологиям Facebook Майк Шропфер (Mike Schroepfer) назвал результаты «последним словом техники».

Слабый контроль

Чтобы понять, почему этот подход – интересный, стоит выяснить разницу между «полностью контролируемым» и «несколько контролируемым» обучением AI-технологий. Системы компьютерного зрения необходимо обучать распознавать объекты. Покажите этим системам, например, изображения с пометкой «медведь», и они могут научиться выявлять изображения, на которых есть медведи. Когда исследователи используют обозначенные людьми фотографии для обучения систем искусственного интеллекта – имеем дело с «полностью контролируемым» обучением. Изображение четко обозначены, и ПО может учиться на них.

«Это великолепный, зарекомендовавший себя способ, – говорит Манохар Палури (Manohar Paluri), руководитель группы компьютерного зрения отдела прикладного машинного обучения Facebook, который проводил исследования вместе с другим подразделением социальной сети, что проводит исследования искусственного интеллекта. Единственная проблема с этим подходом заключается в том, что изображения уже должны быть маркированы, и это – работа человека. – Обозначение миллиардов изображений становится невыполнимой задачей».

В мире искусственного интеллекта чем больше данных, на которых может учиться система, тем лучше. Важным аспектом является и их разнообразие. Если вы хотите научить систему искусственного интеллекта распознавать, как выглядит свадьба, ей стоит показывать не только фотографии свадеб одной страны, а взамен – свадеб со всего мира.

При «несколько контролируемом» обучении используются данные, которые не были специально промаркированы человеком с целью обучения искусственного интеллекта. Именно в этом случае были использованы все эти миллиарды фотографий из Instagram. Хэштеги стали способом выполнения коллективной работы по маркировки изображений. Например, метка #бурыймедведь в сочетании с аналогичным тегом #ursusarctos (латинское название бурого медведя) становится меткой для изображений медведей.

Шум соцсетей

Пользователи Instagram, сами того не ведая, превратились в маркераторов. Однако, такие данные – неотсортированные и несовершенные. Они создают так называемый «шум». Например, Палури отмечает, что человек, который фотографируется возле Эйфелевой башни, может поставить этот тег в Instagram, хотя самой башни не видно. Такой ярлык имеет смысл в человеческом контексте, но не помогает компьютеру. По другому сценарию фотография с дня рождения, на которой изображен торт, может не содержать пометку #торт, что также не является полезным, если вы пытаетесь научить компьютер, как выглядит такой десерт.

Однако, конечный результат заключается в том, что несмотря на «шум» в исходных данных такой тип обучения, по словам Палури, тоже оказался удачным. По одной из шкал оценивания, система, обученная на основе миллиарда фотографий из Instagram, демонстрирует точность в 85%. Палури говорит, что сейчас это – мощная система компьютерного зрения от Facebook. Если вы пользуетесь Facebook, вы знаете, что социальная сеть может распознавать лица на загруженных фотографиях и предлагает отметить на них человека из круга ваших друзей. Это – пример компьютерного зрения, в данном случае – распознавание лица. Видимая пользователям сторона медали, хотя есть и другая – невидимая. Facebook использует компьютерное зрение для выявления не только лиц, но и другого визуального контента, например, порнографии, которая не разрешена на онлайн-платформе.

Палури говорит, что новая, натренированная на основе Instagram, технология уже используется с целью сортировки и выявления в фотографиях контента, который не должен быть на сайте. Когда речь идет о распознавании «нежелательного контента», платформа достигла «значительного улучшения точности».

  1. Последние
  2. Популярные
Загрузка...

Новости технологий сегодня

Самые популярные метки