темы17 мая 2019 г.

ИИ учится писать заголовки для новостей

Одна из самых непростых работ в журналистике - писать заголовки. Они теоретически должны быть содержательными и умными, привлекать читателя, но не доводить их до бешенства дешевыми трюками для поднятия кликабельности.

Самым простым решением задачи написания заголовка, возможно, является наиболее краткое изложение статьи. Так как машины становятся все более «умными», искусственный интеллект (ИИ) уже научился писать заголовки, которые могут быть лучше тех, что придумывают журналисты и даже специалисты по названиям текстов, пишет Axios. IT-компания Primer создала свой ИИ (разработчики: Олег Васильев, Том Грек и Джон Бохэннон), который якобы может облегчить трудную задачу.

«Мы предлагаем новый метод генерации названий для неструктурированных текстовых документов. Мы реструктурировали эту проблему как задачу последовательных «вопросов-ответов». Глубокая нейронная сеть обучается на парах статья-заголовок, которые имели «распакованные» заголовки, что означает, что словарь заголовка является подмножеством словарного запаса документа. Для обучения ИИ мы использовали множество из миллионов публично доступных пар новость-заголовок: новостные статьи и заголовки. Мы представляем результаты рандомизированного двойного слепого исследования, в котором респонденты не знали, какие названия были созданы человеком или ИИ. После обучения на примерно 1,5 млн новостных статей, ИИ генерирует заголовки, которые респонденты посчитали в большинстве случаев такими же или лучше, чем делали люди», - утверждают авторы нового алгоритма.

Другими, словами, чтобы узнать, как редакторы пишут заголовки, система обучалась только на парах статья-заголовок, где название сообщения полностью состояло из слов, содержащихся в тексте. После обучения ИИ смог анализировать текст новой статьи, чтобы создать «машинный» заголовок. В своеобразном Тесте Тьюринга, которому авторы алгоритма подвергли случайных людей, ИИ показал якобы отличные результаты, превзойдя редакторов в более чем половине случаев.

Пожалуй, стоит заметить, что понимание и генерирования литературного или разговорного языка по-прежнему является одной из самых трудных проблем для ИИ. Однако машины, судя по всему, делают большие успехи в этой области. Разработчики Primer экспериментируют не только с заголовками. Они пробуют писать тексты новостных сообщений. Тексты смотрятся достаточно реалистично - как хорошая проза, но в них нет достаточно фактов и контекста, что характерно для журналистики.

Axios попросило научного директора Primer сделать заголовки для некоторых недавних статей издания.

Заголовок Axios: Раскрытие секретного правительственного ИИ (Uncovering secret government AI)
Заголовок Primer: ИИ и разведка
Впечатление: Слишком общее название

Заголовок Axios: Война за приобретение ИИ (The AI acquisitions war)
Заголовок Primer: ИИ-компании с 2010 г., создание нового фронта в безостановочной войне
Впечатление: нет, вообще не о том

Заголовок Axios: Издольщики от ИИ (The AI sharecroppers)
Заголовок Primer: Новые "издольщики"
Впечатление: Нас превзошли!

Заголовок для статьи другого издания: Отчаянный поиск массовых захоронений в Ливане (The desperate search for Lebanon's mass graves)
Заголовок Primer: Пропавшие воспоминания о Бейруте
Впечатление: Очень хорошо

Что дальше можно ожидать от Primer? Обобщение огромных объемов текстов может помочь выловить полезную информацию в бездонном море неструктурированных данных. В конечном итоге, утверждает Бохэннон, машина, которая имеет хорошее представление о ваших предпочтениях, может проанализировать миллионы документов и отправить вам справку с наиболее актуальной информацией.

Заключение

Логика машинного обучения, пожалуй, очень напоминает логику обучения людей скорочтению. В быстром чтении нет секрета от слова «совсем». Оно базируется всего на трёх китах: избавлении от проговаривания внутреннего текста, возникшего из-за обучения чтению по слогам, расширении привычного поля зрения и закреплении навыка отсекать избыточность текста.

Вот последнему и пробуют научить машину, так как первые два аспекта для неё не представляют проблемы. Однако при скорочтении человек всегда задействует ассоциативные цепочки мышления. Машина решает эту проблему через программный код и вычислительные мощности. Но насколько точно она сможет когда-нибудь воспроизвести ваше представление о тексте, покажет время.

Конечно, мы значительно упростили объяснение, как работает машинное обучение (там не отсекается ничего лишнего). Но это сделано умышленно, по причине очень объемной и специфичной тематики: нейронные сети - это сложно, но за ними - будущее.

Читайте подробности: