среда, февраля 22, 2012

Умный ридер

Я люблю читать новости, и я слежу за новостями.
Для этого я использую iGoogle, Google Reader а на мобильном телефоне- айСтрим. Было бы странно, если бы  я использовал другой ридер, потому что айСтрим придумал я сам :)
Так вот, он оперативно доставляет мне новости, и я вполне доволен им, но есть одна проблема.
В айСтриме у меня постоянно висит 100 - 200 - 300 непрочитанных новостей. Я отписываюсь от одних каналов, обнаружив что практически ни читаю их, и подписываюсь обратно, когда вижу что пропустил что-то важное. Но проблема остается.
Новостей слишком много, большинство из них мне не интересно, а самые интересные проходят мимо меня.
Так вот, сейчас мы начали работать над этой проблемой. Я хочу сделать такой ридер, который избавит меня от потоков бесполезной информации, и в тоже время, выловит в этих потоках крупицы того, что мне действительно интересно. Умный ридер будет анализировать, что я читаю, как и сколько я читаю. Эту информацию он будет использовать для обучения и предсказания (предвидения) того, что мне может быть интересно.
Да, я знаю, что такие системы уже есть, Zite например. Я много интересовался этими вопросами в последнее время, и могу назвать еще несколько примеров. Будем считать, для простоты, что мы делаем русский Zite, потому что ни один из персонализированных ридеров не поддерживает русскоязычный контент. И это не все. Есть еще ряд проблем, которые хотелось бы решить. Одна из них  - социальное ранжирование новостей. Мы хотим научиться ранжировать ссылки, используя для этого социальные графы соцсетей (тафталогия какая, но пока не знаю как сказать лучше).
Пока же, мы сосредоточились на решении задачи фильтрации контента на основе содержания и предпочтений пользователя. Задача не из простых, но ужасно интересная.
У нового проекта пока даже нет названия. Возможно, это будет следующая версия айСтрима, а может быть совсем новый продукт. Надеюсь, нам хватит сил и средств довести это дело до практического результата.
Как вы думаете, насколько эта тема будет востребована?
         

6 комментариев:

Анонимный комментирует...

Считаю, что тема очень востребованная. Потребность давно назрела, т.к. в последнее время новостей просто тонны и выловить полезное для себя бывает трудно.

Илья комментирует...

Очень актуально! Пользуюсь readitlaterlist.com, но список постоянно растет, а добавляю туда новости по принципу "интересный заголовок". Большинство новостей, как правило, не представляют потом интереса.
Если разработка планируется открытой, я бы принял участие.

Медведь комментирует...

Действительно отличная затея!

Если не секрет, расскажи подробнее о технической стороне вопроса. Какие алгоритмы планируете использовать? Нейронные сети? Как по тексту узнаете тематику?

Za_Dolber комментирует...

Считаю что подобный продукт будет востребован, ибо, для примера, Хабрахабр в Google Reader в сутки может выдать до полутора сотен различных тем, из которых реально интересными для меня могут оказаться лишь пару десятков.

jazzcat комментирует...

И правда, в перспективе — весьма востребованный продукт. Опасно следующее — у людей остаётся недоверие к "умным" продуктам — подсознательно кажется более правильным перелопатить сотню бесполезных новостей, чем пропустить что-то действительно хорошее. Так сходу и не поверишь, что это правда будет работать так, как нужно. Например, точно ли система будет поддерживать "широту" охвата тем, или в конце концов скатится к "локальному максимуму" в какой-то одной максимально интересной теме, игнорируя даже обзорные статьи из других областей.

Для начала, я бы с радостью принял обыкновенный ридер с функцией умной фильтрации, но сохраняя возможность в любой момент просмотреть список того, что от меня было спрятано.

Sergey Rozovik комментирует...

Спасибо за отзывы. Очень интересно.
Кратко отвечу на вопросы, прозвучавшие в коментах.
to jazzcat: проблема сохранения широты охвата при персонализации выдачи представляется пока наиболее сложной. Выход пока вижу 1) в разделении всей выдачи на категории (пользователь будет подписываться на категории новостей), 2) в многофакторном ранжировании выдачи, надо учитывать не только ранг выданный персональным фильтром предпочтений пользователя, но и например общую популярность новости, авторитетность источника и т.д.

to Медведь: по технической стороне вопроса пока много сказать не могу. Движемся от простого к сложному. Сейчас смотрим на статистические и вероятностные методы: TFxIDF, Байесова фильтрация и т.д. Нейронные сети тоже вероятно будем пробовать.

to Илья: разработка не будет открытой. Насчет "принять участие", если проект выйдет за рамки прототипа, конечно в команду будем привлекать людей с хорошим бэкграундом в профильных областях. Например, у нас сейчас вообще нет человека, шарящего в нейронных сетях. Характер участия тоже может быть разный: удаленка, фриланс, полная занятость...