2 мая 2008 г.

Возьму программу в информационное рабство

По-моему, вполне ожидаемым развитием поисковых систем будут программы, на которые можно переложить часть работы по поиску и смысловой обработке информации.

Вот пример того, что бы мне хотелось иметь: я поручаю программе узнать, насколько можно доверять авторам этой работы. Программа сама находит статьи этих людей, оценивает их по тому, в каком журнале опубликовано, сколько их цитируют, какого характера цитирования (критические, одобрительные, "братские могилы"), что другие люди пишут в сети про эти статьи (а также насколько можно доверять этим людям!), выполняет простой факт-чекинг (т.е. врут ли авторы в проверяемых фактах) и т.д. На выходе мне выдается отчет со статистикой и ссылками. Отформатированный к тому же для удобного чтения за утренним кофе.

Конечно, их вначале надо будет обучать. Ну и наверняка они должны уже будут обрабатывать не только "синтаксис", но и смысл текста, хотя бы в самых общих чертах. Вначале вероятно появятся подобные программы для запуска у себя на компе, потом появятся онлайн сервисы, предоставляющие мощности для работы этих программ (ГуглоСекретарь?), и т.д.

Кто-нибудь встречался с попытками реализации такого секретаря? Наверняка, люди в эту сторону думают уже давно. Вот наткнулся на так называемый Semantic web, но пока не понял, то ли это.

13 комментариев:

  1. http://egzadereev.livejournal.com/4331.html

    ОтветитьУдалить
  2. Сейчас это зовётся Data mining, в Компьютерре когда-то об этом писали.

    ОтветитьУдалить
  3. to egzadereev: я Ваш пост прочитал, но Ваш пафос в конце мне, честно говоря, непонятен.

    Если Вы хотите нанять секретаря для поиска какой-либо информации, Вы же не предполагаете, что он за Вас станет принимать решения? Вы просто хотите, чтоб то, что Вы и так бы сделали, сделалось быстрее.

    Тут то же самое. Я хочу программу, которая шла бы по тому же самому пути, что и я, только делала бы это быстрее, не уставала и не отвлекалась бы. Мне не надо, чтоб она делала какие-то свои выводы.

    Картина "рецензент, отвергающий проекты на основании сухой статистики бездушной программы", по-моему, наивна. Вы что, думаете сейчас такие рецензенты мучаются, бедные, без программки, всё сами честно читают и рецензируют?

    Я описал орудие работы с информацией, которое в том или ином виде все равно будет реализовано. Принесет оно пользу или вред -- зависит от конкретного пользователя. Заострять внимание исключительно на самом орудии малоосмысленно -- это мне напоминает инициативы каких-то наших властей прикрыть интернет, поскольку в нем можно найти сайты с инструкциями по подготовке терактов.

    ОтветитьУдалить
  4. to заятсъ: по-моему Data Mining -- это другое, это когда нужно найти довольно легко идентифицируемую информацию в огромном массиве шума. Такая задача не требует "понимания" информации (если я ошибаюсь, поправьте).

    ОтветитьУдалить
  5. Анонимный4/5/08 23:35

    Dear Igor,

    Я процитировал Ваш пост на scientific.ru и такую кашу этим заварил... ой-ой-ой.

    http://www.scientific.ru/dforum/scilife/120985602

    под словом "эксперд" я не имел ввиду Вас лично.
    Прошу прощения если чем-нибудь задел.

    ОтветитьУдалить
  6. Да уж...
    Давайте, чтобы прекратить намеки и недопонимания, я кое-что поясню.

    Во-первых, я ни в коей мере не призываю использовать формальные цитатометрические данные (например, такие, как я описал в своем посте) для экспертного заключения. Эксперт обязан достаточно хорошо знать свою область, чтобы оценить статью или проект исключительно на основе научной содержания. Если он опирается на статистику чужих отзывов -- это халтура.

    То, что с Вашей подачи там пошло обсуждение того, что "вот так теперь нас будут экспердировать" -- это уж такая там публика собралась, я думаю. Уж у кого что болит...

    Во-вторых, что касается меня лично -- я не вхожу ни в какой экспертный совет и не оцениваю ничьи проекты. Зато в те статьи, которые мне иногда приходят из журналов на рецензию, я вникаю полностью, с повторением некоторых расчетов и чтением других статей авторов. Чужими отзывами я не интересуюсь.

    Насчет "приближенного" я вообще не понял -- к кому или чему я приближенный?

    В-третьих, легко заметить, что я привел пример статьи из области, в которой я не эксперт. Мне, как Вы могли заметить, интересны многие области -- от теории категорий до климатологии, от шаровых молний до нейрофизиологии. Я в них совсем не специалист, но мне эти области интересны. И знакомлюсь я с ними не по СМИ, а по оригинальным статьям. А поскольку поток статей очень большой, мне требуются механизмы отсева и оценки, например, такие, как я описал в посте.

    Будь у меня программа, которую я описал, мне было бы гораздо удобнее следить за новостями науки в далеких от меня областях. Я не собираюсь никому навязывать статистические результаты такой программы; они просто удобны мне для собственного образования. Максимум, я могу лишь делиться своим мнением, но ни на какую экспертную оценку это не тянет.

    Так что на сайентифике идет битва с какими-то своими, сугубо личными мельницами. Правда, почему-то в этой битве время от времени ссылаются на меня.

    ОтветитьУдалить
  7. Анонимный9/5/08 09:30

    Хочу сказать, что эту тему лучше всего могут просвятить на форумах вебмастеров например
    _ttp://www.umaxforum.com/
    _ttp://forum.searchengines.ru/
    _ttp://www.nulled.ws/
    или на блогах.

    ОтветитьУдалить
  8. Спасибо за ссылки, но я сомневаюсь, что эти вещи сейчас уже существуют в виде какого-то готового продукта. Они должны опираться на некое осмысление текста, и без зачатков ИИ тут не обойтись.

    Я несколько лет назад пробовал один сервис, англоязычный (забыл название), который брал веб-страницу и реферировал ее, ужимая до нужного размера -- в полстраницы, в один абзац, в два предложения и т.п. Утверждалось, что эта программа сама распознает ключевые утверждения в тексте и именно их оставляет в реферате, выкидывая все второстепенное.

    Ну на типичных СМИшных новостях она работала еще ничего так, просто потому, что они все пишутся шаблонно. Но когда я ей скармливал научный текст, она совершенно не понимала, что там важное, что нет; получался набор выдернутый из контекста фраз.

    Может, конечно, с тех пор что-то изменилось.

    ОтветитьУдалить
  9. Анонимный13/5/08 02:25

    Дело еше в том что сейчас тема различной обработки веб контента, генерации текста, это очень прибыльный но несовсем честный бизнес, поэтому никто в открытую хвастать своими успехами небудет и многие лучшие программы, скрипты никак непродаются. И конечно это все быстро развивается несмотря на частичную закрытость.

    Вот пример примитивного ИИ http://vesna.yandex.ru/pushkin
    "юморной генератор стихов пушкина и рефератов"

    Вообше я в этом деле совсем новичок, форумы эти только читаю, но думаю нужная программа должна быть, у сео-вебмастеров есть очень много програмных инструментов.

    ОтветитьУдалить
  10. Нечто подобное есть и в виде готовых продуктов. Такое ПО называется "программы агрегирования и автоматической рубрикации". Хотя я не уверен, что это общепринятое название, но есть достойные реализации даже среди отечественных продуктов, например:

    http://cognitive.ru/products/astarta.htm

    Поищите аналоги, может быть что-то интересное всплывёт.

    ОтветитьУдалить
  11. Спасибо. Судя по описанию, это уже нечто похожее. Интересно, правда, насколько эффективно это работает.

    ОтветитьУдалить
  12. Судить об эффективности сложно, ведь это зависит от задач, которые возлагаются на программу :) Одно могу сказать, никаких аналогов ИИ там нет, там используются достаточно продвинутые парсеры, которые учитывают множество тонкостей, сама программа построена на базе одного из типов нейросети с возможностью самообучаться(техники продвинутые, сейчас к таким любят добавлять "с элементами ИИ", хотя я считаю это понт:) )

    ОтветитьУдалить
  13. В некоторых случаях можно использовать Индекс Хирша, основаный на цитируемости автора.
    h-index определяеться просто: h-10 означает, что ученый опубликовал десять статей, на каждую из которых найдется не менее десяти ссылок.
    Вот интересная статья - http://www.lenta.ru/articles/2005/08/31/index/
    а в этой приведен рейтинг ученых из некоторых научных сфер -
    http://ru.wikipedia.org/wiki/H-индекс

    ОтветитьУдалить