2 мая 2008 г.

Возьму программу в информационное рабство

По-моему, вполне ожидаемым развитием поисковых систем будут программы, на которые можно переложить часть работы по поиску и смысловой обработке информации.

Вот пример того, что бы мне хотелось иметь: я поручаю программе узнать, насколько можно доверять авторам этой работы. Программа сама находит статьи этих людей, оценивает их по тому, в каком журнале опубликовано, сколько их цитируют, какого характера цитирования (критические, одобрительные, "братские могилы"), что другие люди пишут в сети про эти статьи (а также насколько можно доверять этим людям!), выполняет простой факт-чекинг (т.е. врут ли авторы в проверяемых фактах) и т.д. На выходе мне выдается отчет со статистикой и ссылками. Отформатированный к тому же для удобного чтения за утренним кофе.

Конечно, их вначале надо будет обучать. Ну и наверняка они должны уже будут обрабатывать не только "синтаксис", но и смысл текста, хотя бы в самых общих чертах. Вначале вероятно появятся подобные программы для запуска у себя на компе, потом появятся онлайн сервисы, предоставляющие мощности для работы этих программ (ГуглоСекретарь?), и т.д.

Кто-нибудь встречался с попытками реализации такого секретаря? Наверняка, люди в эту сторону думают уже давно. Вот наткнулся на так называемый Semantic web, но пока не понял, то ли это.

13 комментариев:

  1. Анонимный4/5/08 10:34

    http://egzadereev.livejournal.com/4331.html

    ОтветитьУдалить
  2. Сейчас это зовётся Data mining, в Компьютерре когда-то об этом писали.

    ОтветитьУдалить
  3. to egzadereev: я Ваш пост прочитал, но Ваш пафос в конце мне, честно говоря, непонятен.

    Если Вы хотите нанять секретаря для поиска какой-либо информации, Вы же не предполагаете, что он за Вас станет принимать решения? Вы просто хотите, чтоб то, что Вы и так бы сделали, сделалось быстрее.

    Тут то же самое. Я хочу программу, которая шла бы по тому же самому пути, что и я, только делала бы это быстрее, не уставала и не отвлекалась бы. Мне не надо, чтоб она делала какие-то свои выводы.

    Картина "рецензент, отвергающий проекты на основании сухой статистики бездушной программы", по-моему, наивна. Вы что, думаете сейчас такие рецензенты мучаются, бедные, без программки, всё сами честно читают и рецензируют?

    Я описал орудие работы с информацией, которое в том или ином виде все равно будет реализовано. Принесет оно пользу или вред -- зависит от конкретного пользователя. Заострять внимание исключительно на самом орудии малоосмысленно -- это мне напоминает инициативы каких-то наших властей прикрыть интернет, поскольку в нем можно найти сайты с инструкциями по подготовке терактов.

    ОтветитьУдалить
  4. to заятсъ: по-моему Data Mining -- это другое, это когда нужно найти довольно легко идентифицируемую информацию в огромном массиве шума. Такая задача не требует "понимания" информации (если я ошибаюсь, поправьте).

    ОтветитьУдалить
  5. Анонимный4/5/08 23:35

    Dear Igor,

    Я процитировал Ваш пост на scientific.ru и такую кашу этим заварил... ой-ой-ой.

    http://www.scientific.ru/dforum/scilife/120985602

    под словом "эксперд" я не имел ввиду Вас лично.
    Прошу прощения если чем-нибудь задел.

    ОтветитьУдалить
  6. Да уж...
    Давайте, чтобы прекратить намеки и недопонимания, я кое-что поясню.

    Во-первых, я ни в коей мере не призываю использовать формальные цитатометрические данные (например, такие, как я описал в своем посте) для экспертного заключения. Эксперт обязан достаточно хорошо знать свою область, чтобы оценить статью или проект исключительно на основе научной содержания. Если он опирается на статистику чужих отзывов -- это халтура.

    То, что с Вашей подачи там пошло обсуждение того, что "вот так теперь нас будут экспердировать" -- это уж такая там публика собралась, я думаю. Уж у кого что болит...

    Во-вторых, что касается меня лично -- я не вхожу ни в какой экспертный совет и не оцениваю ничьи проекты. Зато в те статьи, которые мне иногда приходят из журналов на рецензию, я вникаю полностью, с повторением некоторых расчетов и чтением других статей авторов. Чужими отзывами я не интересуюсь.

    Насчет "приближенного" я вообще не понял -- к кому или чему я приближенный?

    В-третьих, легко заметить, что я привел пример статьи из области, в которой я не эксперт. Мне, как Вы могли заметить, интересны многие области -- от теории категорий до климатологии, от шаровых молний до нейрофизиологии. Я в них совсем не специалист, но мне эти области интересны. И знакомлюсь я с ними не по СМИ, а по оригинальным статьям. А поскольку поток статей очень большой, мне требуются механизмы отсева и оценки, например, такие, как я описал в посте.

    Будь у меня программа, которую я описал, мне было бы гораздо удобнее следить за новостями науки в далеких от меня областях. Я не собираюсь никому навязывать статистические результаты такой программы; они просто удобны мне для собственного образования. Максимум, я могу лишь делиться своим мнением, но ни на какую экспертную оценку это не тянет.

    Так что на сайентифике идет битва с какими-то своими, сугубо личными мельницами. Правда, почему-то в этой битве время от времени ссылаются на меня.

    ОтветитьУдалить
  7. Анонимный9/5/08 09:30

    Хочу сказать, что эту тему лучше всего могут просвятить на форумах вебмастеров например
    _ttp://www.umaxforum.com/
    _ttp://forum.searchengines.ru/
    _ttp://www.nulled.ws/
    или на блогах.

    ОтветитьУдалить
  8. Спасибо за ссылки, но я сомневаюсь, что эти вещи сейчас уже существуют в виде какого-то готового продукта. Они должны опираться на некое осмысление текста, и без зачатков ИИ тут не обойтись.

    Я несколько лет назад пробовал один сервис, англоязычный (забыл название), который брал веб-страницу и реферировал ее, ужимая до нужного размера -- в полстраницы, в один абзац, в два предложения и т.п. Утверждалось, что эта программа сама распознает ключевые утверждения в тексте и именно их оставляет в реферате, выкидывая все второстепенное.

    Ну на типичных СМИшных новостях она работала еще ничего так, просто потому, что они все пишутся шаблонно. Но когда я ей скармливал научный текст, она совершенно не понимала, что там важное, что нет; получался набор выдернутый из контекста фраз.

    Может, конечно, с тех пор что-то изменилось.

    ОтветитьУдалить
  9. Анонимный13/5/08 02:25

    Дело еше в том что сейчас тема различной обработки веб контента, генерации текста, это очень прибыльный но несовсем честный бизнес, поэтому никто в открытую хвастать своими успехами небудет и многие лучшие программы, скрипты никак непродаются. И конечно это все быстро развивается несмотря на частичную закрытость.

    Вот пример примитивного ИИ http://vesna.yandex.ru/pushkin
    "юморной генератор стихов пушкина и рефератов"

    Вообше я в этом деле совсем новичок, форумы эти только читаю, но думаю нужная программа должна быть, у сео-вебмастеров есть очень много програмных инструментов.

    ОтветитьУдалить
  10. Анонимный17/5/08 08:59

    Нечто подобное есть и в виде готовых продуктов. Такое ПО называется "программы агрегирования и автоматической рубрикации". Хотя я не уверен, что это общепринятое название, но есть достойные реализации даже среди отечественных продуктов, например:

    http://cognitive.ru/products/astarta.htm

    Поищите аналоги, может быть что-то интересное всплывёт.

    ОтветитьУдалить
  11. Спасибо. Судя по описанию, это уже нечто похожее. Интересно, правда, насколько эффективно это работает.

    ОтветитьУдалить
  12. Анонимный18/5/08 08:01

    Судить об эффективности сложно, ведь это зависит от задач, которые возлагаются на программу :) Одно могу сказать, никаких аналогов ИИ там нет, там используются достаточно продвинутые парсеры, которые учитывают множество тонкостей, сама программа построена на базе одного из типов нейросети с возможностью самообучаться(техники продвинутые, сейчас к таким любят добавлять "с элементами ИИ", хотя я считаю это понт:) )

    ОтветитьУдалить
  13. Анонимный11/7/08 01:35

    В некоторых случаях можно использовать Индекс Хирша, основаный на цитируемости автора.
    h-index определяеться просто: h-10 означает, что ученый опубликовал десять статей, на каждую из которых найдется не менее десяти ссылок.
    Вот интересная статья - http://www.lenta.ru/articles/2005/08/31/index/
    а в этой приведен рейтинг ученых из некоторых научных сфер -
    http://ru.wikipedia.org/wiki/H-индекс

    ОтветитьУдалить