Что интересного происходит в науке: Возьму программу в информационное рабство

2 мая 2008 г.

Возьму программу в информационное рабство

По-моему, вполне ожидаемым развитием поисковых систем будут программы, на которые можно переложить часть работы по поиску и смысловой обработке информации.

Вот пример того, что бы мне хотелось иметь: я поручаю программе узнать, насколько можно доверять авторам этой работы. Программа сама находит статьи этих людей, оценивает их по тому, в каком журнале опубликовано, сколько их цитируют, какого характера цитирования (критические, одобрительные, "братские могилы"), что другие люди пишут в сети про эти статьи (а также насколько можно доверять этим людям!), выполняет простой факт-чекинг (т.е. врут ли авторы в проверяемых фактах) и т.д. На выходе мне выдается отчет со статистикой и ссылками. Отформатированный к тому же для удобного чтения за утренним кофе.

Конечно, их вначале надо будет обучать. Ну и наверняка они должны уже будут обрабатывать не только "синтаксис", но и смысл текста, хотя бы в самых общих чертах. Вначале вероятно появятся подобные программы для запуска у себя на компе, потом появятся онлайн сервисы, предоставляющие мощности для работы этих программ (ГуглоСекретарь?), и т.д.

Кто-нибудь встречался с попытками реализации такого секретаря? Наверняка, люди в эту сторону думают уже давно. Вот наткнулся на так называемый Semantic web, но пока не понял, то ли это.

13 комментариев:

Анонимный4/5/08 10:34
http://egzadereev.livejournal.com/4331.html
ОтветитьУдалить
Ответы
Заятсъ4/5/08 10:58
Сейчас это зовётся Data mining, в Компьютерре когда-то об этом писали.
ОтветитьУдалить
Ответы
Igor Ivanov4/5/08 21:37
to egzadereev: я Ваш пост прочитал, но Ваш пафос в конце мне, честно говоря, непонятен.

Если Вы хотите нанять секретаря для поиска какой-либо информации, Вы же не предполагаете, что он за Вас станет принимать решения? Вы просто хотите, чтоб то, что Вы и так бы сделали, сделалось быстрее.

Тут то же самое. Я хочу программу, которая шла бы по тому же самому пути, что и я, только делала бы это быстрее, не уставала и не отвлекалась бы. Мне не надо, чтоб она делала какие-то свои выводы.

Картина "рецензент, отвергающий проекты на основании сухой статистики бездушной программы", по-моему, наивна. Вы что, думаете сейчас такие рецензенты мучаются, бедные, без программки, всё сами честно читают и рецензируют?

Я описал орудие работы с информацией, которое в том или ином виде все равно будет реализовано. Принесет оно пользу или вред -- зависит от конкретного пользователя. Заострять внимание исключительно на самом орудии малоосмысленно -- это мне напоминает инициативы каких-то наших властей прикрыть интернет, поскольку в нем можно найти сайты с инструкциями по подготовке терактов.
ОтветитьУдалить
Ответы
Igor Ivanov4/5/08 21:41
to заятсъ: по-моему Data Mining -- это другое, это когда нужно найти довольно легко идентифицируемую информацию в огромном массиве шума. Такая задача не требует "понимания" информации (если я ошибаюсь, поправьте).
ОтветитьУдалить
Ответы
Анонимный4/5/08 23:35
Dear Igor,

Я процитировал Ваш пост на scientific.ru и такую кашу этим заварил... ой-ой-ой.

http://www.scientific.ru/dforum/scilife/120985602

под словом "эксперд" я не имел ввиду Вас лично.
Прошу прощения если чем-нибудь задел.
ОтветитьУдалить
Ответы
Igor Ivanov5/5/08 00:31
Да уж...
Давайте, чтобы прекратить намеки и недопонимания, я кое-что поясню.

Во-первых, я ни в коей мере не призываю использовать формальные цитатометрические данные (например, такие, как я описал в своем посте) для экспертного заключения. Эксперт обязан достаточно хорошо знать свою область, чтобы оценить статью или проект исключительно на основе научной содержания. Если он опирается на статистику чужих отзывов -- это халтура.

То, что с Вашей подачи там пошло обсуждение того, что "вот так теперь нас будут экспердировать" -- это уж такая там публика собралась, я думаю. Уж у кого что болит...

Во-вторых, что касается меня лично -- я не вхожу ни в какой экспертный совет и не оцениваю ничьи проекты. Зато в те статьи, которые мне иногда приходят из журналов на рецензию, я вникаю полностью, с повторением некоторых расчетов и чтением других статей авторов. Чужими отзывами я не интересуюсь.

Насчет "приближенного" я вообще не понял -- к кому или чему я приближенный?

В-третьих, легко заметить, что я привел пример статьи из области, в которой я не эксперт. Мне, как Вы могли заметить, интересны многие области -- от теории категорий до климатологии, от шаровых молний до нейрофизиологии. Я в них совсем не специалист, но мне эти области интересны. И знакомлюсь я с ними не по СМИ, а по оригинальным статьям. А поскольку поток статей очень большой, мне требуются механизмы отсева и оценки, например, такие, как я описал в посте.

Будь у меня программа, которую я описал, мне было бы гораздо удобнее следить за новостями науки в далеких от меня областях. Я не собираюсь никому навязывать статистические результаты такой программы; они просто удобны мне для собственного образования. Максимум, я могу лишь делиться своим мнением, но ни на какую экспертную оценку это не тянет.

Так что на сайентифике идет битва с какими-то своими, сугубо личными мельницами. Правда, почему-то в этой битве время от времени ссылаются на меня.
ОтветитьУдалить
Ответы
Анонимный9/5/08 09:30
Хочу сказать, что эту тему лучше всего могут просвятить на форумах вебмастеров например
_ttp://www.umaxforum.com/
_ttp://forum.searchengines.ru/
_ttp://www.nulled.ws/
или на блогах.
ОтветитьУдалить
Ответы
Igor Ivanov10/5/08 21:51
Спасибо за ссылки, но я сомневаюсь, что эти вещи сейчас уже существуют в виде какого-то готового продукта. Они должны опираться на некое осмысление текста, и без зачатков ИИ тут не обойтись.

Я несколько лет назад пробовал один сервис, англоязычный (забыл название), который брал веб-страницу и реферировал ее, ужимая до нужного размера -- в полстраницы, в один абзац, в два предложения и т.п. Утверждалось, что эта программа сама распознает ключевые утверждения в тексте и именно их оставляет в реферате, выкидывая все второстепенное.

Ну на типичных СМИшных новостях она работала еще ничего так, просто потому, что они все пишутся шаблонно. Но когда я ей скармливал научный текст, она совершенно не понимала, что там важное, что нет; получался набор выдернутый из контекста фраз.

Может, конечно, с тех пор что-то изменилось.
ОтветитьУдалить
Ответы
Анонимный13/5/08 02:25
Дело еше в том что сейчас тема различной обработки веб контента, генерации текста, это очень прибыльный но несовсем честный бизнес, поэтому никто в открытую хвастать своими успехами небудет и многие лучшие программы, скрипты никак непродаются. И конечно это все быстро развивается несмотря на частичную закрытость.

Вот пример примитивного ИИ http://vesna.yandex.ru/pushkin
"юморной генератор стихов пушкина и рефератов"

Вообше я в этом деле совсем новичок, форумы эти только читаю, но думаю нужная программа должна быть, у сео-вебмастеров есть очень много програмных инструментов.
ОтветитьУдалить
Ответы
Анонимный17/5/08 08:59
Нечто подобное есть и в виде готовых продуктов. Такое ПО называется "программы агрегирования и автоматической рубрикации". Хотя я не уверен, что это общепринятое название, но есть достойные реализации даже среди отечественных продуктов, например:

http://cognitive.ru/products/astarta.htm

Поищите аналоги, может быть что-то интересное всплывёт.
ОтветитьУдалить
Ответы
Igor Ivanov17/5/08 21:20
Спасибо. Судя по описанию, это уже нечто похожее. Интересно, правда, насколько эффективно это работает.
ОтветитьУдалить
Ответы
Анонимный18/5/08 08:01
Судить об эффективности сложно, ведь это зависит от задач, которые возлагаются на программу :) Одно могу сказать, никаких аналогов ИИ там нет, там используются достаточно продвинутые парсеры, которые учитывают множество тонкостей, сама программа построена на базе одного из типов нейросети с возможностью самообучаться(техники продвинутые, сейчас к таким любят добавлять "с элементами ИИ", хотя я считаю это понт:) )
ОтветитьУдалить
Ответы
Анонимный11/7/08 01:35
В некоторых случаях можно использовать Индекс Хирша, основаный на цитируемости автора.
h-index определяеться просто: h-10 означает, что ученый опубликовал десять статей, на каждую из которых найдется не менее десяти ссылок.
Вот интересная статья - http://www.lenta.ru/articles/2005/08/31/index/
а в этой приведен рейтинг ученых из некоторых научных сфер -
http://ru.wikipedia.org/wiki/H-индекс
ОтветитьУдалить
Ответы

Добавить комментарий

Страницы

2 мая 2008 г.

Возьму программу в информационное рабство

13 комментариев:

2 мая 2008 г.