Собственно не только Маузеру вопрос. Пытаюсь понять как автоматизировать отбор результатов выдачи того же гугла, еще это можно назвать "поиск образца", и столкнулся с такой проблеммой как 100% отбраковка генерированных текстов. Если при этом пострадают невинные, совсем не страшно; "казнить, нельзя помиловать"
Простейшие доры вычислить не трудно, отсутствие "a, the, of, in", отсутствие глаголов или наоборот постоянное наличие невозможных сочетаний выдают их с головой. Но если генератор качественный, исходная структура будет в целом успешно перенесена и тут я пасую.
Или пример посложней: взяли для дора отчет об отдыхе знойной девушки Веры и поменяли Веру на бензокосилку.
Анализировать смысл написанного мне не под силу, я не математик, а вот собрать статистику по текстам прозведений или новостям вполне, только пересечений с например сайтом по продаже машин будет мало. Язык, если это существенно, английский.
Добавлено: Пт Фев 24, 2006 9:13 am Заголовок сообщения:
Доры проще можно вычислять. Тянешь саму страницу и её образ из кэша Гугля. Если есть разница - значит дор Если в кэше страницы нет - тоже дор. Если "тянулка" не серверная, а клиентская, то и JavaScript'овые редиректы выловишь. _________________ БолтоЛОГ, SEOBar
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах