Добавлено: Вт Мар 15, 2005 4:25 pm Заголовок сообщения: Тексты для дорвеев
Наверное некоторые обращали внимание что тексты просто составленные из перемешаных слов как-то гуглем боле не любимы. Однако есть способы обойти это ограничение. По умному полностью это называется "цепи Маркова", но простой способ я опишу прямо в паре слов тут.
1. Берем случайное слово в тексте идущее после точки. Это первое слово нового текста.
2. Затем ищем другие вхождения этого слова в текст.
3. Прыгаем случайным образом на одно из них и берем в качестве второго слова текста то, которое идет за результатом прыжка.
3....10000 повторяем такую же операцию.
Соответственно мы никогда не получим невозможного сочетания типа "is are" в тексте. Редкие словосочетания типа "ой ты гей еси добрый молодец" так и будут воспроизведены в точности (ибо слово "еси" будет иметь единственное вхождение в текст и случайные прыжки будут по сути командой взять следующее слово. Текст получится тематическим и с правильным соседством слов, так как словосочетания составляются с той же частотой что они встречаются в реальном тексте.
Естественно чем больше текст для обработки - тем лучше. Тем больше в нем ВОЗМОЖНЫХ комбинаций встречается. Если текст имеет размер 100кб, то нагенерить из него можно куски и подлиннее, так как раз от разу будет разный порядок словосочетаний.
Знаки препинания можно расставлять или аналогично, по сути считая их словами или, к примеру, считать слово "слон" и "слон." просто разными словами.
Аналогично двухсловикам можно работать с трехсловными комбинациями и так далее. Тут принцип такой: мы берем прыжки не с равной вероятностьью, а тем выше чем больше наложение трехсловной комбинаци. То есть есть скажем в тексте встречаеся слово "рога", попрыгав вы нашли два вхождения "И" после него, и одно "буйвола". Остановили свой выбор на "и". Теперь ищем продолжение И. ну таких слов у нас много, но мы даем больший вес версии "копыта", так как тут есть совпадение трехсловного куска "рога и копыта". Скажем премируем двумы лотерейными билетами слово "копыта" за такое вот двойное совпадение.
Добавлено: Вт Мар 15, 2005 8:03 pm Заголовок сообщения: Re: Тексты для дорвеев
Mauser писал(а):
Наверное некоторые обращали внимание что тексты просто составленные из перемешаных слов как-то гуглем боле не любимы.
ну наверно можно не слова мешать , а предложения.
хотя чейто слетели сейчас многие наработки.
именно с перемешкой предложений.
хотя на некоторых сайтах есть в выдаче страницы которые отличаются между собой одной ключевой фразой, а текст небольшой идентичен.
Добавлено: Вт Мар 15, 2005 9:52 pm Заголовок сообщения:
Вот нашел на хакере
Цитата:
шинглы - система подстрочного анализа контрольной суммы письма. Для анализа можно прихватить отдельный символ, слово или целое предложение. Например, расставив контрольные точки между двумя буквами строки. Даже с изменениями в письме, по установленным шинглам можно будет обнаружить дубликаты. И чем больше обрабатываемая часть текста письма, тем выше вероятность выявления письма-копии, однако это дает большую нагрузку на сервер.
похоже и по предложеной тобой системе
от бана можно тоже пострадать
Добавлено: Вт Мар 15, 2005 10:27 pm Заголовок сообщения:
Сегалович писал(а):
Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!
В том и суть что 10-словия (8-словия и т.п.) повторяться не будут.
Считай сам: предположим что в тексте исходном 10000 слов и словарь автора насчитывает 2000 разных слов. Простоты ради будем считать их равноиспользуемыми, то есть каждое слово использовано по 5 раз. То есть двигаясь по описаному мною алгоритму шансы повторить имеющееся 10-словие равны 0.2^9, то есть практически нулевые. При этом если кто-то проверяет твой текст на вхождение невозможных в языке пар слов - он обломается, в твоем тексте таковых нет. _________________ Золото | Реальность | Серебро | Gun auction
Добавлено: Ср Мар 16, 2005 8:34 am Заголовок сообщения:
Есть еще прикольная тема: концептуальные графы. Строят из каждого предложения граф. Ну это нужно чтобы семантикой баловаться. Но в генераторе можно заюзать так: просто брать и перемешивать подграфы
Думаю, это лучше чем то, что ты написал.
PS. Я ща как раз ищу парсер для этого дела... _________________ Блог Димка
Добавлено: Ср Мар 16, 2005 10:45 am Заголовок сообщения:
Подумалось, ворд умет автоматом проверять граматику предложений, почему это не может делать гуль? Проверил текст, подсчитал все ошибки, и если они выше какого-то предела, выкинул текстовку из базы.
Придется для марковского алгортима, увеличивать колв-во слов в фразе, работать с 4-5 словами, а это неизбежно скажется на продуктивность работы, будут петли попадатся, или однообразные предложения.
Графы проблему граматики тоже не решают. _________________ Дешевые домены за Webmoney
Зарегистрирован: 23.06.2004 Сообщения: 116 Откуда: Москва
Добавлено: Чт Мар 17, 2005 12:34 am Заголовок сообщения:
Mauser писал(а):
А покажи пример текста плз
Тут по идее нужно словари показывать, потому что каждое предложение практически не теряет читабельности, только становится немного сумбурнее и немного бессмысленнее Человек, плохо знакомый с языком и тематикой легко может ошибиться.
Словари показать не могу, наработки все таки. Да и текст если покажу, многие наработки проявяться сразу, так что извиняйте.
К слову, синонимы для дорвея совсем интересные могут быть, не как в жизни. Точнее будет их просто заменяемыми словами обозвать.
Добавлено: Чт Мар 17, 2005 8:01 pm Заголовок сообщения:
Я примерно такую систему и использую.
Про Маркова не слышал, буду знать
Как я понимаю,бесплатный генератор by Mauser примерно так и работает, результаты все видели, каждый их оценивает по своему.
По-своему генератору могу сказать - однозначно лучше, чем тупо перемешивать слова.
Однако все равно бывает и довольно часто, что гугль кеш не хранит aka считает текст дублем. Повторений длиннее 4-5 слов нет.
Возможно, он еще проверяет частоты по каждому слову (ресурсов надо еще меньше, чем шинглы считать) и тут понятное дело, новому тексту взяться неоткуда.
Как говорится, скока навоз не мешай, варенье не выйдет. _________________ Узнай сколько стоит твоя машина! Проверь код своего сайта. Частотность текста с русской морфологией.
Добавлено: Пт Мар 18, 2005 6:51 am Заголовок сообщения:
Написал тут намедни простенький генератор текста на технологии от г-н Маркова , то-ли руки кривые, то-ли так должно быть, медленно получется до жути, генерация одной страницы текста по 1,5 мегб. исходному тексту, занимает добрых пол-часа _________________ Дешевые домены за Webmoney
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах