Список форумов SeoChase SeoChase

 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы  РекламаРеклама   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Тексты для дорвеев
На страницу 1, 2  След.
 
Начать новую тему   Ответить на тему    Список форумов SeoChase -> SEO
Предыдущая тема :: Следующая тема  
Автор Сообщение
Mauser
Secretary of the Treasury


Зарегистрирован: 20.06.2004
Сообщения: 2271

СообщениеДобавлено: Вт Мар 15, 2005 4:25 pm    Заголовок сообщения: Тексты для дорвеев Ответить с цитатой

Наверное некоторые обращали внимание что тексты просто составленные из перемешаных слов как-то гуглем боле не любимы. Однако есть способы обойти это ограничение. По умному полностью это называется "цепи Маркова", но простой способ я опишу прямо в паре слов тут.
1. Берем случайное слово в тексте идущее после точки. Это первое слово нового текста.
2. Затем ищем другие вхождения этого слова в текст.
3. Прыгаем случайным образом на одно из них и берем в качестве второго слова текста то, которое идет за результатом прыжка.
3....10000 повторяем такую же операцию.

Соответственно мы никогда не получим невозможного сочетания типа "is are" в тексте. Редкие словосочетания типа "ой ты гей еси добрый молодец" так и будут воспроизведены в точности (ибо слово "еси" будет иметь единственное вхождение в текст и случайные прыжки будут по сути командой взять следующее слово. Текст получится тематическим и с правильным соседством слов, так как словосочетания составляются с той же частотой что они встречаются в реальном тексте.

Естественно чем больше текст для обработки - тем лучше. Тем больше в нем ВОЗМОЖНЫХ комбинаций встречается. Если текст имеет размер 100кб, то нагенерить из него можно куски и подлиннее, так как раз от разу будет разный порядок словосочетаний.

Знаки препинания можно расставлять или аналогично, по сути считая их словами или, к примеру, считать слово "слон" и "слон." просто разными словами.
Аналогично двухсловикам можно работать с трехсловными комбинациями и так далее. Тут принцип такой: мы берем прыжки не с равной вероятностьью, а тем выше чем больше наложение трехсловной комбинаци. То есть есть скажем в тексте встречаеся слово "рога", попрыгав вы нашли два вхождения "И" после него, и одно "буйвола". Остановили свой выбор на "и". Теперь ищем продолжение И. ну таких слов у нас много, но мы даем больший вес версии "копыта", так как тут есть совпадение трехсловного куска "рога и копыта". Скажем премируем двумы лотерейными билетами слово "копыта" за такое вот двойное совпадение.

В общем детали реализации могут быть самые разные, ядро идеи тоже самое.
_________________
Золото | Реальность | Серебро | Gun auction
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
ua3nbw
Lincoln


Зарегистрирован: 23.06.2004
Сообщения: 153

СообщениеДобавлено: Вт Мар 15, 2005 8:03 pm    Заголовок сообщения: Re: Тексты для дорвеев Ответить с цитатой

Mauser писал(а):
Наверное некоторые обращали внимание что тексты просто составленные из перемешаных слов как-то гуглем боле не любимы.


ну наверно можно не слова мешать , а предложения.
хотя чейто слетели сейчас многие наработки.
именно с перемешкой предложений.
хотя на некоторых сайтах есть в выдаче страницы которые отличаются между собой одной ключевой фразой, а текст небольшой идентичен.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Mauser
Secretary of the Treasury


Зарегистрирован: 20.06.2004
Сообщения: 2271

СообщениеДобавлено: Вт Мар 15, 2005 9:01 pm    Заголовок сообщения: Ответить с цитатой

В том и трабла что при больших перемешанных кусках получается тексты похожи по шинглам
_________________
Золото | Реальность | Серебро | Gun auction
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
ua3nbw
Lincoln


Зарегистрирован: 23.06.2004
Сообщения: 153

СообщениеДобавлено: Вт Мар 15, 2005 9:52 pm    Заголовок сообщения: Ответить с цитатой

Вот нашел на хакере

Цитата:
шинглы - система подстрочного анализа контрольной суммы письма. Для анализа можно прихватить отдельный символ, слово или целое предложение. Например, расставив контрольные точки между двумя буквами строки. Даже с изменениями в письме, по установленным шинглам можно будет обнаружить дубликаты. И чем больше обрабатываемая часть текста письма, тем выше вероятность выявления письма-копии, однако это дает большую нагрузку на сервер.


похоже и по предложеной тобой системе
от бана можно тоже пострадать
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Mauser
Secretary of the Treasury


Зарегистрирован: 20.06.2004
Сообщения: 2271

СообщениеДобавлено: Вт Мар 15, 2005 10:27 pm    Заголовок сообщения: Ответить с цитатой

Сегалович писал(а):
Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!


В том и суть что 10-словия (8-словия и т.п.) повторяться не будут.

Считай сам: предположим что в тексте исходном 10000 слов и словарь автора насчитывает 2000 разных слов. Простоты ради будем считать их равноиспользуемыми, то есть каждое слово использовано по 5 раз. То есть двигаясь по описаному мною алгоритму шансы повторить имеющееся 10-словие равны 0.2^9, то есть практически нулевые. При этом если кто-то проверяет твой текст на вхождение невозможных в языке пар слов - он обломается, в твоем тексте таковых нет.
_________________
Золото | Реальность | Серебро | Gun auction
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
dimok
Lincoln


Зарегистрирован: 22.06.2004
Сообщения: 107

СообщениеДобавлено: Ср Мар 16, 2005 8:34 am    Заголовок сообщения: Ответить с цитатой

Есть еще прикольная тема: концептуальные графы. Строят из каждого предложения граф. Ну это нужно чтобы семантикой баловаться. Но в генераторе можно заюзать так: просто брать и перемешивать подграфы Wink
Думаю, это лучше чем то, что ты написал.

PS. Я ща как раз ищу парсер для этого дела...
_________________
Блог Димка
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Drow
Lincoln


Зарегистрирован: 01.07.2004
Сообщения: 1006
Откуда: Новокузнецк

СообщениеДобавлено: Ср Мар 16, 2005 10:45 am    Заголовок сообщения: Ответить с цитатой

Подумалось, ворд умет автоматом проверять граматику предложений, почему это не может делать гуль? Проверил текст, подсчитал все ошибки, и если они выше какого-то предела, выкинул текстовку из базы.
Придется для марковского алгортима, увеличивать колв-во слов в фразе, работать с 4-5 словами, а это неизбежно скажется на продуктивность работы, будут петли попадатся, или однообразные предложения.
Графы проблему граматики тоже не решают.
_________________
Дешевые домены за Webmoney
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
alexro
Квоттер


Зарегистрирован: 23.06.2004
Сообщения: 116
Откуда: Москва

СообщениеДобавлено: Ср Мар 16, 2005 12:34 pm    Заголовок сообщения: Ответить с цитатой

С чек суммами бороться проще пареной репы Smile

Берется словарь синонимов (антонимом и тд) и получаем в каждом предложении:

today -> this day, now (etc)

Вопрос только в обширности и точности словаря, но работать будет просто с реактивной скоростью, чего не скажешь о цепях и графах
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Mauser
Secretary of the Treasury


Зарегистрирован: 20.06.2004
Сообщения: 2271

СообщениеДобавлено: Ср Мар 16, 2005 4:52 pm    Заголовок сообщения: Ответить с цитатой

alexro, ты видел реально работающую реализацию на словаре синонимов?

dimok, э-э-э... какой граф?
_________________
Золото | Реальность | Серебро | Gun auction
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
alexro
Квоттер


Зарегистрирован: 23.06.2004
Сообщения: 116
Откуда: Москва

СообщениеДобавлено: Ср Мар 16, 2005 7:16 pm    Заголовок сообщения: Ответить с цитатой

[quote="Mauser"]alexro, ты видел реально работающую реализацию на словаре синонимов?

Да, собственный генератор доров. Только словари у меня пока небольшие и узконаправленные. Проблемы, чтобы расширить нет, но не пришло время еще видимо
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Mauser
Secretary of the Treasury


Зарегистрирован: 20.06.2004
Сообщения: 2271

СообщениеДобавлено: Ср Мар 16, 2005 10:31 pm    Заголовок сообщения: Ответить с цитатой

А покажи пример текста плз
_________________
Золото | Реальность | Серебро | Gun auction
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
alexro
Квоттер


Зарегистрирован: 23.06.2004
Сообщения: 116
Откуда: Москва

СообщениеДобавлено: Чт Мар 17, 2005 12:34 am    Заголовок сообщения: Ответить с цитатой

Mauser писал(а):
А покажи пример текста плз


Тут по идее нужно словари показывать, потому что каждое предложение практически не теряет читабельности, только становится немного сумбурнее и немного бессмысленнее Smile Человек, плохо знакомый с языком и тематикой легко может ошибиться.

Словари показать не могу, наработки все таки. Да и текст если покажу, многие наработки проявяться сразу, так что извиняйте.

К слову, синонимы для дорвея совсем интересные могут быть, не как в жизни. Точнее будет их просто заменяемыми словами обозвать.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
dimok
Lincoln


Зарегистрирован: 22.06.2004
Сообщения: 107

СообщениеДобавлено: Чт Мар 17, 2005 6:13 am    Заголовок сообщения: Ответить с цитатой

Маузер, смотри:
http://www.google.com/search?q=conceptual+graphs
вот пример http://www.jfsowa.com/cg/cgexamp.htm
_________________
Блог Димка
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Back Door Man
Квоттер


Зарегистрирован: 02.07.2004
Сообщения: 151

СообщениеДобавлено: Чт Мар 17, 2005 8:01 pm    Заголовок сообщения: Ответить с цитатой

Я примерно такую систему и использую.
Про Маркова не слышал, буду знать Laughing

Как я понимаю,бесплатный генератор by Mauser примерно так и работает, результаты все видели, каждый их оценивает по своему.

По-своему генератору могу сказать - однозначно лучше, чем тупо перемешивать слова.
Однако все равно бывает и довольно часто, что гугль кеш не хранит aka считает текст дублем. Повторений длиннее 4-5 слов нет.
Возможно, он еще проверяет частоты по каждому слову (ресурсов надо еще меньше, чем шинглы считать) и тут понятное дело, новому тексту взяться неоткуда.
Как говорится, скока навоз не мешай, варенье не выйдет.
_________________
Узнай сколько стоит твоя машина!
Проверь код своего сайта. Частотность текста с русской морфологией. Arrow
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Drow
Lincoln


Зарегистрирован: 01.07.2004
Сообщения: 1006
Откуда: Новокузнецк

СообщениеДобавлено: Пт Мар 18, 2005 6:51 am    Заголовок сообщения: Ответить с цитатой

Написал тут намедни простенький генератор текста на технологии от г-н Маркова Smile, то-ли руки кривые, то-ли так должно быть, медленно получется до жути, генерация одной страницы текста по 1,5 мегб. исходному тексту, занимает добрых пол-часа Sad
_________________
Дешевые домены за Webmoney
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов SeoChase -> SEO Часовой пояс: GMT
На страницу 1, 2  След.
Страница 1 из 2

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group