← Разработка

Мы установили поисковый движок (YaCy), чей сайт проиндексировать и дать рекомендации?

# поисковые системы, yacy 2 минуты, 8 секунд

Было из чего выбирать, т.к. я не занимался этим > 10 лет и вот опять… Пробежался по уже знакомым движкам, но решил отказаться от Java, т.к. помню эти ковыряния ранее. 

Тогда это было очень прибыльным делом, бум поисковых систем. Все хотели иметь «свой Google».

Ну я отвлекся...

C++ отличный выбор (https://github.com/Toxu-ru/aspseek), быстро, просто. Легкий движок — десятки миллионов документов (проверено). Но не тут-то было. Вскоре понял, что много уже устарело, а что-то просто не используется сегодня. Переписывать? Нафиг.

В общем, все пути ведут опять к этой Java. Хм… Ладно, поставил YaCy, начал разбираться и обнаружил интересную вещь: его можно использовать для SEO. Довольно неожиданно. Ну да, это затратно, ставить поиск и тестировать сайт для продвижения. Но уж поскольку решил погонять YaCy, то совместим приятное с полезным.

А поиск нам все равно нужен. Каталог сайтов зачем тут? )

Чьи сайты проиндексировать и дать по ним рекомендации? Можно в личку адрес...

Так выглядит первый шаг сбора связей… А вот так строится граф по мере индексации.

Потом о движке напишу подробно, как время будет.

В базе всего вбил пока несколько сайтов ограничил глубину, т.к. надо выяснить несколько деталей связанных с базой. Что за база, как хранится (я ее нашел, но что это, надо изучить). А пока, можно чуток пополнить индекс с ручной подачей.  Можно пустить его и в открытое плавание, но 1ТБ места, что есть — мизер для этого.

Сам поиск доступен по адресу: http://search.sugata.ru/

P.S. Пример, не очень хорошего SEO:

Рисунок говорит о многом.

InstantCMS посмотрел, и тут он мне больше нравится. Вот 1,2 шага индексации основного домена. Фото загружать не стал, посмотрите в оригинальную ширину.

http://search.sugata.ru/sugata.jpg

На фото себя даже нашел. )

+6
19:59
Evg Evg
RSS
20:17 (ред)
+3

Он будет совместим с каталогом сайтов?

20:19
+4

Да, легко можно сделать интеграцию.

21:39
+3

Java 

09:37
+3

Посмотрел и… все вернулось на круги своя — Lucene. Ед. что не знаю — Solr.  

13:12
+1

Можно чужой сайтик дать?

13:41
+2

Да, конечно. Можно в личку. 

21:00
+2

Пересобрал его. И можно попробовать заново переустановить. Теперь доступны ранжирование, объявления, вики и блоги там. Интересно, просто посмотреть, как это работает. Собственно надо проверить и с локализацией. Связь с каталогом сделал. 

21:27
+2

Глянул структуру. В Java я конечно не полезу, но с xml форматом, фильтры и данные каталога могу сделать.

22:31
+4

Пока не надо. Как будут категории в каталоге, они же больше прибавляться не будут (в ближайшее время), то их в правильном формате надо подать. Он по категории свяжет свои данные, нам лишь парсер надо будет написать.

Это вид новый сборки. Специально вывел информации чуть больше. А вообще ему не хватает памяти. 1ГБ, он отваливается. 2ГБ он работает так, как сейчас. Но требует минималку 4.  Прожорлив засранец, чем Discourse. Но это Java, она любит память. Фиг ей. Не дам пока больше. Можно все 32 отдать, тогда будет летать, но надо тесты прогнать на минималки. Определился: 2ГБ — минимум.

13:25
+1

Написал вам сайт, с нетерпением жду результатов.

Загрузка...