← Разработка

YaCy - программа поисковой системы

3 минуты, 48 секунд
YaCy - программа поисковой системы

YaCy — бесплатное программное обеспечение для вашей собственной поисковой системы

Может работать и в режиме децентрализации. При таком подходе поиск не использует центральный сервер. Вместо этого его результаты поиска поступают из сети независимых коллег. В такой распределенной сети ни один объект не решает, что будет указано в списке или в каком порядке появятся результаты.

YaCy имеет графический интерфейс, что несколько необычно для поисковых систем:


Сам ранее (несколько лет) работал именно с поиском по сети и командная строка — самое лучшее администрирование. Но времена поменялись, все видимо идет в сторону WordPress:

жми на кнопку получишь результат...

Вот, теперь изучаю то, что они наворотили.

После установки программы все предельно просто.

1. Выбираем язык интерфейса

2. Выбираем цель использования YaCy:

Групповой вэб-поиск
Регистрация и поддержка глобальной сети 'FreeWorld', поиск в интернете без цензуры пользовательской поисковой сети.

Поиск на ваших собственных сайтах
Ваш YaCy ведет себя независимо от других участников сети, и вы имеете свой собственный веб-индекс, начав самостоятельно индексировать веб. Это может быть использовано для поиска на собственном сайте или для создания тематического поискового портала.

Поиск в сети
Создайте поисковый портал для вашей интранет-сети или веб-страниц, или вашей (распределённой) файловой системы. URL-адреса могут быть использованы с HTTP/HTTPS/FTP и локальным именем домена или IP-адресом, или ссылки file:///<path> или smb://<server>/<path>

3. Определяем имя вашего узла
4. Устанавливаем доступ для других узлов
5. Настраиваем индексатор

В нашем случае я лишь скормил ему те ссылки, которые уже занесены в наш каталог сайтов:

И глобально ограничил глубину сканирования и max количество документов. Не хочу пока нагружать запросами рабочие сайты. Результатов мало, но для анализа и разработки (для начала) вполне сойдет.

Занесенные цели и связи сайта Toxu.ru (как пример)

Кстати, в каталоге поменял вывод результатов, добавил превью сайта. Думаю так смотрится более полно.

Ссылка на сам каталог: https://sugata.ru/web

Добавил закрепление ресурсов, горизонтальные и вертикальные связи по категориям и самим ссылкам. Связал каталог и поиск для получения, например, favicon сайтов. Ранее использовался сторонний скрипт. Убрал, меньше кода — лучше.

Старое предложение, дать совет по SEO остается в силе, для этого достаточно написать мне в личку (или сюда) адрес своего сайта, он будет добавлен пока только в поисковик (не в каталог) для анализа.

Логика поисковых систем практически одинакова, отличаются они (если упрощать) фильтрами, весами различных элементов.

Сами исходники (Java):

https://github.com/yacy/yacy_search_server

Там есть 3 уязвимости, если клонируете, то узнаете какие. На исправленную версию ссылку не даю, она сырая.

Первые анализы показали то, что собственно было ранее: масса дублируемого контента. Например, некоторые сайты упорно не хотят закрывать для индексации «теги» и прочий мусор (для поиска). Поисковикам это не особо нравится. Будет время (как обещал) напишу про теги. Они разные бывают. Есть такие теги, на таких сайтах, что их «грех» закрывать. Ведь вокруг них все и крутится. Но в большинстве случаев теги для поиска — хлам...

Сам поиск можно попробовать тут: http://search.sugata.ru/

На данный момент там менее 200 сайтов с очень ограниченным индексом, но глянуть можно.

YaCy поисковая система работает во втором режиме (поиск по «своим» сайтам).

+6
21:03
819
Evg Evg
21:23
+4

Написал вам еще про 2 сайта. 

21:33
+3

Я помню мы искали всегда слово из 3 букв. Находит — уже хорошо. 

21:37
+3

Смех смехом, но в 2001 году, когда мы сделали поиск первый, наверное 8 человек из 10, когда я показывал его, искали именно это. Так что вот. Тут же сайты из каталога, это раз. И в индексе всего 5000 документов, это два. Но Лукоморье есть, вот и результат есть. Кстати, еще результат есть на askee, где мы просмотрели эти самые слова там. 

10:27
+2

В каталоге есть ошибка, когда ресурс добавлен, а обработка его еще не осуществлена. Нет значений рейтинга, скрина и/или favicon. Мы должны поставить заглушки на эти случаи. Занести и утвердить сайт, но дать ему 0 параметров и посмотреть.

11:40
+2

Тогда нам надо переделать. Тут не только заглушки, а видимо принудительное (ручное в том числе) извлечение данных с Lucene. Ок. Сайт добавлен, все прошло, но по одному полю данные не занеслись. У нас есть 4 поля. Что делать? Давайте я подумаю, как лучше. Мы можем поставить принудительный переобход по id сайта, например.

16:28
+2

Теперь должно работать. Давайте попробуем добавить несколько сайтов и специально заблокировать сбор данных по ним.

16:58
+2

Все работает. Погоняем еще тогда с пару недель. 

19:13
+2

Давайте переделаем центральную страницу каталога. Показывать один сайт из последних — ущемление прав. 

19:32
+1

Давайте три выведем.  

И убрал у новых скрин. Не в том дело, что он может быть не будет обработан, и будет показано 3 заставки, больше чтобы разбавить дизайн.

22:54 (ред)
+1

Готово. Разобрался, как с помощью интерфейса управлять.

1. Убиваем индекс — одна кнопка. 

2. Натравливаем файл, в который сливаются url с базу (они дописываются по мере добавления).

3. Настраиваем конфиг, чтобы исключить повторы, глубину и др.

4. Получаем «сырой индекс».

5. А далее самое интересное — фильтры, группировка и сливание индекса в разные сегменты базы. 

6. Сейчас в списке 200 сайтов с глубиной 100. Завтра посмотрим, что это такое.

Вот так выглядит список из каталога и отчет на 17 страницах. + разные мониторинги загрузки:

Памяти чуток не хватает. Прерывать не буду, забыл этому засранцу потоки ограничить… Хорошо, хоть глубину сделал меньше и max количество документов 100. А то было 100.000 с сайта.

23:02
+1

Читаю про него сейчас. Зверь машина.

23:16
+1

Так. Он все сделал. Хм. 200 сайтов. Меньше 20 минут!  

23:22
+1

Давайте тогда добьем до 1000 сайтов. У нас же база есть, только утверждать. 

23:24
+1

Разделы, сделаю их завтра уже. И туда будем помещать. Я бы хотел конечно закрыть все 457 тем русского, а потом посмотреть с глубиной 2 (не важно сколько страниц), как он искать будет. Убрал в выдачи теги и разные «левые» ссылки.

Загрузка...