Informatyka

Bardzo proszę o napisanie referatu na 3 strony A4 na temat Jak działają wyszukiwarki internetowe i co z tego wynika? Pozdrawiam :)

Odpowiedź

franka666

Google i inne wyszukiwarki w Polsce Najpierw najważniejsza informacja: Google rządzi w Polsce! Zajrzyj koniecznie na ranking.pl - firma Gemius zamieszcza tam statystyki popularności poszczególnych wyszukiwarek (i nie tylko). Jeden z moich znajomych mówi, że 98% wejść na jego stronę pochodzi właśnie z wyszukiwarki Google. Moje doświadczenia są podobne. Jaki płynie z tego wniosek? Powinieneś pozycjonować swoją witrynę najpierw "pod" Google. Później ewentualnie poświęcisz swój czas i pieniądze na inne wyszukiwarki. Na polskim rynku wyszukiwania liczą się jeszcze Onet i Wirtualna Polska, ale... są w tyle za Google. Zatem pytanie jak działają wyszukiwarki, powinno brzmieć: jak działa Wielki Brat G. Jeśli dobrze wypozycjonujesz stronę w Google, stosując przy tym właściwe, etyczne i dozwolone metody i techniki, osiągniesz wtedy dobre pozycje również w innych wyszukiwarkach. Skupimy się zatem na wyszukiwarce Google. Z czego składa się wyszukiwarka? Wyszukiwarka składa się z 4 podstawowych elementów: > pajączka > bazy danych i indeksu > programu wyszukującego. Przyjrzyjmy się im nieco bliżej, aby zrozumieć, jak działają wyszukiwarki. Pajączek (inaczej: robot, spider, crawler) Pajączek to program, który czyta zlecone mu strony (podobnie do przeglądarki). Czyta kod strony, zapamiętuje go i poddaje analizie. Jednak w odróżnieniu od przeglądarki, spider czyści kod ze zbędnych dla niego znaczników HTML i zapisuje tylko interesujący go tekst. Tekst ten z kolei ma własne znaczniki informujące na dalszym etapie program wyszukujący, gdzie dany fragment tekstu się znajdował w kodzie strony: czy był to tytuł, nagłówek, zwykły tekst itp., itd. Crawler po przeczytaniu strony podąża kolejno po linkach (inaczej: łączach, odnośnikach), znajdujących się na stronie, do podstron w tej samej domenie /subdomenie (jest to tzw. deep crawling), również je czytając. Wyszukiwarki mają zdefiniowaną głębokość, na którą zagłębia się pajączek. Przyjęło się, że najważniejsze strony powinny być najdalej 2-3 kliknięcia od strony głównej. Trzymaj się tej zasady. Po analizie danego serwisu robot wyszukiwarki, poprzez linki kierujące na zewnątrz, trafia na inne strony internetowe. Pamiętaj: aby Twoja strona została zindeksowana przez daną wyszukiwarkę, musi prowadzić do niej przynajmniej 1 łącze, dzięki któremu dotrze do niej pajączek. Można także próbować uzyskać indeksację strony wyłącznie poprzez zgłoszenie jej do katalogu danej wyszukiwarki (co i tak należy wykonać) lub zgłoszenie jej samej wyszukiwarce. Jednak najlepszym rozwiązaniem jest "naturalne" znalezienie przez robota naszej strony - czyli przez łącze z innego serwisu internetowego. Baza danych i indeks Zebrane przez robota informacje przekazywane są następnie do bazy danych wyszukiwarki. Na zindeksowane strony roboty wracają po pewnym (określonym) czasie lub przy ponownym zaproponowaniu strony do indeksacji. Sprawdzają wówczas, czy strony się zmieniły i ewentualnie aktualizują swoje zasoby. Baza danych jest indeksowana. Tworzy się więc indeks. To, czy strona pojawi się w wynikach wyszukiwania, zależy od tego, czy została uwzględniona w indeksie. Indeks to spis wszystkich słów wraz z odnośnikami do miejsc występowania ich w bazie danych. Indeks wyszukiwarki można porównać do indeksu, który można znaleźć w książkach - idea działania jest w zasadzie identyczna. Warto dodać, że m.in. Google i WP zapamiętują w osobnej bazie danych całą treść stron i udostępniają je w swoim archiwum, jako tzw. kopie. Program wyszukujący Kiedy internauta wpisuje jakieś słowo / frazę w wyszukiwarce, program wyszukujący przeszukuje indeks w poszukiwaniu tego słowa /zwrotu. Jeśli dane słowo zostanie znalezione, program wyszukujący czyta wszystkie strony z bazy danych oznaczone w indeksie jako zawierające dane zapytanie. Następnie ocenia wartość każdej strony Oceną strony zajmują się algorytmy w samym programie wyszukującym, dodatkowy program (np. Page Rank w Google) i np. fakt pojawienia się strony w katalogu danej wyszukiwarki (np. DMOZ dla Google). nternet to ogromna składnica (repozytorium) informacji, która coraz częściej zastępuje tradycjną bibliotekę. Informacja to dzisiaj kluczowy element niezbędny do konkurowania na coraz bardziej wymagającym rynku, jednak odszukanie interesujących nas informacji spośród blisko 5 miliardów stron internetowych, bo na tyle się dzisiaj szacuje ich ilość, to nie proste zadanie. Uproszczony mechanizm działania wyszukiwarek Wyszukiwarki intrnetowe to narzędzia, które za pomocą wbudowanych mechanizmów i algorytmów pozwalają na zminimalizowanie tych 5 mld. stron do mniejszego zbioru, który człowniek mógłby ogarnąć. W dużym uproszczeniu, wyszukiwarki najpierw indeksują strony internetowe czyli przeglądają ich zawartość i zapisują odpowiednie informacje w swojej bazie danych. Następnie, gdy użytkownik poda poszukiwane słowa, wyszukiwarka znajduje w swojej bazie danych wszystkie strony, które zawierają poszukiwane słowa i zwraca linki do tych stron. Kolejność, w jakiej zwracane są linki przez wyszukiwarkę, zależy od wewnętrznych mechanizmów konkretnej wyszukiwarki. Mechanizmy te są najbardziej strzeżoną tajemnicą, jednak ogólne mechanizmy jakimi się kierują przeglądarki przy ustalaniu kolejności linków są znane. Właścicielom stron zależy, żeby ich strona znalazła się na pierwszej stronie wyników wyszukiwania określonych fraz. Np. firma informatyczna tworząca strony internetowe chce, aby jest strona znalazła się na pierwszej stronie wyników wyszukiania frazy: "tworzenie stron internetowych" czy "strony www". Jest to o tyle ważne, że badania pokazują, że użytkownicy nie przeglądają więcej niż 100 pierwszych wyników, a 30 pierwszych pozycji uznaje się za najbardziej pożądane. Robots, Spiders, Metacrawlers Robots (roboty), Spiders (pająki) i Metacrawlers to nazwy mechanizmów wyszukiwarek, które indeksują treść stron internetowych, czyli odwiedzają wszystkie napotkane strony i zapisują informacje o nich w bazie danych wyszukiwarki. W celu odnalezienia nowych stron wykorzystują linki znajdujące sie na stronach, które już znalazły. Jaka jest między nimi różnica? Roboty czytają tylko linki znajdujące się na znalezionych stronach i na ich podstawie tworzą hierarchiczną strukturę drzewiastą. Pająki czytają całą treść strony, czyli tytuł, linki, treść dokumentu oraz tzw. meta-tags. Metacrawlers natomiast zamiast odwiedzać miliardy ston internetowych, pobierają informacje z istniejących wyszukiwarek, co znacznie przyspiesza proces wyszukiwania. Rankingi istotności To, w jaki sposób tworzony jest wynik wyszukiwania (kolejność wyświetlanych linków) zależy od wewnętrznych mechanizmów wysukiwarek. Ogólnie, można podzieliść wyszukiwarki na kontorlowane przez autora strony (ang. author-controlled), kotrolowane przez redaktora wyszukiwarki (ang. editor-controlled), kontrolowane prze użytkowników (ang. user-controlled). Do tych pierwszych należy Google i Altavista, które tworzą rankingi istotności na podstawie słów kluczowych znajdujących się na indeksowanych stronach. Do drugiej grupy należą Yahoo i LookSmart, które umieszcają strony w katalogach tworzących strukturę drzwiastą. Do grupy user-contolled należy np. Direct Hit. Kategoria ta charakteryzuje się tym, że istotność obliczana jest na podstawie liczby odwiedzin danej strony przez użytkowników. Czego nie indeksują wyszukiwarki? Należy pamiętać, że wyszukiwarki nie indeksują wszystkiego, a w szczegóności: * plików binarnych - pliki typu pdf (Adobe Acrobat), doc (Microsoft Word), mp3, mpeg, avi, jpg, gif, txt * dokumenty, so któych dostęp wymaga logowania - np. intranety * strony, które zostały wykluczone przez autora poprzez umieszczenie w specjalnym pliku robots.txt Wyszukiwarka numer jeden Obecnie wyszukiwarką numer jeden jest Google i nie zanosi się w najbliższym czasie, aby ta sytuacja uległa zmianie. Swoją popularność zawdzięcza głównie mechanimowi do tworzenia wyniku wyszukiwania o nazwie Page Rank, który w dużym uproszczeniu, oblicza ważność strony na podstawie liczby linków kierujących na daną stronę, z tym, że brana jest również ważność strony, z której te linki pochodzą. Jest to również najbardziej efektywan przeglądarka indeksująca największą liczbę stron.

Dodaj swoją odpowiedź