[C#] Clutch Internet Crawler 0.6 Alpha
: 16 cze 2012, 9:41
Po dwóch dniach zabawy z modyfikowaniem LongBar'a (sprowadzałem program do wersji .NET Framework 2.0, tak aby zachować wszystkie funkcje), zrobiłem sobie przerwę i napisałem prosty crawler webowy, nazwa "Clutch" to nie sprzęgło, jak się to tłumaczy najczęściej, a w tym przypadku "Chwytak".
Napisałem go, ponieważ chciałem zapisać większą ilość obrazków z pewnej strony na raz, czego efektem ubocznym jest ten program. Najwięcej roboty było przy wielowątkowości (kilka razy zdarzyło mi się przy tym pierdzielnąć głową w biurko o tak -> :mur: ), o której poniżej.
Program korzysta z wielowątkowości (do 100 wątków w jednej instancji programu), co zapewnia większą wydajność programu, zwłaszcza na procesorach wielordzeniowych. Mamy możliwość zapisania loga crawlingu do pliku tekstowego. Dla stron HTML została napisana obsługa różnych kodowań tekstu, oraz "Użycia tego, które Windows uważa za najlepsze", czyli domyślnego w systemie. Istnieje możliwość wykluczenia stron o podanych domenach i słowach, oraz pobieranych plików o podanych rozszerzeniach. Program obsługuje typy MIME, oraz umożliwia dodanie typów użytkownika.
Do zrobienia jest jeszcze kilka rzeczy, mianowicie zatrzymywanie pojedynczych wątków, notowanie błędów zwracanych przez strony, oraz konsola wyjścia, oczywiście Wasze propozycje są mile widziane.
Zapraszam do testowania i zgłaszania wszelkich błędów, bo jeszcze nie wszystkie wyjątki są obsługiwane, a program zawiera masę niedociągnięć.
Screenshoty:
Oops... Przypadkiem trafił na ISO Sigmy
Program do pobrania w załączniku.
Napisałem go, ponieważ chciałem zapisać większą ilość obrazków z pewnej strony na raz, czego efektem ubocznym jest ten program. Najwięcej roboty było przy wielowątkowości (kilka razy zdarzyło mi się przy tym pierdzielnąć głową w biurko o tak -> :mur: ), o której poniżej.
Program korzysta z wielowątkowości (do 100 wątków w jednej instancji programu), co zapewnia większą wydajność programu, zwłaszcza na procesorach wielordzeniowych. Mamy możliwość zapisania loga crawlingu do pliku tekstowego. Dla stron HTML została napisana obsługa różnych kodowań tekstu, oraz "Użycia tego, które Windows uważa za najlepsze", czyli domyślnego w systemie. Istnieje możliwość wykluczenia stron o podanych domenach i słowach, oraz pobieranych plików o podanych rozszerzeniach. Program obsługuje typy MIME, oraz umożliwia dodanie typów użytkownika.
Do zrobienia jest jeszcze kilka rzeczy, mianowicie zatrzymywanie pojedynczych wątków, notowanie błędów zwracanych przez strony, oraz konsola wyjścia, oczywiście Wasze propozycje są mile widziane.
Zapraszam do testowania i zgłaszania wszelkich błędów, bo jeszcze nie wszystkie wyjątki są obsługiwane, a program zawiera masę niedociągnięć.
Screenshoty:
Oops... Przypadkiem trafił na ISO Sigmy
Program do pobrania w załączniku.