Броузер бот |
Броузер бот |
SKVOZNJAK |
Сообщение
#1
|
Профи Группа: Пользователи Сообщений: 930 Пол: Мужской Репутация: 11 |
Тыкать длительное время на несколько кнопок в опере тупо. Известен набор ссылок которые нужно последовательно открыть броузером, сохранить в виде текстового файла, обработать программой на паскале. Нет ли под вин броузера умеющего по командам из командной строки открыть страницу и сохранить под определённым именем текстовик. После чего или закрыться или выполнить новый набор команд.
|
FreeMan |
Сообщение
#2
|
- Группа: Пользователи Сообщений: 480 Пол: Мужской Репутация: 4 |
мозилу качай. там вроде есть плаг, который поддерживает подобные скрипты.. а вобще коль ты так любешь поскаль, то в его старшем брате,в делфе, довольно крутой набор мегокомпонентов, для которых по ссылком походить ничего не стоит...
-------------------- бб
|
SKVOZNJAK |
Сообщение
#3
|
Профи Группа: Пользователи Сообщений: 930 Пол: Мужской Репутация: 11 |
Вот на дельфи не тянет, во первых, неизвестно как нужная страница будет отображаться в собранном из его компонентов броузере. А во вторых, не хочется углубляться сверх необходимости в вин В третьих, уже есть работающий прототип проги. Если частично его доработать, то пока нет смысла ради небольшого улучшения переделывать всё заново. Склепал под виндой, чуть зрение не посадил разглядывая мелкие буквочки.
Как видно из кода, это прога не просто так пилит файлы, она книги пишет Фентези с фантастикой и прочее, что в броузере читать ломово. Нужно лишь чтобы в обрабатываемых текстовиках присутствовало 2 строки типа <<< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 >>> Есть идея сделать полуавтомат: прога раз в секунду ищет файл, если находит, обрабатывает, стирает, повторяет цикл снова. А в это время пользователь в опере сохраняет текстовые файлы с одним и тем же именем на рабочий стол Естесственно, всё это чисто в ознакомительных целях. |
xds |
Сообщение
#4
|
N337 Группа: Пользователи Сообщений: 737 Пол: Мужской Репутация: 26 |
Вообще для таких целей Перл в самый раз
-------------------- The idiots are winning.
|
SKVOZNJAK |
Сообщение
#5
|
Профи Группа: Пользователи Сообщений: 930 Пол: Мужской Репутация: 11 |
Наверно это так, но для этого нужно затратить время и силы. Вначале до ассемблера надо добраться В описанном выше режиме бот уже работает. Как говорится, техника на грани фантастики: нажал на кнопку и спина в мыле
USES CRT,DOS; |
hardcase |
Сообщение
#6
|
code warrior Группа: Пользователи Сообщений: 484 Пол: Мужской Реальное имя: Славен Репутация: 8 |
Листинг ниасилил.
Но чтото мне подсказывает, что нужно элементарно сформировать http request типа get и сказать его целевому серверу в 80й порт. response'ом будет требуемая html-страничка. -------------------- ИзВ ин ИтЕ зА нЕ рОв НЫй П оч ЕРк
|
FreeMan |
Сообщение
#7
|
- Группа: Пользователи Сообщений: 480 Пол: Мужской Репутация: 4 |
hardcase, +1. это провельный патход.
ХДС, ну или пэхопэ -------------------- бб
|
xds |
Сообщение
#8
|
N337 Группа: Пользователи Сообщений: 737 Пол: Мужской Репутация: 26 |
Еще вариант:
1. Список ссылок -> файл; 2. wget -i <этот файл>; 3. Обработать полученные документы программой на Паскале. GNU Wget/Win32: http://users.ugent.be/~bpuype/wget/ Сообщение отредактировано: xds - -------------------- The idiots are winning.
|
SKVOZNJAK |
Сообщение
#9
|
Профи Группа: Пользователи Сообщений: 930 Пол: Мужской Репутация: 11 |
Не получится.
wget "mail.ru" работает wget "http://top.rbc.ru/incidents/10/10/2007/121992.shtml" тоже работает. А вот самый интересный пример: wget "http://www.litportal.ru/genre32/author654/read/page/1/book19712.html" не грузится. Но даже если с дополнительными опциями и загрузится, от сохранения в формате html толку пшик. Страница перенасыщена скриптами и даже от смены стиля текст насыщается грамматическими ошибками. Сохранять нужно в текстовом формате, а таких опций в утилите не нашёл. 21 страницу не так долго сохранить в мозиле, чуть больше тыканья мышью в опере. Не конкурирует пока такая механизация с ручным трудом Вот если б можно было как нибудь сохранять текущую страницу на рабочем столе в формате текстового файла под именем 1.txt двумя кликами мышки Вечно разработчики не додумываются до таких простых и полезных функций |
hardcase |
Сообщение
#10
|
code warrior Группа: Пользователи Сообщений: 484 Пол: Мужской Реальное имя: Славен Репутация: 8 |
от сохранения в формате html толку пшик. Страница перенасыщена скриптами Ну, можно извратиться и написать xslt конвертер (используется для преобразования xml файлов и строгих html) который грохнет <script> </script> теги, <img/> и прочие ненужные, на вскидку, он займет строк 20-30. Кроме того, для процедурных языков есть регулярные выражения, с которыми воообще можно творить чудеса. Сообщение отредактировано: hardcase - -------------------- ИзВ ин ИтЕ зА нЕ рОв НЫй П оч ЕРк
|
SKVOZNJAK |
Сообщение
#11
|
Профи Группа: Пользователи Сообщений: 930 Пол: Мужской Репутация: 11 |
А толку? Это теоретические методы плохо совмещаемые с существующими реалиями. Тот кто шаблон таких страниц разрабатывал мыслил симметрично и о таких мелочах позаботился. Попробуй в броузере зайти по последней ссылке и сохрани страницу в html А затем просмотри результат блокнотом. А вот в текстовом формате опера делает практически скриншот того что есть на экране. С этим уже можно работать.
Составлять файл со списком адресов долго. Это имееет смысл если следущий адрес нельзя вычислить. В противном случае можно задать адреса только первой и последней страницы, они отличаются всего одной цифрой. Оставшиеся адреса прога вычислит самостоятельно. Последовательность работы такая: 1 Получить данные в командной строке. 2 Вычислить адрес нужной страницы. 3 Дать задание броузеру или утилите в командной строке. 4 Обработать и удалить текстовой файл. 5 При необходимости гото 2; 6 Закрытие открытого файла и выход. |
Atos |
Сообщение
#12
|
Прогрессор Группа: Пользователи Сообщений: 602 Пол: Мужской Реальное имя: Михаил Репутация: 9 |
[немного оффтоп]
Вот ещё очень простой способ сохранять сохранять файл по ссылке для Delphi (немного модифицированный мной пример из DRKB). просто сохранять, не в текстовом виде Сообщение отредактировано: Atos - Прикрепленные файлы Downloading.pas ( 1.58 килобайт ) Кол-во скачиваний: 347 |
hardcase |
Сообщение
#13
|
code warrior Группа: Пользователи Сообщений: 484 Пол: Мужской Реальное имя: Славен Репутация: 8 |
Последняя ссылка конечно интересна.
Код "http://www.litportal.ru/genre32/author654/read/page/1/book19712.html" Только проблема в том, что браузер строит эту страничку скриптом - в некоторый момент происходит постбек - подргрузка контента (Чистовика), если догове время посидеть под JavaScript отладчиком (например в FireFox2), можно понять, как строится тот постбек и элементарно вычислить, откуда грузятится контент - т.е. хакнут защиту, сейчас уже поздно заниматься сим делом, потерплю до завтра.... Сообщение отредактировано: hardcase - -------------------- ИзВ ин ИтЕ зА нЕ рОв НЫй П оч ЕРк
|
Текстовая версия | 8.05.2024 12:18 |