Day by Day, Site by Site

Open source, Some Code, Troubleshooting, Good Links

Sep 14, 2015 - python

Парсер раздел "Работа" сайта avito.ru

Скрпит написан на python 2.7. Такое было техническое задание.

В репозитории располагаются “сырые” данные в “csv” файлах.

Видео пособие - “Python 3. Практика. Пишем парсер web-caйта.”

Основа кода - https://gist.github.com/mr-linch/ea6803f8df5d3805464a

Мой финальный скрипт - https://github.com/dpvpro/avito.ru.parser.work

Обновление от 28.9.2015: Авито фильтрует множественные запросы с ip адресов, поэтому скрипт до конца не отрабатывает. Рекомендую указывать для парсинга меньше страниц, 100-200. Тогда нормально работает.

Обновление от 04.10.2016: Сделал обработку исключений. Теперь скрипт записывает в файл, сколько успел напарсить.