Парсер раздела «Работа» сайта «avito.ru». Там же «сырые» данные в «csv» файлах. Скрпит написан на python 2.7. Такое было техническое задание.
Видео пособие — «Python 3. Практика. Пишем парсер web-caйта.»
Основа кода — https://gist.github.com/mr-linch/ea6803f8df5d3805464a
Мой финальный скрипт — https://github.com/dpvpro/avito.ru.parser.work
Обновление от 28.9.2015:
Авито фильтрует множественные запросы с ip адресов, поэтому скрипт до конца не отрабатывает. Рекомендую указывать для парсинга меньше страниц, 100-200. Тогда нормально работает.
Обновление от 04.10.2016:
Сделал обработку исключений. Теперь скрипт записывает в файл, сколько успел напарсить.