wget по умолочанию почитает robots.txt с его запретами на анализ кроулерами каких-то страниц. Для того, чтобы он это перестал делать
wget -erobots=off ...
wget -erobots=off --mirror --convert-links --adjust-extension --page-requisites --no-parent http://somenicesite.com/but/not/above/the/path