wget 웹 사이트 다운로드

2020年2月8日

Pingback: `wget`을 사용하여 사이트의 오프라인 거울을 확인 – 존 헤인즈 불행하게도, 당신의 목표는 전체 웹 사이트를 다운로드하는 것입니다 특히, 어떤 자동화 된 시스템은 완벽하지 않습니다. 몇 가지 작은 문제가 발생할 수 있습니다. 보관된 페이지 버전을 열고 라이브 페이지와 나란히 비교합니다. 큰 차이가 있어서는 안 됩니다. 모든 텍스트 콘텐츠가 이미지와 함께 있으면 만족스럽습니다. 동적 부품이 작동하는지 여부에 대한 우려는 훨씬 적습니다. 여기서는 이미지가 누락된 최악의 시나리오를 해결합니다. 매일 wget을 사용하는 하위 문화는 유닉스쪽으로 무겁게 가중되지만 Windows에서 wget을 사용하는 것은 좀 더 특이합니다. 당신이 그것을 찾아 맹목적으로 공식 사이트에서 다운로드하려고하면, 당신은 소스 파일의 무리와 더 .exe 파일을 얻을 수 있습니다. 일반 Windows 사용자는 바이너리를 원하므로 서버에서 보낸 SVG 이미지와 같은 gzip 압축 자산으로 작업하면 로컬로 로드하는 것이 거의 불가능한 logo.svg.gz와 같은 다운로드 기회가 없어집니다. 이전 설정과 결합합니다.

유닉스를 사용하는 경우 최신 버전을 사용하는 경우에도 이 스위치가 wget에서 누락되었을 수 있습니다. 내 wget에서 압축이 누락 될 수있는 방법에서 자세한 내용은? 경우에 따라 인터넷에 액세스하지 않고도 가져가서 볼 수 있는 사이트의 오프라인 복사본을 만들려고 합니다. wget를 사용하면 쉽게 복사 할 수 있습니다 : 파일을 다운로드하는 동안 터미널 창에서 작업을 수행 할 수 있도록 배경 명령으로 실행하려면 wget을 얻을 수 있습니다. 당신은 완전히 웹 사이트를 미러볼 해야 할 수도 있습니다., 하지만 일부 링크 정말 죽은 수 있습니다 유의. HTTrack 또는 wget를 사용할 수 있습니다: 단일 wget 명령을 단독으로 사용하여 사이트에서 다운로드하거나 입력 파일을 설정하여 여러 사이트에서 여러 파일을 다운로드할 수 있습니다. 이제 전체 웹 사이트를 다운로드하는 방법에 대한 이해가 되었으므로 이러한 아카이브를 처리하는 방법을 알고 싶을 수 있습니다. 작은 파일의 많은 전송 을 완전히 느리게 될 거 야 의미 하는 많은 시스템의 죽음, 백업 또는 바이러스 스캔 그것을 스캔, SSD에 그것을 유지 하지 않는 경우에 특히. 적극적으로 아카이브를 탐색하지 않으려면 압축하는 것이 좋습니다. 주된 이유는 공간 요구 사항이 아닙니다. 아카이브를 하나의 큰 파일또는 일련의 큰 파일로 사용하면 관리가 더 쉬워집니다. RAR의 저장소 또는 가장 빠른 압축 방법을 사용하여 패키지를 빠르게 만들 수 있습니다.

콘텐츠가 대부분 텍스트가 아니라면 추가 압축으로 많은 이점을 얻지 못할 수 있습니다. RAR 아카이브에 복구 레코드가 있으면(기본적으로 추가되지 않음) 저장소 또는 전송 중에 불량 섹터 또는 기타 데이터 손상과 같은 하드웨어 오류가 발생할 경우 도움이 됩니다. 나는이 매우 유용한 기사를 읽은 후에만 HTTrack과 관련된 주석을 보았습니다 (그리고 ColdFusion으로 작성된 웹 사이트의 99 %를 성공적으로 복사하고 나머지 1 %는 수동으로 수행해야하는 자바 스크립트가 포함되어 있습니다. 또한 모든 것을 HTTPS로 옮기는 데 1 분 정도 걸렸습니다!). 백그라운드에서 wget 명령을 실행 하는 경우 화면에 보내는 일반 메시지 중 일부를 표시 되지 않습니다. wget을 예의 바르게 하기 위한 가장 중요한 명령줄 옵션은 –제한 속도 = 및 –wait=입니다. –wait=20을 추가하여 검색 사이에 20초 동안 일시 중지해야 합니다. –제한 속도 디폴트 바이트에 대 한 기본값, KB/s. 예를 설정 하는 K를 추가: 어느 쪽이 든 당신은 이미 설치 wget 확인 해야: debian: sudo apt-get 설치 wget 또한, wget의 현대 버전 (즉 2019 중반 이 코멘트를 작성 하는 시간으로!) JS 및 CSS 파일을 추출 하는 `깊은 파고`아무 문제가 없을 것 이다. 분명히 그것은 기적을 만들 수 없으며 모든 것을 다루지 않습니다.

나는 이미지 맵에 몇 가지 문제가 있었다, 예를 들어 (뭔가 아무도 요즘 사용하지 않는), 뿐만 아니라 자바 스크립트에 의해 이동 중에도 생성 된 HTML. 그리고 물론 그것은 실제로 사용자가 어떤 브라우저에 그들의 콘텐츠를 조정 하는 매우 복잡 하 고 동적 웹사이트와 함께 할 수 있는 제한이 있다, 페이지별로-특히 같은 페이지의 다른 버전모두 동일한 URL (나쁜 연습 IMHO).

コメント