.NET을 사용하여 동적으로 생성 된 HTML 코드를 검색하는 것은 많은 사람들에게 어려운 작업이었습니다. Microsoft HTML 객체 라이브러리 어셈블리의 System.Windows.windows.forms.webBrowser 클래스 및 COM 인터페이스 MSHTML.htmlDocument가 제안되었지만 구현은 도전적인 것으로 입증되었습니다.
WebBrowser의 불일치
systis inclows. 웹 브라우저에서 렌더링 한 HTML 코드 검색 웹 페이지의 domdocument에 액세스하는 경우에도 "https://www.google.com/#q=where는"렌더링 된 페이지에 나타나는 동적으로 생성 된 데이터를 검색하지 못한다 "
msshtml.2dcument에 액세스합니다. 직접 원하는 결과를 제공하지 않습니다. System.net.webclient를 사용하여 지정된 URL에서 RAW HTML을 다운로드하고 IHTMLDocument2 인스턴스에 작성하면 동적으로 생성 된 데이터를 캡처하지 못합니다. 현재 HTML 스냅 샷을 지속적으로 폴링하고 WebBrowser의 isbusy 속성을 확인함으로써 페이지가 언제 렌더링되었는지 확인할 수 있습니다. 이 접근법은 HTML 코드를 조기 검색 할 가능성을 크게 줄입니다.
정확도와 성능에 대한 고려 사항
추가로 브라우저 기능 제어를 사용하여 HTML5 렌더링이 중요합니다. 웹 브라우저 컨트롤이 기본적으로 IE7 에뮬레이션 모드에서 실행되므로 브라우저 기능 제어가 중요합니다. 이 설정은 최신 웹 기술과의 호환성을 보장하고 렌더링 정확도를 향상시키기 위해 조정할 수 있습니다.
실제 구현
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3