(23.04.18) 파이썬크롤링2 - HTTP 통신, requests

TIL

이영애님 2023. 4. 18. 17:21

TIL은 그날 하루 본인이 어떤 공부를 하였는지 파악하기 위함입니다.
상세하게 기록하여 이후 본인이 어떤 공부를 어떻게 하였는지 파악할 수 있도록 하는 것이 중요합니다.

학습 주제

1. 데이터 수집을 위한 웹 통신

- 웹 스크래핑과 웹 크롤링의 차이를 학습한다

- 로봇 배제 프로토콜을 해석할 수 있다

2. request 라이브러리

- HTTP client 라이브러리와 특징을 학습한다

LAN(Local Area Network)

Internet

WWW(World Wide Web, Web)

HTTP(Hypertext Transfer Protocol)

웹 스크래핑 vs 웹 크롤링

로봇 배제 프로토콜(REP)

User-agent: *    # 모든 유저에 대해
Disallow: /      # 모두 접근 불가

requests 와 유사한 라이브러리

urllib3	- 파이썬에 내장된 HTTP client 라이브러리 - HTTP/1.0 , HTTP/2.0을 지원한다 - 복잡하고 덜 직관적인 API를 제공한다
aiohttp	- asyncio 을 사용해 비동기적으로 HTTP 요청을 처리하는 라이브러리 - (asyncio : 비동기식 I/O 및 이벤트 루프를 지원하는 라이브러리)
selenium	브라우저를 제어하여 웹 페이지를 테스트/스크래핑 할 수 있는 라이브러리

reuqests 와 같이 쓰면 좋은 라이브러리

CRLF(Carriage Return Line Feed)