열심히 끝까지

디바이스 융합 자바(Java) day23 - 웹 크롤링 본문

디바이스 융합 자바(Java)기반 풀스택 개발자 양성과정(수업내용)

디바이스 융합 자바(Java) day23 - 웹 크롤링

노유림 2022. 7. 13. 17:56

[웹 크롤링]
스크랩핑
>> 데이터를 수집
크롤링
>> 수집된 데이터들을 분류
파싱(가공)
>> 특정 형식에 맞춰 
            데이터를 추출하고
            의미있는 값으로 변형하는 작업

>> 크롤링에 초점을 맞춰서 진행될 예정
>> 데이터를 웹에서 받아 올 예정이기 때문에 "웹 크롤링" 이라고 함
       >> "문서화" 작업 필수★★★★★ + 블로그 포스팅
            코드를 분석하여 내 입맛에 맞게 가공할 줄 알아야 한다(코드를 분석 -> 가공)
       >> "웹, 앱 어플리케이션" 분석

>> 크롤링을 하기 위한 자원을 갖춘 것 필요 : 크롤러 
   >> 별도의 설치 없이 jar파일만 있으면 사용 가능한 Jsoup 사용
       Jsoup.connect(); <- 빨간줄
       >> 기본 제공되는 친구가 아님
       >> jsoup 필요 + ojdbc 있어도 사용 가능
       Jsoup.connect(); <- 괄호 안에 url 작성
  >> 인터넷 문제로 html이 안 뜰 수 있음
       => 시간에 따라 html이 변경될 수 있음
            Jsoup으로 HTML 전체 문서를 받아옴

>> <SPAN> << 태그
   HTML 코드 M 태그를 쓰는 것
   >> <span> 태그는 <a>태그안에 는 <h6> <div> <li> <url> 검정 화살표가 알려준다.

>> System.out.println(itr.next()); ==> 요소 자체 출력(<span>까지 출력)
>> String str = itr.next().text(); ==> text() 태그를 쓰면 자동으로 떼어준다.

===========================
금요일날 9시 발표
강사님께서 내일 누가 발표할 지 지정
크롤링해서 데이터 보여주는 것까지

데이터를 블락시킬 수 있음.. 이거 22일 발표와는 불가
>> 블락현상이 발견되면 강사님께 말씀드리기(변경해주신다고 함)