공부시간이 높을 수록 성적이 높아질까? 분석해보자.
성적은 다른 요인들에 의해 결정되는 변수, 종속변수
공부시간은 종속변수인 성적이 결정되도록 영향을 주는 변수, 독립변수
공부시간 외에도 성적에 영향을 주는 요인은 많음.
공부시간 * a + b = 성적
엑셀로 상관관계를 분석할 수 있다.
상관관계 : 변수들이 서로 어느정도의 관계가 있는지의 정도
양의 상관관계 -> 공부시간이 높을 때 성적 높음
음의 상관관계 -> 공부시간이 낮을 때 성적 낮음
파이썬 기초
return 결과값을 재사용할 수 있고, 다른 변수에 저장가능함.
출력하라는 의미는 아니지만 코랩에서는 사용자 편의상 print를 쓰지 않아도 출력해줌.
print 결과값 재사용 불가능
데이터가 일관되지 않은 경우 Try-except
try :
print(a/b)
except :
print('0으로는 나눌 수 없어요')
에러가 발생할 것 같을 때, 에러 대신 except문을 실행한다.
판다스와 데이터 프레임
패키지 : 이미 만들어놓은 함수로, import를 통해 가져올 수 있음.
판다스(Pandas)의 데이터 구조인 데이터프레임 : 표(테이블) 형태로, 행과 열이 존재하는 2차원 테이블
import pandas as pd
as ' ' 로 약자를 설정하여 사용하는데 pandas의 경우 관례적으로 pd 사용
태그(Tag) : <태그명 속성명1 = "속성값 1" 속성명 2 = "속성값2"> 콘텐츠 </태그명>
선택자(Selector)
<p id = 'clothes' class = 'name' title = '라운드티'> 라운드티 -> id라는 방식으로 이름 지정
<span class = 'price'> 20000 </span> -> class라는 방식으로 price라는 이름 지정
네이버 크롤링 실습
1. 각각의 뉴스가 가진 URL을 뽑아서 리스트의 형태로 저장한다.
2. 뉴스의 제목과 본문을 가져오는 newspaper3k 패키지로 크롤링
3. 크롤링을 할 때마다 데이터프레임에 이어붙이기
4. 크롤링이 끝나면 데이터프레임을 csv파일로 저장
* code = 101일 때 str(code)라고 하면 code는 문자열 -> 이어붙이기 가능
requets 패키지 : 전체 HTML을 가져오고 싶은 웹페이지의 URL주소
news = requets.get(url, headers = headers)
BeautifulSoup 패키지 : 텍스트 HTML을 크롤링 가능, 분석 가능한 객체로 변경
soup = BeautifulSoup(news.content, 'html.perser')
Article 모듈 : 제목 가져오기
article = Article(url, language = 'ko')
article.text -> 뉴스기사 본문
article.title -> 뉴스기사 제목
'개발일지' 카테고리의 다른 글
[생활코딩] React #2 (0) | 2022.09.19 |
---|---|
[생활코딩] React #1 (0) | 2022.09.17 |
[스파르타코딩클럽] 웹개발 종합반 3주차 (0) | 2022.08.27 |
[스파르타코딩클럽] 웹개발 종합반 2주차 (1) | 2022.08.24 |
[스파르타코딩클럽] 웹개발 종합반 1주차 (0) | 2022.07.22 |