본문 바로가기

개발일지

[스파르타코딩클럽] 데이터분석 입문 1주차

공부시간이 높을 수록 성적이 높아질까? 분석해보자.

 

성적은 다른 요인들에 의해 결정되는 변수, 종속변수

공부시간은 종속변수인 성적이 결정되도록 영향을 주는 변수, 독립변수

 

공부시간 외에도 성적에 영향을 주는 요인은 많음.

공부시간 * a + b = 성적

 

엑셀로 상관관계를 분석할 수 있다.

 

 

상관관계 : 변수들이 서로 어느정도의 관계가 있는지의 정도

양의 상관관계 -> 공부시간이 높을 때 성적 높음

음의 상관관계 -> 공부시간이 낮을 때 성적 낮음

 

 

파이썬 기초

 

 

return     결과값을 재사용할 수 있고, 다른 변수에 저장가능함.

                출력하라는 의미는 아니지만 코랩에서는 사용자 편의상 print를 쓰지 않아도 출력해줌.

print       결과값 재사용 불가능

 

 

 

데이터가 일관되지 않은 경우 Try-except

 

try :

    print(a/b)

except :

    print('0으로는 나눌 수 없어요')

 

에러가 발생할 것 같을 때, 에러 대신 except문을 실행한다.

 

 

판다스와 데이터 프레임

 

패키지 : 이미 만들어놓은 함수로, import를 통해 가져올 수 있음.

판다스(Pandas)의 데이터 구조인 데이터프레임 : 표(테이블) 형태로, 행과 열이 존재하는 2차원 테이블

 

import pandas as pd

as ' ' 로 약자를 설정하여 사용하는데 pandas의 경우 관례적으로 pd 사용

 

 

태그(Tag) : <태그명 속성명1 = "속성값 1" 속성명 2 = "속성값2"> 콘텐츠 </태그명>

선택자(Selector)

<p id = 'clothes' class = 'name' title = '라운드티'> 라운드티   -> id라는 방식으로 이름 지정

<span class = 'price'> 20000 </span>  -> class라는 방식으로 price라는 이름 지정

 

 

네이버 크롤링 실습

1. 각각의 뉴스가 가진 URL을 뽑아서 리스트의 형태로 저장한다.

2. 뉴스의 제목과 본문을 가져오는 newspaper3k 패키지로 크롤링

3. 크롤링을 할 때마다 데이터프레임에 이어붙이기

4. 크롤링이 끝나면 데이터프레임을 csv파일로 저장

 

* code = 101일 때 str(code)라고 하면 code는 문자열 -> 이어붙이기 가능

 

 

requets 패키지 : 전체 HTML을 가져오고 싶은 웹페이지의 URL주소

news = requets.get(url, headers = headers)

 

BeautifulSoup 패키지 : 텍스트 HTML을 크롤링 가능, 분석 가능한 객체로 변경

soup = BeautifulSoup(news.content, 'html.perser')

 

Article 모듈 : 제목 가져오기

article = Article(url, language = 'ko')

article.text -> 뉴스기사 본문

article.title -> 뉴스기사 제목