날마다 새롭게 또 날마다 새롭게

BigQuery Quick Start 따라하기 본문

프로그래밍

BigQuery Quick Start 따라하기

아무유 2020. 12. 28. 14:26

BigQuery Quick Start

BigQuery 의 Quick Start Guide 를 따라해 보면서 간단한 사용법을 살펴보자

프로젝트 만들기

프로젝트를 만들기 위해서는 구글 클라우드 플랫폼 서비스를 이용해야 한다.

구글 클라우드 플랫폼 서비스 시작하기

구글 클라우드 서비스 사이트 이동 후, 구글 계정으로 로그인 하여 무료로 사용하기를 선택했다.

구글클라우드

90일 동안 300 크레딧을 사용할 수 있다.

BigQuery API 사용 설정

먼저, 프로젝트를 선택한다. 아래 페이지로 이동 후, My First Project 를 선택한다.

프로젝트 선택 페이지

왼쪽 사이드 메뉴에서 BigQuery 를 선택하면 BigQuery 서비스 페이지로 이동한다.

My First Project 프로젝트를 사용하는 경우는 BigQuery 가 자동으로 사용 설정이 되는데, 그렇지 않다면 API 사용 설정 페이지로 이동해서 API 를 활성화 한다.

API 사용 설정

공개 데이터 세트 쿼리하기

Quick start guide 에서는 BigQuery 에서 제공하는 bigquery-public-data 공개 데이터 세트를 사용한다.

bigquery-public-data 리소스는 공개되어 있어 아래 링크로 이동하면 현재 프로젝트에 리소스가 추가 되고제공하는 테이블을 확인할 수 있다.

미국 이름 데이터

BigQuery 쿼리 편집기에서 다음과 같이 입력하고 쿼리를 실행하면 결과를 확인할 수 있다. (리소스를 별도 추가하지 않아도 쿼리 된다.)

SELECT
  name, gender,
  SUM(number) AS total
FROM
  `bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
  name, gender
ORDER BY
  total DESC
LIMIT
  10

테이블에 데이터 로드

새로운 데이터 세트를 만들고 파일에서 데이터를 로드한다.

데이터 다운로드

guide 에는 7MB 분량의 인기 있는 아기 이름 데이터를 제공한다. 아기 이름 파일 을 다운로드 한다.

데이터는 다음과 같은 Format 을 갖고 있다.

name,sex,number
Olivia,F,18451

데이터 세트 생성

BigQuery 페이지로 이동해서 왼쪽 사이드 메뉴의 리소스 섹션에서 프로젝트 이름을 선택하고 오른쪽 세부정보 패널에서 데이터세트 만들기를 선택한다.

데이터 세트 만들기

다음과 같이 데이터를 입력하고 데이터 세트 만들기를 선택한다.

  • 데이터 세트 ID 에는 babynames 를 입력한다.
  • 데이터 위치에는 미국(US) 를 선택한다.

데이터 세트 만들기에 성공하면 리소스 섹션 밑에 babynames 라는 데이터 세트가 보인다. babynames 데이터 세트를 선택하고 오른쪽 세부정보 패널에서 테이블 만들기를 선택한다.

테이블 만들기

테이블 만들기 페이지에서 다음과 같이 입력한다.

  • 소스에서 빈 테이블을 클릭하고 업로드를 선택한다.
  • 파일 선택에서 탐색을 클릭하고 yob2019.txt 파일로 이동한 후 열기를 선택한다.
  • 파일 형식에서 Avro를 클릭하고 CSV를 선택한다.
  • 대상 섹션의 테이블 이름에 **names_2019**를 입력한다.
  • 스키마 섹션에서 텍스트로 수정 전환을 클릭하고 다음 스키마 정의를 상자에 붙여넣는다.
name:string,gender:string,count:integer

테이블 만들기를 선택하면 babynames 밑에 names_2019 테이블에서 데이터를 확인할 수 있다.

(names_2019 테이블 세부 정보 패널에서 미리보기 탭을 선택한다.)

테이블 쿼리

쿼리 편집기에서 다음과 같이 입력하고 쿼리를 실행하면 테이블을 쿼리할 수 있다.

SELECT
  name,
  count
FROM
  `babynames.names_2019`
WHERE
  gender = 'M'
ORDER BY
  count DESC
LIMIT
  5

ref

BigQuery guide

Quickstart using the Cloud Console | BigQuery | Google Cloud

Comments