2020년 1월 27일 월요일

Tip - Cassandra Stress with ZING (Readynow Option)

이전 포스팅에서 카산드라에 g1gc와 ZING을 테스트 했었는데 사실 정확한 테스트를 하려면 ZING을 제대로 이해하고 테스트를 해야한다.

ZING의 경우에는 compile time이 존재하기 때문에 warm up이 필요하고 일정량 이상의 스트레스를 주어야(시간이 들여야) 퍼포먼스가 어느 정도 궤도에 오르게 된다.

하지만 카산드라 테스트 시 ZING의 신박한 기술인 Readynow Option을 통해 즉시 좋은 퍼포먼스를 확인할 수 있다.

먼저 설명을 하자면 한번 테스트를 하고 log를 떨군다음 이후 테스트에서 해당 log를 읽어서 warm up time을 없애는 것이다! (즉 두번 수행한다.)

출처는 다음과 같다. (azul 공식 문서)



즉 stress test tool을 활용할 때 ZING으로 테스트를 하려면 readynow 옵션을 주어 정확한 테스트가 가능하다.



순서는 cassandra의 stress-stress 스크립트를 수행할 때 -XX:ProfileLogOut을 주면서 output log를 생성할 위치를 알려주고 로그가 잘 떨어지는지 확인한다. 이후 로그가 잘 떨어지는지 확인이 되면 -XX:ProfileLogIn 옵션을 주고 output 로그를 읽도록 스크립트를 변경하면 된다.

테스트 결과 compile time이 없기때문에 즉시 일정수준 이상의 Performence가 나온 것을 확인할 수 있었고 정말 신기한 기능이라는 생각이 들었다.


마지막으로 카산드라를 테스트 할 때에는 메모리와 cpu를 잘 고려해서 테스트를 해야한다. 예를 들어 read performence를 테스트하려고 1m부터 100m까지 늘려가면서 테스트를 할 때 잘 관찰해보면 thread count를 올려가면서 테스트하는 것을 확인할 수 있다. 하지만 서버 사양에 따라 적절한 thread count가 존재하기 때문에 한번은 크게 돌려보면서 어느 수준부터 overload가 발생하는지 확인할 필요가 있다. 필자의 경우 thread가 24개 정도에서 overload가 발생했기때문에 테스트 할 때 일정하게 -rate threads=24 옵션을 주고 테스트를 진행하였다.

번외로 zing trial version으로 테스트를 해본 결과 성능이 좋았고 특히 GC 수행시간이 아주 일정하게 5ms이하로 유지하는 것을 보고 놀라웠다. 참고로 G1GC의 경우 약 10~15ms 왔다갔다 했다.


2020년 1월 7일 화요일

Artificial Intelligence - Perceptron

퍼셉트론은 신경망의 기본이 되는 알고리즘(이론)이다.

가령 아래의 +- 오브젝트들을 분류해본다.

직감적으로 선을 하나 그려 분리할 수 있을 것이다. linearly separable 하기 때문이다.

이는 퍼셉트론을 활용하여 분류할 수 있는데 퍼셉트론은 N개의 인풋을 받아서 1개의 아웃풋을 내놓는데 이를 도식화해보면 다음과 같다.


인풋 x1~xn에 가중치 w를 주어 P(x)라는 아웃풋을 내놓는 뉴런이다.

그리고 그림처럼 input Layer, output Layer가 존재한다.


퍼셉트론을 활용하여 Linearly separable한 문제를 푸는 방법은 아래처럼 구현할 수 있다.


아주 기본적인 코드이지만 문제가 linear하다면 느릴지라도 결국 선분 하나를 찾아낼 수 있을 것이다.


이를 활용하여 AND, OR, XOR 문제를 생각해보자.

if w1x1 + w2x2 + b >0 then 1 else 0 

먼저 AND GATE의 생김새이다.


위의 AND GATE는 적절한 선분을 그어 1과 0의 값을 구현할 수 있다.

다음 OR GATE도 마찬가지이다.



w1, w2, b는 적절한 값으로 주고.. 파이썬 코드로 보면 다음과 같다.

def AND_GATE(x1, x2):
    w1=0.5
    w2=0.5
    b=-0.7
    result = x1*w1 + x2*w2 + b
    if result <= 0:
        return 0
    else:
        return 1

def OR_GATE(x1, x2):
    w1=0.6
    w2=0.6
    b=-0.5
    result = x1*w1 + x2*w2 + b
    if result <= 0:
        return 0
    else:
        return 1

def NAND_GATE(x1, x2):
    w1=-0.5
    w2=-0.5
    b=0.7
    result = x1*w1 + x2*w2 + b
    if result <= 0:
        return 0
    else:
        return 1

이런식으로 단층 퍼셉트론으로 AND, OR, NAND 정도는 구할 수 있다. 하지만 XOR GATE는 단층 퍼셉트론으로 구현할 수 없다. 우리는 디지털 회로 시간에 배운 GATE를 엮어서 XOR GATE를 만들어낸 경험을 되살려야 한다.

XOR GATE의 경우 서로 다른 값을 가지고 있을 때에만 1을 return 한다. 즉 x1, x2가 같으면 0을 return 한다.

XOR GATE는 다음처럼 표현될 수 있다.


XOR GATE는 1개의 직선으로 구분이 불가능하다. 하지만 AND, OR, NAND GATE를 조합해서 만들 수 있다.



XOR_GATE의 코드는 다음처럼 볼 수 있겠다.

def XOR_GATE(x1, x2):
    s1 = NAND_GATE(x1, x2)
    s2 = OR_GATE(x1, x2)
    return AND_GATE(s1, s2)


이런 다층 퍼셉트론을 MLP(Multilayer Perceptron)라고 하며 입력층과 출력층 사이에 hidden layer가 존재한다는 것이 특징이다. 이러한 hidden layer를 n개를 쌓은 개념이 DNN(Deep Neural Network)이고 최근 인공 신경망의 기초가 되었다.

2020년 1월 1일 수요일

2019년 회고

블로그를 하면서 회고록을 한번 써봐야겠다 싶었는데 생각보다 쓰려고 하니 낯뜨겁다..
하지만 언젠가 내 과거의 글들을 보면서 여러가지 생각을 해보기 위해 기록을 남긴다.

2019년은 나에게 있어서 큰 터닝포인트가 될 것이라고 생각한다. 


먼저 업무적으로 2016년부터 DW일을 하다가 빅데이터 일을 하게 되었는데 기술적인 부분 뿐만 아니라 데이터적+개발적으로 큰 시야를 갖게 되었다. 다뤄보지않는 여러 오픈소스들, 그리고 카산드라나 모니터링툴을 도입하는 과정을 통해 많이 생각하고 배울 수 있었다. 아무튼 이런 기회를 준 분들께 감사드리고 더 많은 연구를 해보고 싶다.


2년전에 내가 어떤 커뮤니티에 대학원에 대해서 글을 올렸더라. 2년 후에는 어떤 방식으로든 대학원에 가서 더 배워보고 싶다고.. 그런데 올해 그 발언을 실현하게 되었다. 빅데이터, AI 전공이고 제대로된 논문을 써보고 싶다. 대학원을 병행하는게 쉬운 일은 아니지만 재밌는 만큼 보람이 있다.


공모전에서 상을 탔다. 통계청에서 주관한 SGIS 공모전인데 24점 출품작 중 9점 안에 뽑혔다. 뉴스에도 나왔다. 주도적으로 한 작업이기에 나름 애착이 갔던 작품이고 대략 매출+인구통계를 지도에 표현하는 것으로 이 작업을 하기 위해 크롤링, 좌표 폴리곤 합성, 인구 통계 데이터 가공 등을 연구하고 경험했다.



링크 
작품내용 : 통계청


마지막으로 월 3회 기술 포스팅을 목표로 했었는데 이것도 나름대로 잘 지켰다.
블로그 자체에 큰 의미를 두는 것은 아니지만 스스로 약속을 지키기 위해 무언가를 꾸준히 하게 된다는 점에서 의미가 있었다고 생각한다.

PV가 꾸준히 증가하긴 하더라..

가장 많은 조회수를 기록한 글.. 생각보다 mssql 글이 많다.




가장 애착이 간 글 몇개만 뽑아보자면..

아무래도 하둡 3.대가 나온지 얼마 안되서 관련 자료도 없고 요즘 ambri 같은 걸로 설치하니 맨땅에 헤딩하듯 설치하는 글들이 별로 없어서 많이 들어왔던 것 같다.
이건 나중에 공모전에도 출품해서 상 받은 내용이기도 하고.. 자료가 없어서 처음부터 끝까지 퇴근 후에 집에서 연구를 해와서 회사서 바로 적용할 수 있게 했던 추억이 새록새록..
DW와 빅데이터 양쪽을 경험해보고 생각을 정리했던 글이다.

아무튼 카산드라 모니터링 툴, 카산드라 gc 테스트 등 다 애착이 가는데 그냥 바로 생각나는 것을 적어봤다.



2019년 이것 저것 실수한 것도 많았고 배운 것도 많았다.

2020년 올해는 해보고 싶은 것도 많고 업무적으로도 스파크 스트리밍 등 여러가지 난이도 있는 일도 계획되어 있고.. 학업적으로는 논문도 좀 읽어보고 내 논문도 준비하고.. 여러가지로 바쁠 것 같다.

2019년 여러 가지로 감사한 분들이 많았고 2020년도 화이팅하자.

2022년 회고

 올해는 블로그 포스팅을 열심히 못했다. 개인적으로 지금까지 경험했던 내용들을 리마인드하자는 마인드로 한해를 보낸 것 같다.  대부분의 시간을 MLOps pipeline 구축하고 대부분을 최적화 하는데 시간을 많이 할애했다. 결국에는 MLops도 데이...