분류 전체보기 6

230811 ~ 240214 playdata 데이터 엔지니어링 파이널 프로젝트까지

국비지원으로 대학을 막 졸업한 후 개발에 정식으로 배우고싶고 발을 넓히고 싶은 마음으로 지원하게 되었다 심사과정만 잘 통과하면 어찌저찌 들어갈 수 있을거라 생각했다 심사 중 화상면접에서 "본인이 팀장이면 팀 이슈를 어떻게 해결할 건가요?" 를 질문받았다 그떄의 나는 실력도 없는데 무슨 팀장을 할수 있을까 싶었고 크게 중요하게 생각하지 않았다 합격을 하고 클래스의 학생들은 모두 나보다 연령자가 대부분이였고 현업에서 일을 하다 본인의 비전을 위해 들어오거나 비전공이지만 흥미가 생겨 들어오는 등 여러 케이스들을 볼 수 있었다 나는 통신을 중심으로 컴퓨터 공학을 나왔기 때문에 언어의 접근성은 어렵지 않았지만 고객의 요구사항대로 생산하는 개발자는 경험하지 못했고 따라서 전공자들과 프로젝트 간 옆에서 많이 배울 생..

hadoop study2 (+hive +sqoop +pig)

- 개념 hadoop은 분산 체계에서 cluster 개념으로 동작하는 집합을 가지며 각각 단일 서버로 운용되는 특징이 있다 master - slave 구조로 hadoop-v1에서는 spark의 task 구조와 유사하게 jobtracker와 tasktracker로 병렬처리를 보여주며 분산처리와 slot 단위로 map과 reduce로 처리하는 구조를 가졌지만 namenode의 단일 책임을 가지게 되면서 server의 부하와 유능한 처리가 불가능 했다 hadoop-v2에서는 단일 책임을 피하면서 병목현상을 줄이기 위해 yarn이 구현된다 yarn은 cluster의 응용성을 높이기 위해 mapreduce를 수행하는 자원을 확보하고 node 증가에 따른 작업을 확장시키며 lifecycle을 증대시킨 프로그램이다 ..

pyspark 입문 + 정리

- pyspark ? apache에서 지원하는 데이터 처리 기술로 python 언어가 기반인 cluster framework이다 cluster framework는 여러 서버로 연결하여 하나의 시스템으로 동작하는 집합체를 의미한다 처리 속도와 확장성을 보여주며 대규모 데이터를 처리하는 과정을 가진다 이는 master-node / slave-node 구조와 대용량 관리 서버와 manager로서 resource관리, 스케줄링 관리 로 구성되어진 구조이다 대표적으로 apache의 hadoop이 유사한 서비스로 구성된 구조이고 java 언어로 기반하며 여러 api를 통해 구현하고 여러 오픈소스를 통해 확장한 architecture로 알려져 있다 spark는 분산 처리를 지원하는 기술이고 youtube와 같은서비스..

hadoop(ubuntu) study

`231110부터 혼자서는 경험하기 힘든 기술을 시작하게 되었다 hadoop 분산 시스템을 배우기 위해 clien-server의 기본 개념부터 시작하며 비전공자들은 통신에 대한 컴퓨터 구조를 배우게 되었고 전공자들은 기억을 되새기는 시간이 되었다 서버 간 통신은 비동기식으로 동작하고 이는 대기업과 같이 많은 처리량을 요구하는 대규모 통신 체계에서 병목현상과 같이 장애 발생 여부와 각 통신은 이를 위해 각 위치의 정보를 공유하는 방법을 갖춘다 등의 request 개념을 듣게 되었다 이런 기술에서 hadoop은 hadoop-arcitecture와 data file system인 hdfs와 master-slave를 통해 분산된 node 구조를 가진다 hdfs는 local의 hard-disk 용량을 공유하며 각..

첫 프로젝트의 2번째 이야기

피드백을 통해 프로젝트에 정제된 데이터가 시각적으로 어떻게 보여주는지는 개발자 혼자만 수행할수 없었다 서비스를 배포하기 위해서는 마인드맵처럼 꼬리를 물어 가능성을 질문하고 답변해줄수 있는 것이 시각화인데 이를 통해 의사소통과 기업의 상황을 고려해야 할 것이다 만약 팀으로 진행했더라면 코드를 작성하면서 추가적인 시각효과를 구성할 수 있을 것이라 생각한다 개인으로 작성한 코드를 리뷰해보는 것으로 그떄 생각해보지 못한 데이터를 발견할 수 있을 것이다 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 df1 = pd.read_csv('/content/drive/MyDrive/..

230923 ~ 231009 까지 개인 프로젝트 첫 시작!

추석이 겹치면서 팀 프로젝트로는 반드시 조율이 힘들것이라 판단하고 개인으로 시작했다 첫 시작이 개인이라 어려운 판단을 혼자서 감당하고 경험을 쌓는 것이며 서비스를 만들어 내는 방향으로 목표를 정하는 시간을 오래 가졌다 마케팅 전공으로 대학을 나오지는 않았지만 아버지의 경험담을 옆에서 들어왔었고 접근하기 쉬운 주제라고 생각했다 kaggle의 컴피티션이나 dacon의 대회 데이터로는 정해진 시간에 해결할 수 없을 거라 생각하였고 결과적으로 kaggle의 시장 세분화(customer personality analysis)를 선택했다 해당 데이터는 지역이 국한되지 않고 고객의 정보(소득, 각 물품의 소비량 합계, 가족관계 등)로 2년 간 데이터를 가지고 프로모션의 반응 여부나 구매 물품의 유통경로를 가진 csv..