'데이터사이언스' 카테고리의 글 목록

본문 바로가기

데이터사이언스

데이터사이언스 수학과 통계 - 행렬과 행렬연산 코사인유사도에서 놈의 개념이 들어가는 이유 벡터 a 와 벡터 b의 내적은 -> a를 b로 정사영 내린 벡터를 구한다. 그 벡터를 p라고 할때 ||p|| = ||a||cos세타가 된다. * REF - 기약행사다리꼴 * 가우스 요르단 소거법에 대해 복습해보기 * RREF - 유일하다 https://www.youtube.com/watch?v=0dq1pYxwn1A 선형연립방적식을 이루는 모든 선형방정식들이 모두 동차면 - homogeheous 라고 함 * 이 연립방정식은 1개의 해를 가지는데 -> 자명해 라고 함 * 행렬 - Matrix / 행렬은 집합으로도 표현이 가능하다 * 행렬이 같으려면 , 사이즈(=차원)도 같고 element의 위치도 같아야 한다 * 행렬과 스칼라의 곱은 모든 원소에 스칼라배한 것과 같.. 더보기

데이터사이언스 선형대수학 기초 함수와 그래프 - 머신러닝, 딥러닝은 모두 모형 모델링이 필요 - 기초는 함수 나중의 결과 - x를 넣었을 때 좋은 y가 나오기 * 합성함수 * 일대일함수 - 선형equation 을 할때 중요함 / 역함수가 존재함(역함수는 정의역과 치역이 swap) 예를 들어 y^2 = x인경우는 one to one이 아님 다항함수 - polynomial(smoothy 하게 만들 때 사용) 선형함수 - linear func / 절편과 기울기를 찾는 과정 -> 좋은 예측모형을 찾는 과정 멱함수 - power func / x^y 로그함수와 지수함수 - 모델링에 고려할 수 있어야 함 *참고 : 두개의 벡터의 유사성- 코사인 유사도 계산함 *참고2 : 인공지능의 activate funct을 볼 때 -> y의 상하한선을 정해주는.. 더보기

머신러닝 기초, Probability AI시스템이 어떻게 돌아가는지에 대한 이유, 모델을 설명할 때 Probability Theory가 사용됨 생성형 AI 가 원본과 얼마나 다를까 / 불확실성은 어디서 오는가 -> 확률이론 불확실성을 줄여야 하는 이유 -> 모델을 만들 때(= 룰을 만들 때) 복잡한 모델을 만들때 불확실한 모델을 여러개 만드는 것이 더 좋음 새(bird)이미지를 봤을 때, %확률로 난다. -> 룰이 복잡할 수록 시간, 비용 비싸고 실패할 가능성이 높다, 예외에 약하다 -> 확률적으로 접근하는것이 상대적으로 좋다(degree of belief) 확률을 구하기 위해서는 sample space를 구해야함 - 확률이 될 수 있는 element들 사건 -> event 사건은 sample space에 포함되어야 한다.(subset) 이.. 더보기

머신러닝과 딥러닝 기초 - Linear Algebra *머신러닝의 표현 -> 행렬들의 scalars vector matrics tensor(여백) scalar (스칼라) - 숫자 , 0차원 vector (벡터)- row scalar , column scalar 1차원 2차원으로 늘어나면 matrix - 행 벡터와 열 벡터가 합쳐진 것이라고 표현할 수 있다. : -> 콜론 로케이션 , 행과 열을 분리하는 방법도 있음 행렬위 윗첨자 T는 Transpose -> 행렬의 로테이션 (operation) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ Addition - element들끼리의 합 C = A + B 라면 C(i,j) = A(i,j) + B(i,j) scalar 가 포함되어도 쉬움 * Vector Product 조금복잡 벡터의 내적(i.. 더보기

Python FinanceDataReader를 통한 증권데이터 수집 기본 및 시각화 #증권데이터가 저장된 FinanceDataReader를 부르기 위해 #라이브러리 설치 !pip install -U finance-datareader #라이브러리 호출 import pandas as pd import FinanceDataReader as fdr #제대로 다운됐는지 확인 - 국장 확인 KRX df = fdr.StockListing("KRX") #데이터프레임 분석도 가능 df.info() #KRX , KOSPI, KOSDAQ, NASDAQ, NYSE , SP500 으로도 가능 fdr.StockListing? #도움말 가능 라이브러리 참고사이트 : https://github.com/FinanceData/FinanceDataReader GitHub - FinanceData/FinanceDataRe.. 더보기

게으른 자의 무기력증 탈출기 - 데이터사이언스 대학원 오리엔테이션부터 주차등록까지 앞서 말했듯 나는 올해 대학원에 진학하게 되었다. 진학한 대학원은 "경북대학교 데이터사이언스 대학원" 데이터사이언스대학원 경북대학교 데이터사이언스대학원 홈페이지 입니다. data.knu.ac.kr 오늘은 대학원 오리엔테이션이 있는 날이라 학교를 가야 했다. + 수강신청에 대한 안내가 있어 수강신청에 해당하는 수업에 대한 고민도 해보았다. 도착한 이제 내가 주로 수업을 듣게 될 "제4 합동강의동" 건물은 무난하고 학부 때 건물들과 너무 달라서 사뭇 신선한 감정이 들었다. 비가 와서 너무 우중충해서 그런가🥲🥲🥲 조금 일찍 도착해서 저녁도 미리 간단하게 먹으려고 했는데, 다행히 제4합동강의동 맞은편엔 카페와 학식 그리고 파리바게트, 사진관 등 다양한 부대시설이 있는 건물이 있다. (자주 이용할 것 같다) 강의.. 더보기

안까먹으려고 작성하는 금융데이터 분석 - 파이썬 DataFrame 다루기 2 인덱스를 활용한 데이터 접근 메소드 2 loc와 유사한 역할을 하는 at iloc와 유사한 역할을 하는 iat * at, iat 사용 = 특정 scalar 값 -> 그 값만 가져오고싶으면 * loc, iloc = 특정 subset, 특정 테이블로 만들고 싶다. # use .at, iat df.loc[100, '이익'] df.at[100,'이익'] # 이 둘의 차이는 결과는 비슷한데 # 속도에서 차이가 남 # loc보다 at이 더 빠름 # 속도 확인하는방법은 # >>>> %timeit 조건에 해당하는 인덱스나 컬럼 접근방법 tmp_series = pd.Series({"a":1, "b":2}) tmp_series > 2 #value가 2보다 큰 것인가 체크함 #결과 # a False # b False # 위.. 더보기

안까먹으려고 작성하는 금융데이터 분석 - 파이썬 DataFrame 다루기 올해는 대학원도 진학하고 공부를 꾸준하게 할 예정이라 프로그램에 대한 코드를 이쪽에 정리하려고 한다. 여기는 사설이 아니니까 글은 적게 코드는 많게 나만 보기위한 용도로 쓰려고 한다. 추후 목표는 데이터 수집을 통해 자동매매까지를 목표한다. 그 대상은 공모주 자료 수집 후 매일 매매, 코인자동매매 등의 봇을 개발해보려고 한다. #데이터 프레임 top몇개 가져오기 df.nsmallest(5,'칼럼') #칼럼값이 작은거 5개 df.nlargest(5,'칼럼') #칼럼값이 큰거 5개 #다른방법정렬 - 내가 빅데이터분석기사때 한 방법 #여러 칼럼도 가능 df.sort_values(['A','B'],ascending=[True,False]) DataFrame 분리하기 - subset DataFrame Select.. 더보기

목록 더보기

티스토리툴바