분류 전체보기60 [강의노트] 02-2 Text Preprocessing - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Lexical Analysis (어휘 분석)어휘 분석의 목적일정한 순서가 있는 characters의 조합을 token으로 변경 (token: 의미를 가지는 character strings)어휘 분석의 과정Tokenizing품사 태깅 (POS tagging)NER(named entity recognition) 개체명 인식, 명사구 인식 등 수행구조적 분석의 예시Part of speech각 토큰/단어에 대해 형태소 판별Named entity recognition (개체명 인식)e.g.) Obama: 사람, now: Date, ...Co-reference (문장 내에서 같은.. 2024. 6. 28. [강의노트] 02-1 Text Preprocessing - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Introduction to NLPNatural Language Processing음운론 / 통사론 / 구문 분석 / 의미 분석 / 원인 분석 단계를 거침Classical categorization of NLPPhonology (음운 분석)Speech to Text (STT)Speech RecognitionText to Speech (TTS)Morphology (형태소 분석)Syntax (구조적인 관계 분석)Semantics (의미론적 분석)Pragmatics, Discourse (사람의 사회적인 작용과 연계되는 부분이라 현재 자연어처리 기술로는 구현이 어려움, rar.. 2024. 6. 27. [강의노트] 01-2 Introduction to Text Analytics - Part 2 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.TA Process 1: Collection & PreprocessingDecide What to Mine데이터셋 수집 혹은 수집된 데이터셋 선택Text Preprocessing Level 0: TextRemove unnecessary information from the collected dataDo not remove meta-data (Newspapaer article: author, date, category, language, etc), which contains significant information on the textMeta-data can be us.. 2024. 6. 26. [강의노트] 01-1 Introduction to Text Analytics - Part 1 위 강의노트는 고려대학교 산업경영공학부 대학원 강필성 교수님의비정형데이터분석 (Text Analytics) 을 듣고 정리한 강의노트입니다.Text Analytics: Background80% 이상의 새로운 데이터는 비정형 데이터, 그 중 많은 비중을 차지하는 것이 텍스트 데이터이다.검색어에 알맞는 문서를 반환해주는 검색 엔진으로는 부족하며, 새로운 지식을 발견하는 것이 요구된다.Example: AI papers in arXiv인공지능에 관련한 논문의 수가 기하급수적으로 증가 중 (2018년 기준 약 3000편 이상)텍스트 마이닝을 통한 논문의 단어 빈도 분석Machine learning eclipses knowledge-based reasoningThe Neural-Network BoomThe rise .. 2024. 6. 24. 백준 BOJ 1929번 소수 구하기 실버3 - Python 풀이 https://www.acmicpc.net/problem/1929 1929번: 소수 구하기 첫째 줄에 자연수 M과 N이 빈 칸을 사이에 두고 주어진다. (1 ≤ M ≤ N ≤ 1,000,000) M이상 N이하의 소수가 하나 이상 있는 입력만 주어진다. www.acmicpc.net 문제 M이상 N이하의 소수를 모두 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 자연수 M과 N이 빈 칸을 사이에 두고 주어진다. (1 ≤ M ≤ N ≤ 1,000,000) M이상 N이하의 소수가 하나 이상 있는 입력만 주어진다. 출력 한 줄에 하나씩, 증가하는 순서대로 소수를 출력한다. 소스 코드 def isPrime(num): if num == 1: return False else: for i in range(2, int(.. 2023. 10. 27. 백준 BOJ 1260번 DFS와 BFS - Python 풀이 https://www.acmicpc.net/problem/1260 1260번: DFS와 BFS 첫째 줄에 정점의 개수 N(1 ≤ N ≤ 1,000), 간선의 개수 M(1 ≤ M ≤ 10,000), 탐색을 시작할 정점의 번호 V가 주어진다. 다음 M개의 줄에는 간선이 연결하는 두 정점의 번호가 주어진다. 어떤 두 정점 사 www.acmicpc.net 문제 그래프를 DFS로 탐색한 결과와 BFS로 탐색한 결과를 출력하는 프로그램을 작성하시오. 단, 방문할 수 있는 정점이 여러 개인 경우에는 정점 번호가 작은 것을 먼저 방문하고, 더 이상 방문할 수 있는 점이 없는 경우 종료한다. 정점 번호는 1번부터 N번까지이다. 입력 첫째 줄에 정점의 개수 N(1 ≤ N ≤ 1,000), 간선의 개수 M(1 ≤ M ≤ 1.. 2023. 10. 26. 이전 1 ··· 4 5 6 7 8 9 10 다음