[Keras] Tokenizer 사용 방법 / 예제 [ic]Tokenizer[/ic]는 토큰화와 정수인코딩을 할 때 사용되는 모듈이다. Tokenization(토큰화) 란? 텍스트 뭉치를 단어, 구 등 의미있는 element로 잘게 나누는 작업을 의미한다. 정수인코딩 이란? 딥러닝 모델이 읽을 수 있도록 토큰화된 문자를 숫자로 변경해주는 작업이다. 1. 준비 사항 1) 데이터 준비 data_list = [ '오늘 내 주식 올랐다', '오늘도 수고했어', '너는 할 수 있어', '오늘 날씨가 좋다', '지금처럼만 하면 잘될거야', '넌 너를 좋아해', '지금 정말 잘하고 있어', '사랑해', '오늘 점심 맛있다', ] 2) 모듈 import from tensorflow.keras.preprocessing.text import Tokenizer 2. [ic].. 머신러닝,딥러닝/NLP 2023. 1. 4. [keras] 패딩(padding) 하는법 with pad_sequences 자연어처리에서 [ic]Padding[/ic]을 왜 해줄까? 각 문장 길이가 다르면 병렬 연산이 어렵기 때문이다. 이때 패딩을 통해 고정된 길이를 맞춰주면 작업이 용이하다. 1) 데이터 준비 길이가 다른 각 문장을 정수 인코딩한 형태다. data = [ [1, 2, 3], [4, 5], [6, 7, 8, 9, 10, 11] ] 2) [ic]pad_sequences[/ic] 사용법 keras에서 제공하는 [ic]pad_sequences[/ic] 를 통해 패딩을 적용해보겠다. from keras_preprocessing.sequence import pad_sequences (1) default 세팅 data_padded = pad_sequences(sequences=data) print(data_padded).. 머신러닝,딥러닝/NLP 2023. 1. 2. konlpy 설치 오류 해결 방법(jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found) 많은 블로그에서 하라는대로 환경 변수를 설정했는데도 아래와 같은 에러가 발생하시는분들이 많이 있을겁니다. 이를 해결 하기 위해먼저 정말 환경 변수가 잘 설정되었는지 확인 해야 합니다. print('JAVA_HOME' in os.environ) 혹시 False가 나오나요? 아래와 같이 환경변수를 설정하셨어도 False가 나온다면 잘 설정된 것이 아닙니다. 이를 해결하기위해 코드상에서 강제로 환경변수를 설정합니다. os.environ['JAVA_HOME'] = r'C:\Program Files\Java\jdk-17.0.2\bin\server' 다시 아래 코드를 작성하여 True를 확인하신다면 정상적으로 작동이 되실겁니다. print('JAVA_HOME' in os.environ) # 참고 테스트 환경 : p.. 머신러닝,딥러닝/NLP 2022. 3. 18. 이전 1 다음