pdf 근접단어 찾기 chatgpt

프로그래밍/파이썬

pdf 근접단어 찾기 chatgpt

do121 2023. 3. 21. 07:20

import PyPDF2
import re
import nltk
import numpy as np

# PDF 파일 열기
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 모든 페이지에서 문장 추출하여 단어로 분리 후 근접한 단어 찾기
word1 = 'apple'
word2 = 'juice'
for page_num in range(pdf_reader.getNumPages()):
    # 페이지 추출
    page = pdf_reader.getPage(page_num)
    text = page.extractText()

    # 문장으로 분리
    sentences = nltk.sent_tokenize(text)

    # 문장에서 단어로 분리
    words = [nltk.word_tokenize(sent) for sent in sentences]

    # 근접한 단어 찾기
    for sent_words in words:
        sent_len = len(sent_words)
        for i in range(sent_len):
            if sent_words[i] == word1:
                for j in range(max(0, i-5), min(sent_len, i+6)):
                    if re.match(r'\w', sent_words[j]):
                        if np.abs(i-j) <= 5 and sent_words[j] == word2:
                            print(f"{word1} and {word2} are found in the same sentence: {' '.join(sent_words)}")
                            break

'프로그래밍 > 파이썬' 카테고리의 다른 글

flask 에서 인수를 받는 방법 chatgpt (0)	2023.03.28
pdf 근접단어 찾기(pdfminer) chatgpt (0)	2023.03.21
환율 예측 chatgpt (0)	2023.02.24
에러 메세지 (0)	2022.12.06
파이썬 팁 (0)	2022.12.06

현재글pdf 근접단어 찾기 chatgpt

자작, diy, 엑셀, vba, delphi, 3d print, delphi, python, 건강, arduino, esp8266

이산화탄소 측정기, 시놀로지 나스, NodeMCU, 아두이노, eco2, 기압, 습도, 톨루엔, 3D 프린터, 고장, bme280, sds011, 아두이노 나노, GSBT11-P110, esp01, mh-z14, 온도, 휘발성유기화합물, VOC, tvoc,

Today :
Yesterday :

메모