टेबल का पता नहीं के साथ tabula और camelot

0

सवाल

मैं निकालने की कोशिश की मेज से पीडीएफ़ में नहीं हैं कि उचित प्रारूप में है कि मुझे लगता है । टेबल में इन Pdf है एक तालिका स्वरूप में नहीं बल्कि संलग्न के साथ ठीक से verical सीमाओं. enter image description here मैं हूँ देते हैं नमूना पीडीएफ और उत्पादन के साथ दोनों पुस्तकालयों. मैं कोशिश की जब का उपयोग करने के लिए tabula के लिए तालिका का पता लगाने, एक खाली datadrame वापस आ रहा है पर सभी पृष्ठों पीडीएफ में.

0 में प्रवेश के लिए एकल पृष्ठों, के लिए 1, 2 के लिए विशिष्ट पृष्ठ: 2 में प्रवेश पृष्ठ संख्या: 25 कोई मेज पर पाया इस पृष्ठ के द्वारा tabula.

और जब मैं का उपयोग करें camelot वहाँ है कोई एक ही प्रतिक्रिया है जब मैं का उपयोग करें flovor='lattice'

0 में प्रवेश के लिए एकल पृष्ठों, 1 के लिए सभी पृष्ठों, के लिए 2 पृष्ठों में मेज से पता चला रहे हैं tabula, 3 विशिष्ट पृष्ठों के लिए: 3 0 में प्रवेश के लिए जाली या 1 के लिए धारा: 0 में प्रवेश पृष्ठ संख्या: 25 कोई मेज पर पाया इस पृष्ठ के द्वारा camelot.

और जब मैं का उपयोग करें flovor='stream', मैं एक dataframe है कि प्रत्येक पंक्ति में लाइन से लाइन को पढ़ने के साथ टैब अलग डेटा, लेकिन यह शामिल हैं सामान्य पाठ के रूप में अच्छी तरह से है कि dataframe.

0 में प्रवेश के लिए एकल पृष्ठों, 1 के लिए सभी पृष्ठों, के लिए 2 पृष्ठों में मेज से पता चला रहे हैं tabula, 3 विशिष्ट पृष्ठों के लिए: 3 0 में प्रवेश के लिए जाली या 1 स्ट्रीम के लिए: 1 में प्रवेश पृष्ठ संख्या: 25 enter image description here

मैं बस जरूरत है एक कुशल तरीके से पता लगाने के लिए टेबल पर और एक ही डेटा निकाल सकते यदि खड़ी संलग्न तालिका लाइनों मौजूद नहीं हैं. दोनों tabula और camelot पुस्तकालयों ठीक काम कर रहे हैं, तो तालिका में उचित प्रारूप संलग्न द्वारा ऊर्ध्वाधर और क्षैतिज लाइनों.

nlp pdf python python-camelot
2021-11-22 15:08:39
2

सबसे अच्छा जवाब

0

इस विधि आप मदद कर सकता है: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

आप पा सकते हैं specifiy ऊर्ध्वाधर विभाजक के लिए camelot से गुजर x निर्देशांक, पहले आप का उपयोग करना चाहिए ".साजिश () विधि" में camelot को देखने के लिए टेबल के अंदर पीडीएफ और नोट बनाने के x निर्देशांक आप चाहते हैं, जहां खड़ी seperators किया जा करने के लिए तो उनके पास में नीचे की तरह:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2']) 
2021-11-22 15:52:19
-1

टेबल का पता नहीं के साथ tabula और camelot

मैं हाल ही में किया गया काम निकालने के लिए मेज से पीडीएफ.

Tabula और camelot फ्लॉप काम के लिए मुझे या तो है, लेकिन pdfplumber मुझे अपेक्षित परिणाम.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)
2021-11-27 11:30:02

अन्य भाषाओं में

यह पृष्ठ अन्य भाषाओं में है

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................

इस श्रेणी में लोकप्रिय

लोकप्रिय सवाल इस श्रेणी में