टेबल का पता नहीं के साथ tabula और camelot

Question 1

मैं निकालने की कोशिश की मेज से पीडीएफ़ में नहीं हैं कि उचित प्रारूप में है कि मुझे लगता है । टेबल में इन Pdf है एक तालिका स्वरूप में नहीं बल्कि संलग्न के साथ ठीक से verical सीमाओं. मैं हूँ देते हैं नमूना पीडीएफ और उत्पादन के साथ दोनों पुस्तकालयों. मैं कोशिश की जब का उपयोग करने के लिए tabula के लिए तालिका का पता लगाने, एक खाली datadrame वापस आ रहा है पर सभी पृष्ठों पीडीएफ में.

0 में प्रवेश के लिए एकल पृष्ठों, के लिए 1, 2 के लिए विशिष्ट पृष्ठ: 2 में प्रवेश पृष्ठ संख्या: 25 कोई मेज पर पाया इस पृष्ठ के द्वारा tabula.

और जब मैं का उपयोग करें camelot वहाँ है कोई एक ही प्रतिक्रिया है जब मैं का उपयोग करें flovor='lattice'

0 में प्रवेश के लिए एकल पृष्ठों, 1 के लिए सभी पृष्ठों, के लिए 2 पृष्ठों में मेज से पता चला रहे हैं tabula, 3 विशिष्ट पृष्ठों के लिए: 3 0 में प्रवेश के लिए जाली या 1 के लिए धारा: 0 में प्रवेश पृष्ठ संख्या: 25 कोई मेज पर पाया इस पृष्ठ के द्वारा camelot.

और जब मैं का उपयोग करें flovor='stream', मैं एक dataframe है कि प्रत्येक पंक्ति में लाइन से लाइन को पढ़ने के साथ टैब अलग डेटा, लेकिन यह शामिल हैं सामान्य पाठ के रूप में अच्छी तरह से है कि dataframe.

0 में प्रवेश के लिए एकल पृष्ठों, 1 के लिए सभी पृष्ठों, के लिए 2 पृष्ठों में मेज से पता चला रहे हैं tabula, 3 विशिष्ट पृष्ठों के लिए: 3 0 में प्रवेश के लिए जाली या 1 स्ट्रीम के लिए: 1 में प्रवेश पृष्ठ संख्या: 25

मैं बस जरूरत है एक कुशल तरीके से पता लगाने के लिए टेबल पर और एक ही डेटा निकाल सकते यदि खड़ी संलग्न तालिका लाइनों मौजूद नहीं हैं. दोनों tabula और camelot पुस्तकालयों ठीक काम कर रहे हैं, तो तालिका में उचित प्रारूप संलग्न द्वारा ऊर्ध्वाधर और क्षैतिज लाइनों.

Question 2

इस विधि आप मदद कर सकता है: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

आप पा सकते हैं specifiy ऊर्ध्वाधर विभाजक के लिए camelot से गुजर x निर्देशांक, पहले आप का उपयोग करना चाहिए ".साजिश () विधि" में camelot को देखने के लिए टेबल के अंदर पीडीएफ और नोट बनाने के x निर्देशांक आप चाहते हैं, जहां खड़ी seperators किया जा करने के लिए तो उनके पास में नीचे की तरह:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

Question 3

टेबल का पता नहीं के साथ tabula और camelot

मैं हाल ही में किया गया काम निकालने के लिए मेज से पीडीएफ.

Tabula और camelot फ्लॉप काम के लिए मुझे या तो है, लेकिन pdfplumber मुझे अपेक्षित परिणाम.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

Mahmud Alptekin · Answer 1 · 2021-11-22T15:52:19

इस विधि आप मदद कर सकता है: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

आप पा सकते हैं specifiy ऊर्ध्वाधर विभाजक के लिए camelot से गुजर x निर्देशांक, पहले आप का उपयोग करना चाहिए ".साजिश () विधि" में camelot को देखने के लिए टेबल के अंदर पीडीएफ और नोट बनाने के x निर्देशांक आप चाहते हैं, जहां खड़ी seperators किया जा करने के लिए तो उनके पास में नीचे की तरह:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

DS_ShraShetty · Answer 2 · 2021-11-27T11:30:02

टेबल का पता नहीं के साथ tabula और camelot

मैं हाल ही में किया गया काम निकालने के लिए मेज से पीडीएफ.

Tabula और camelot फ्लॉप काम के लिए मुझे या तो है, लेकिन pdfplumber मुझे अपेक्षित परिणाम.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

टेबल का पता नहीं के साथ tabula और camelot

सवाल

सबसे अच्छा जवाब

टेबल का पता नहीं के साथ tabula और camelot

अन्य भाषाओं में

यह पृष्ठ अन्य भाषाओं में है

इस श्रेणी में लोकप्रिय

लोकप्रिय सवाल इस श्रेणी में