मैं निम्नलिखित कोड का उपयोग करें:
random = [("ABC",xx, 1),
("DEF",yy,1),
("GHI",zz, 0)
]
randomColumns = ["name","id", "male"]
randomDF = spark.createDataFrame(data=random, schema = randomColumns)
test_df = randomDF.select("name", "id")
test_df.filter(f.col("male") == '1').show()
, ऊपर कोड से मैं यह उम्मीद करने के लिए एक त्रुटि में परिणाम के लिए है, क्योंकि test_df मैं न चुनें पुरुष स्तंभ से मूल dataframe. हैरानी की बात है इसके बाद के संस्करण क्वेरी चलाता है बस ठीक है किसी भी त्रुटि के बिना और outputs के निम्नलिखित हैं:
+---------+-------+
|name | id|
+---------+-------+
| abc| xx|
| def| yy|
+---------+-------+
मैं समझने के लिए चाहते हैं के पीछे तर्क क्या चिंगारी कर रही है. के रूप में प्रति चिंगारी प्रलेखन का चयन रिटर्न एक नया dataframe. तो फिर क्यों है यह अभी भी उपयोग करने में सक्षम पुरुष स्तंभ माता-पिता से dataframe.