मान लीजिए कि मैं एक डेटा फ्रेम के रूप में निम्नानुसार:
df = pd.DataFrame({
'Column A': [12,12,12, 13, 15, 16, 141, 141, 141, 141],
'Column B':['Apple' ,'Apple' ,'Orange' ,'Apple' , np.nan, 'Orange', 'Apple', np.nan, 'Apple', 'Apple']})
इन शर्तों पर आधारित:
अगर मान स्तंभ में एक दोहराया जाता है तो गिनती के शब्द 'ऑरेंज' में स्तंभ B और पेस्ट में यह नया स्तंभ C(उदाहरण के लिए, वहाँ रहे हैं 3 पंक्तियों के लिए 12, गिनती के 'ऑरेंज' 1 है, और यह 1 में होना चाहिए नए स्तंभ C). गैर के लिए-दोहराने पंक्तियों, सिर्फ पेस्ट इसी मूल्यों.
अगर मान स्तंभ में एक दोहराया जाता है तो गिनती के शब्द 'एप्पल' में स्तंभ B और पेस्ट में यह नया स्तंभ D(उदाहरण के लिए, वहाँ रहे हैं 3 पंक्तियों के लिए 12, गिनती की 'एप्पल' 2 है, और इस 2 में होना चाहिए नए स्तंभ D). गैर के लिए-दोहराने पंक्तियों, सिर्फ पेस्ट इसी मूल्यों.
के लिए दोहराया और गैर-दोहराया पंक्तियों के कारण एक स्तंभ है, अगर शब्द 'ऑरेंज' में मौजूद है स्तंभ B लिखने के लिए, 'हाँ' और 'नहीं' में स्तंभ ई.
मैं होगा की तरह है करने के लिए एक आउटपुट निम्न है । मैं कोशिश कर रहा था अजगर में jupyter नोटबुक कर सकते हैं, किसी कृपया मेरी मदद प्राप्त करने के लिए एक उत्पादन में इस तरह:
| Column A | Column B |Column C |Column D |Column E
----- | -------- | ---------|---------|---------|---------
0 | 12 | Apple |1 |2 |Yes
1 | 13 | Apple |0 |1 |No
2 | 15 | NaN |NaN |NaN |NaN
3 | 16 | Orange |1 |0 |Yes
4 | 141 | Apple |0 |3 |No
अग्रिम धन्यवाद:)