Javid Iqbal on Warpcast

Content pfp

https://warpcast.com/~/channel/airdrop

0 reply

0 recast

0 reaction

Javid Iqbal pfp

To create a reward model for reinforcement learning, we needed to collect comparison data, which consisted of two or more model responses ranked by quality

13 replies

1 recast

3 reactions

Zubair Sarim🎩⚡🎭Ⓜ️ pfp

Zubair Sarim🎩⚡🎭Ⓜ️

🍖 🍖 🍖 🍖 🍖

0 reply

0 recast

0 reaction

Fiza Ansari pfp

0 reply

0 recast

0 reaction

Rizwan Ahmad🎩🍖🌈 pfp

Rizwan Ahmad🎩🍖🌈

0 reply

0 recast

0 reaction

zubair bodla🎩🍖🎭Ⓜ️ pfp

zubair bodla🎩🍖🎭Ⓜ️

0 reply

0 recast

0 reaction

zubair bodla🎩🍖🎭Ⓜ️ pfp

zubair bodla🎩🍖🎭Ⓜ️

0 reply

0 recast

0 reaction

Ethan🎩🫂 pfp

0 reply

0 recast

0 reaction

Asma Khan 🎩🎭 pfp

Asma Khan 🎩🎭

0 reply

0 recast

0 reaction

Barbie 🎩🎭Ⓜ️ ✪ pfp

Barbie 🎩🎭Ⓜ️ ✪

0 reply

0 recast

0 reaction

Farooq Bodla pfp

0 reply

0 recast

0 reaction

Ayesha Khan pfp

0 reply

0 recast

0 reaction

Zakia Malik🎩🍖🔮 pfp

Zakia Malik🎩🍖🔮

0 reply

0 recast

0 reaction