1 23 10

Haowei Zhang

freesky

freesky01

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

upvoted a paper 3 days ago

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

upvoted a paper 16 days ago

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

View all activity

Organizations

upvoted a paper 2 days ago

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

Paper • 2601.13836 • Published 3 days ago • 32

upvoted a paper 3 days ago

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Paper • 2601.11077 • Published 7 days ago • 62

upvoted a paper 16 days ago

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

Paper • 2601.01554 • Published 19 days ago • 54

upvoted a paper about 1 month ago

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Paper • 2512.07525 • Published Dec 8, 2025 • 59

upvoted 4 papers 3 months ago

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Paper • 2511.04570 • Published Nov 6, 2025 • 212

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

Paper • 2510.14942 • Published Oct 16, 2025 • 3

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Paper • 2510.23763 • Published Oct 27, 2025 • 55

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Paper • 2510.13626 • Published Oct 15, 2025 • 46

upvoted a paper 6 months ago

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published Jul 17, 2025 • 20

upvoted 5 papers 7 months ago

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Paper • 2507.06223 • Published Jul 8, 2025 • 14

TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published Apr 22, 2025 • 120

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Paper • 2507.01001 • Published Jul 1, 2025 • 46

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18, 2025 • 12

FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Paper • 2506.14824 • Published Jun 12, 2025 • 8

upvoted 2 papers 8 months ago

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

Paper • 2505.23693 • Published May 29, 2025 • 53

Table-R1: Inference-Time Scaling for Table Reasoning

Paper • 2505.23621 • Published May 29, 2025 • 93

upvoted 2 papers 11 months ago

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Paper • 2503.07459 • Published Mar 10, 2025 • 16

MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

Paper • 2502.11663 • Published Feb 17, 2025 • 40

upvoted a paper 12 months ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 435

upvoted a paper about 1 year ago

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper • 2501.12380 • Published Jan 21, 2025 • 84

Haowei Zhang

AI & ML interests

Recent Activity

Organizations

freesky's activity