Midjourney将推文本转视频模型
开源LLM和服务的激增——其中一些是为了不设置安全护栏来防止恶意使用而建立的——意味着这个领域仍然是一个未知数。
比如一种沿着断层线的「慢地震」行为(预示地震到来的有用指标),以及地震噪声。
在他眼里,地震很大程度上是随机过程——我们可以把概率附加到事件上,但无法准确预测。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。