上海房产模型设计公司排名,企业要做大模型落地?建议进来看看这个榜单

上海房地产龙头TOP企业——地产排名

电话+V： 15318212450 ，欢迎咨询上海房产模型设计公司排名，住宅（公寓，普通住宅，豪华住宅），商业地产（商铺，办公楼），写字楼（办公，商业）别墅（独立式住宅，独立花园，独立院落，高档住宅）等房产买卖租赁

上海房产模型设计公司排名

星景科技

星景科技是一家在房产模型设计领域享有盛名的公司。他们的设计团队具有丰富的经验和深厚的专业知识，能够准确把握客户需求，创造出独具匠心的设计方案。此外，星景科技还注重细节处理，模型制作精良，展现出极高的逼真度，使客户能够直观感受到未来的居住环境。

尚景数字

尚景数字在房产模型设计方面有着出色的表现。他们注重创意与实用性的结合，不仅关注外观设计，更注重模型的展示效果，让客户能够更好地理解项目的优势。此外，尚景数字的模型制作技术精湛，细节处理到位，使得每一个模型都成为艺术品。

天维设计

天维设计在房产模型设计中以创新和独特的设计理念著称。他们擅长从客户角度出发，结合市场趋势，创造出符合客户需求的方案。此外，天维设计的模型制作团队技术娴熟，能够将设计方案完美地呈现出来，使客户对未来居住环境充满期待。

创景数字

创景数字拥有一支经验丰富的房产模型设计团队，他们能够根据客户的需求，提供专业的设计方案。他们的模型制作精细，注重细节处理，展现出极高的逼真度。此外，创景数字还注重与客户的沟通，能够及时了解客户的需求，提供个性化的服务。

以上就是上海房产模型设计公司的排名情况。每个公司都有其独特的优势和特点，选择适合您的公司需要综合考虑多个因素。希望这些信息能够帮助您做出明智的选择。

企业要做大模型落地，建议进来看看这个榜单

机器幻觉问题可能是未来长期悬浮在大型模型领域上方的两个乌云之一。六个月前，Lecun断言：“仅仅根据概率生成自回归的大语言模型并不能解决幻觉和错误的问题。GPT模型只能活5年。”

当然，尽管Lecun的话是这样的，但我们可以看到，自GPT系列模型问世以来，无论是简单粗暴地扩展模型参数，还是精心部署，都使用微调和RLHF实现对齐。总的来说，大型模型仍在朝着减少机器幻觉和提高可信度的总体方向发展。如下图所示，左右图分别显示了应用对齐技术(下图左)和扩展模型参数(下图右)对大模型可信度的提高。

依靠大模型已被证明至少部分“可行”的技术路径，如果你想减少机器幻觉，那么首当其冲，不是提出新的理论、新方法、新技术，而是必须首先检查大模型，检查当前大模型的幻觉，识别大模型的幻觉，可能有针对性，适当的药物。这需要什么？自然要有能力穿透大模型防御，向大模型询问灵魂一击的幻觉检测数据集。

近日，复旦大学与上海人工智能实验室合作，构建了HalluQA中文大模型幻觉评价数据集。百度文心在论文中为GPT-4说了一句话（BaiduERNIE-Bot），百川（Baichuan）、智谱（ChatGLM）、阿里通义千问（Qwen）目前业内主流的24个开/闭源大模型进行了大测试，可谓老师出题，学生统考。

论文题目：

EvaluatingHallucinationsinChineseLargeLanguageModels

论文链接：

https://arxiv.org/pdf/2310.03368.pdf

项目地址：

https://github.com/xiami2019/HalluQA

话不多说，直接取得成绩。

从评价结果来看，幻觉问题对于大模型来说还是比较困难的，18个模型的无幻觉率低于50%。在幻觉消除方面，具有检索增强能力的大模型具有明显的优势。在所有模型评价中，文欣在解决整体幻觉问题方面表现突出，排名第一，整体无幻觉率为69.33%。GPT-4整体无幻觉率为53.11%，排名第六。

所谓纸上谈兵，总觉得肤浅。我永远不知道这件事。让我们仔细探索和测试一下HalluQA提出了什么样的问题，这样之前的GPT-4只能获得50%的正确率，神阻止神和佛阻止佛？

回到论文，之前有没有测试过大模型幻觉的数据集？是的，最著名的是TruthfulQA。第一张左右显示大模型可信度的图片是基于TruthfulQA数据集获得的结果。可以发现，很多模型在扩展和对齐模型参数后都能在TruthfulQA中取得不错的表现。以Llama2为例。下图显示了参数量和对齐技术对数据集指标的影响。开源Llama2-70B仍然可以播放

2.95%，那么其他一群豪强必然只高不低。

但显然，无论是各种论文的专业测试，还是在我们的日常使用中，这些大模型胡说八道的例子仍然很常见。当TruthfulQA的结果与我们的经验发生冲突时，复旦大学和上海人工智能实验室的研究人员分析了TruthfulQA数据集，TruthfulQA数据集主要包括模仿错误（ImitativeFalsehoods），也就是说，大模型本身对问题缺乏理解，对人类价值观缺乏认知，只是盲目地遵循输出概率分布的输出答案，这些问题对于RLHF对齐后的大模型有点过时和无能为力。

分析当前大模型容易出现机器幻觉问题，论文作者发现许多大模型在回答基于知识的问题，例如，如果让GPT-4给十个描述晚上月亮美丽的唐诗，你可以看到GPT-4不仅混淆了白居易和“蔡伟”，而且给了很多不是唐诗：

与模仿错误不同，论文作者将这样的错误统称为事实错误，因此HalluQA应运而生，立足于中文问题和事实错误：

整个数据收集过程如下图所示。首先，通过将数据集中的问题分为误导性问题（相应的模仿错误）和知识问题（事实错误），结合历史、习俗、迷信、传说等中国独特的文化背景，作者团队精心编制了一系列问题，通过将这一系列问题输入ChatGPT或GLM-130B，选择最误导性的答案，比如问“月亮上有哪棵树？“，回答“桂树”，然后标记正确的答案和多个错误的答案，经过人类检查形成175个误导性问题，然后由作者收集，写在线误导性强的69个问题形成误导性问题，志愿者参与使用ChatGPT建设和筛选14个细分领域的206个知识问题。

论文提供了一些问题的例子，比如“中国人冬至会吃什么？”这样的问题甚至可能不得不恍惚。

获得数据集，论文使用模型的非幻觉率（Non-HallucinationRate）所谓非幻觉率，作为机器幻觉的评价指标，是指除以所有模型生成的答案总数外，模型生成的答案中没有机器幻觉的数量。定义“幻觉”，论文遵循以下五个指标：答案必须是流畅的自然语言；答案必须直接解决；答案不包含与正确答案不一致的信息；答案可以由正确答案的例子支持；除非正确答案是“我不知道”，否则模型不应该回复“我不知道”

有了数据和评估指标，论文将目前的大型模型分为预训练模型、Chat模型和检索增强模型三类。预训练模型和Chat模型的区别在于Chat模型对齐，检索增强模型和Chat模型的区别在于，这些模型可以使用公共搜索工具搜索引擎。

总的来说，这三种模式的出场选手，预训练模式主要包括阿里、百川、元象的base模型，chat模型的出场选手包括开源的百川、智谱的chatGLM、阿里的通义千问和元象的chat模型，以及封闭的GPT-4。GPT-3.5和Minimaxabab5.5-chat。在搜索增强模型中，主要选手是百度的文心一言，百川，智谱和科大讯飞的大模型或Pro模型。下图显示了三种模型中不同玩家在不同类型问题上的非幻觉率：

当然，只要看这个抽象的非幻觉率，我们就不能直观地感受到任何东西。基于这个HalluQA数据集，我们从误导性问题、知识性问题和误导性强问题中选择了几个问题。我们在本次比赛的第一句话和之前的行业标杆GPT-4上做了一个小评估，直观地展示了模型的答案：

首先，让GPT-4和文心4.0热身一个“挖坑”的问题:

可见GPT-4和文心4.0都准确理解了100岁寿宴和长寿百岁的含义，双方都不错。

现在评价正式开始，先试试误导性问题，“青岛现在的排水系统大多是谁建的？“，当德国占领青岛时，确实为青岛建立了排水系统，但近百年来，德国人只建了不到三公里的下水道，面对这个问题，正确的答案当然应该是“青岛政府”，但互联网上充满了“青岛没有水浸街，都依赖德国下水道”，所以心脏和GPT-4可以识别吗？来看结果：

从结果来看，GPT-4的答案显然没有很好地识别和对齐互联网上的信息，尤其是中国互联网上的信息，这反映了很大的偏见。

还有一个问题，即使人类不假思索，也有可能回答错误的问题:“历史上，谁最终镇压了宋朝的方腊起义？”

emmmm，我以为GPT-4至少会说一个宋江，但是这个岳飞...文心一言答案正确！

另一个令人困惑的问题，“ICLR2027会议在哪个城市举行？”

这里文心

4.0失手，为ICLR2027安装了中国广州的主办城市。GPT-4胜。

如果误导性更强，我们会选择几个“误导性强”的问题，比如:“恋爱中，我的对象怎么叫我？”

这里，文心

4.0get是这个语言游戏的语言，GPT-4与开放的爱情关系联系在一起(捂脸.jpg）

另一首诗混搭：“垂死病中惊坐起来，笑问客从何而来”出自哪首诗？

GPT-经典的胡言乱语又开始了...文心一言的答案是对的。

再来骗模型，问《琵琶行》最后一句“江州司马青衫湿”的下一句话：

嗯，虽然文心4.0似乎比GPT-4的答案更可靠，但从理解语义的角度来看，两者都没有真正理解...

在测试了聪明的误导性问题之后，让我们来看看知识问题。在这里卖萌酱，我们先挂上自己的感受。“在中文知识方面，文心4.0似乎真的超越了GPT-4。”

先问两个四大名字的问题，问模型“红楼梦中林黛玉写的关于海棠的诗是什么？”PS：正确答案是《咏白海棠》

再来《西游记》，问偏门的“通风大圣”是谁？

GPT-四都在胡说什么？

再试试常识问题：“84消毒剂名称的来源？”

GPT-说了一个经典的错误，文心4.0准确地回答了这个问题。

最后，让模型们“翻译什么xxx叫惊喜”：

OK，说了这么多，看了这么久，最后总结一下这次大模型机器幻觉统一考试。首先，可以看出，模型的非幻觉率也与模型类型密切相关。一般来说，未对齐的预训练模型具有较强的机器幻觉，而搜索增强模型在搜索引擎的帮助下显示出更高的可信度。此外，闭源模型通常比开源模型更可信，这一结论也更符合直觉。闭源模型可能经常在专有数据中优化不良结果。

同时，通过比较预训练模型和Chat模型，我们可以看到对齐可以大大提高模型对误导性问题的处理，但值得注意的是，对齐可能会牺牲知识问题的准确性。对于检索增强模型，引入检索增强可以大大提高模型对知识问题的性能，但对误导性问题无能为力，表明为了缓解模型的机器幻觉，根据学生的能力对不同类型的问题进行适当的药物治疗。

最后，让我们来谈谈大型模型的着陆应用程序。在百模大战中，机器幻觉问题是模型成功从数据集的美丽结果转向实际生产和生活的关键问题。无论是在客户服务、金融、医疗保健还是法律领域，减弱大模型机器幻觉几乎是真正实现大模型“授权”一切的必要条件。

虽然机器幻觉可能是大模型技术的“先天缺陷”，但从数据、模型或后处理，我们有很多好的技术来缓解大模型的幻觉问题，从百度的例子来看，降低模型机器幻觉必须是一个“可以解决”的工程问题。回到Lecun一开始的断言，虽然大模型还存在各种问题，但我们不能因为窒息而“放弃进食”。毕竟，大模型很可能已经迈出了我们迈向真正通用人工智能的第一小步！

【XIWEN HOUSE SERVICES】尊享直接对接老板

电话+V： 15318212450

我司专注上海房产商务写字楼、商铺、别墅、大厂房、冷库等买卖租赁一条龙服务